Elementos do Banco de Dados

Definição das variáveis, tipos e estrutura do banco de dados.

Esta seção detalha a estrutura de dados utilizada no projeto, definindo as variáveis, seus tipos e exemplos de aplicação.

Observações sobre a Coleta

Antes de analisar a estrutura do banco, atente-se aos seguintes pontos identificados durante o processo de coleta:

<Notice type=“info”> Autoria

  • A autoria nem sempre aparece na página web visível, mas pode estar presente no código-fonte. Contudo, o formato do nome muitas vezes se apresenta como no exemplo: /autor/cmgutierrez/.
  • O nome do autor não é necessariamente de quem escreveu a notícia; pode ser o nome do responsável pela publicação no site. </Notice>

<Notice type=“warning”> Fuso Horário

É necessário se atentar com os horários dos jornais peruanos, pois apresentam fuso horário -5 (UTC-5). </Notice>


Dicionário de Variáveis

A tabela abaixo descreve os elementos que compõem o banco de dados principal.

VariáveisTipoDescriçãoExemplos NewscloudExemplos GovLatinAmerica
tipo_dadolistDisponibilidade dos dadosAberto / FechadoAberto / Fechado
paisstrPaís referente ao dadoBrasilBrasil
origemlistNome da fonte dos dadosEstadãoMinistério da Educação
siglastrJunção do País com a Origem (Abreviado)BRA-ESTADAO-
categorialistCategoria dos dados (subdivisão)Política, EconomiaTrabalho, Emprego e Previdência
autorialistQuem é o autor dos dadosAutor da NotíciaAutor dos documentos
titulostrTítulo dos dadosTítulo da NotíciaTítulo do artigo
subtitulostrSubtítulo do artigoSubtítulo da NotíciaSubtítulo do artigo
datastrData de publicaçãodd/mm/aaaadd/mm/aaaa
horariostrHorário de publicaçãohh:mmhh:mm
datetimedatetimeData e Horário de publicaçãodd/mm/yyyy hh:mmdd/mm/yyyy hh:mm
data_atualizadolistData de Atualizaçãodd/mm/aaaa-
horario_atualizadolistHorário de Atualizaçãohh:mmhh:mm
linkstrURLs que devem ser coletadoshttps:...https:...
link_archivestrLink arquivado (Wayback Machine, etc)--
data_archivelistData do arquivamento--
horario_archivelistHorário do arquivamento--
locallistLocal da notícia--
tagslistTags de identificação dos dados-”Economia popular e solidária”
paragrafoslistCorpo do textoParágrafos das notíciasParágrafos dos artigos
nome_arquivostrNome do arquivo salvo--
imagenslistLista de imagens da notícia--
dir_bdlistDiretório do Banco de Dados--
dir_arquivolistDiretório do Arquivo--
codigo_bdstrCaminho do banco de dadosbd/002/010/001bd/001/02/001
nome_bd_jsonstrNome do documento JSONBD_JORNAL_CHILE_LA_NACION.json-
env_dir_bdstrCódigo do banco usado na variável de ambienteBD_JORNAL_BOLIVIA_ELDEBER-
extra_01strCampo extra para informações diversas--
extra_02strCampo extra para informações diversas--
extra_03strCampo extra para informações diversas--

Definição de Variáveis de Ambiente

Explicação sobre as variáveis utilizadas para controle de diretórios e arquivos.

VariávelSignificadoExemplo
env_dir_bdAponta para uma variável de ambiente que leva para o diretório raizA variável de ambiente leva para o diretório local/raiz BD_JORNAL_UNESP
env_dir_jsonDiretório geral dos arquivos jsonenv_dir_bd + /json
nome_bd_jsonNome do arquivo jsonenv_dir_bd + data
dir_jsonCaminho completo do arquivo jsonenv_dir_json + env_dir_bd + data.json

Tabela Modelo

Resumo dos tipos de dados esperados para cada elemento.

ElementoSignificadoTipo
origem-str
sigla-str
classificado-list
categoria-list
País-str
autoria-list
titulo-str
subtitulo-str
data-str
horario-str
data_atualizado-list
horario_atualizado-list
link_archive-str
data_archive-str
horario_archive-str
local-list
tags-list
paragrafos-list
nome_arquivo-str
imagens-list
dir_bd-str
dir_arquivo-str
codigo_bd-str
extra_01--
extra_02--
extra_03--

Indexação de Dados

Os HTMLs gerados a partir da coleta podem ser pesquisados através da ferramenta Recoll.

Índices Externos

Para gerar os índices externos é necessário indicar:

  1. A pasta em que se encontram os dados (HTMLs ou PDFs);
  2. A pasta na qual o índice será salvo.



Last updated on 10/15/2025 by Rafael de Almeida