Atividades Realizadas

Registro das atividades e histórico de desenvolvimento do projeto Hemeroteca PEB.

Confira abaixo o histórico detalhado das atividades realizadas pela equipe do projeto Hemeroteca PEB.

Atividades Realizadas

DataAtividades RealizadasParticipantes
19/06/2023Verificação de similaridade pelo nome do arquivo pdfRafael, João Paulo e Thiago
12/06/2023Edições do arquivo “METADADOS_FINAL_copy_ajustado.json”, nas seções título_noticia e nome_arquivo_pdf com base no docs 2023-06-05-mudança_titulos_notícias_hpebJoão Paulo e Thiago
05/06/2023Ajustes do código para identificação de similaridadeRafael, João Paulo e Thiago
08/05/2023Removendo arquivos repetidos nas pastas da hemerotecaJoão Paulo, Rafael e Thiago
24/04/2023Criação de um novo banco json apenas com as entradas selecionadas (sem as duplicatas) usando o pandasJoão Paulo, Rafael e Thiago
17/04/2023Seleção de duplicatas no json usando o pandasJoão Paulo, Rafael e Thiago
03/04/2023Identificação de duplicatas no json usando o pandasJoão Paulo, Rafael e Thiago
20/03/2023Organização de tarefas no gestor do gitlab, criação de código de buscas por palavras-chave no colab e ajustes no banco json da hemerotecaJoão Paulo, Rafael e Thiago
09/02/2023Reestruturação das pastas e arquivos do projetoThiago, João Paulo, Rafael
16/11/2022Inserção de link no Readme e inclusão do streamlitThiago, João Paulo, Rafael
09/11/2022Ajuste no script para fazer ocr em imagens com baixo dpiThiago, João Paulo, Rafael
26/10/2022Início da realização do OCR em toda a base de dados jsonRafael, Thiago, João Paulo
19/10/2022Preparação para realização do OCR em toda a base dadosRafael, Thiago, João Paulo
28/09/2022Vinculação das datas do banco json aos arquivos em pdfThiago, Rafael
21/09/2022Código para vincular metadados ao xmp e às propriedades do pdfAna, Thiago, Rafael
14/09/2022Ajustes para viabilizar o ocr e atualizar o banco jsonAna, Rafael
05/09/2022OCR em português; Exclusão das pags avulsas de notícias com mais de uma pagAna, Rafael
29/08/2022Preparação dos arquivos tifs para realização do OCRAna, Rafael, Thiago
24/08/2022Início do ocr nos arquivosAna, Rafael
08/08/2022Ajustes no banco jsonAna, Rafael, Thiago
08/08/2022Remover sufixos dos nomes dos arquivosAna, Rafael, Thiago
04/08/2022Retirar listas de títulos e ajustar páginas tifs faltantesAna, Rafael, Thiago
04/08/2022Início da documentaçãoAna, Rafael, Thiago
03/08/2022Verificação de arquivos ausentes do banco jsonAna, Rafael, Thiago
28/07/2022Mesclagem das pastas tif2 e tif3 na pasta tifAna, Rafael, Thiago
28/07/2022Mesclagem do metadados.json com metadados02Ana, Rafael, Thiago
27/07/2022Retirada dos sufixos desnecessários dos nomes dos arquivos e títulos das notíciasAna, Rafael, Thiago
27/07/2022Padronização da sigla da Gazeta MercantilAna, Rafael, Thiago
07/07/2022Tentativa de inserção de metadados no banco jsonAna, Rafael, Thiago
06/07/2022Estruturação do script para inserir informações do banco json a partir do nome do arquivoAna, Rafael, Thiago
30/06/2022Revisão de arquivos duplicados do banco jsonAna, Rafael, Thiago
29/06/2022Inserção dos metadados dos arquivos renomeadosAna, Rafael, Thiago
23/06/2022Continuação da renomeação manual dos arquivosAna, Rafael
22/06/2022Renomeação manual dos arquivos sem nomesAna, Rafael, Thiago
15/06/2022Trabalho em torno dos arquivos não inseridos no jsonAna, Rafael, Thiago
09/06/2022Tratamento das datas e siglas do banco jsonAna, Rafael, Thiago
09/06/2022Renomeação dos nomes dos arquivosAna, Rafael, Thiago
08/06/2022Estrutura da renomeação dos nomes dos arquivosAna, Rafael, Thiago
08/06/2022Mesclagem dos metadados revisadosAna, Rafael, Thiago
02/06/2022Revisão final dos metadados inseridos no banco jsonAna, Rafael, Thiago
01/06/2022Início da montagem do script para renomear os nomes dos arquivosAna, Rafael, Thiago
01/06/2022Verificação dos metadadosAna, Rafael, Thiago
26/05/2022Revisão do banco de json_mescladoAna, Thiago, Rafael
19/05/2022Finalização do ajuste manual dos metadadosAna, Thiago, Rafael
31/03/2022Revisão das datasAna, Thiago e Rafael
29/03/2022Revisão das datasAna e Rafael
29/03/2022Revisão das siglasThiago e Rafael
24/03/2022Continuação da correção: Datas, títulos, nome_jornais com problemasRafael, Ana e Thiago
22/03/2022Correção de erros: títulos vazios, page no título e siglas com “NA”Rafael, Ana e Thiago
22/03/2022Revisão das datas erradasRafael, Ana e Thiago
17/03/2022Montagem do banco com metadados normalizados separados dos não normalizadosRafael, Ana, Thiago
17/03/2022Verificação do tratamento das siglasRafael, Thiago, Ana
15/03/2022Tratamento das siglas dos jornaisRafael, Thiago, Ana
10/03/2022Análise de como resolver os problemas dos metadados (data, sigla e titulo)Rafael, Thiago
08/03/2022Finalização do tratamento de encode incorretoRafael, Ana e Thiago
03/03/2022Tratamento das informações do banco de dados jsonRafael, Thiago, Ana
24/02/2022Início da verificação dos dados do banco jsonRafael, Thiago, Ana
22/02/2022Finalização da primeira versão do banco jsonRafael, Thiago, Ana
17/02/2022Estruturando inserção de uma entrada no banco para cada arquivo com mais de uma páginaRafael, Thiago e Ana Julia
15/02/2022Inicio da inserção dos metadados no banco jsonAna Julia, Rafael, Thiago
10/02/2022Início da realização do OCRRafael e Thiago
03/02/2022Finalização da organização dos arquivos (pastas apenas com tif).Ana, Rafael, Thiago
01/02/2022Conversão pdfs em tifs.Ana, Rafael, Thiago
27/01/2022Finalização da mesclagem dos arquivos; Início da conversão dos pdfs em tif.Ana, Rafael, Thiago
25/01/2022Mesclando os arquivos digitalizados na época da Regiane e da época Ricardo/KellyAna, Rafael, Thiago
20/01/2022Início do tratamento dos arquivos da hemeroteca - Definindo estruturas do diretórioAna, Rafael, Thiago
18/01/2022Ajustes no ambiente virtualAna, Rafael
07/10/2021Configuração do ambiente local (MacOs)Ana, Rafael, Thiago
05/10/2021Configuração do ambiente local (windows)Ana, Rafael, Thiago
30/09/2021Introdução e revisão sobre aspectos relacionados ao ambiente virtual (anaconda), Git/GitlabAna, Rafael, Thiago
28/09/2021Introdução ao python, estrutura básica de script, trabalhando com diretórios e criação do gitignoreAna, Rafael, Thiago
23/09/2021Início a renomeação dos arquivosAna, Rafael, Thiago
21/09/2021Utilização de branchs, tags e versionamento semânticoAna, Rafael, Thiago
16/09/2021Utilização do Markdown e do GitAna, Rafael, Thiago
14/09/2021Criação de página de gestão de projetos no NotionAna, Rafael, Thiago
09/09/2021Criação do repositório e do ambiente virtual do projetoAna, Rafael, Thiago

Próximas Atividades Gerais

  • OCR nos arquivos (gerar pdf pesquisável)
    • ocrmypdf
    • layoutparser
    • OpenCV/Pillow
    • Deep Learning based Super Resolution with OpenCV
    • OpenCV Super Resolution with Deep Learning
  • Unir arquivos pdfs com mais de uma página
  • Vincular metadados aos arquivos (xmp-pikepdf)
  • Vincular metadados aos arquivos (data, autor e título)
  • Substituir arquivos da hemeroteca
  • Análise de dados (pandas)
  • Buscar substituir arquivos pdf por html
  • Aprendizado de máquina

Próximas Atividades Específicas

(Esta seção será atualizada em breve com novas definições)


Last updated on 10/15/2025 by Rafael de Almeida