Atividades Realizadas
Histórico detalhado das atividades do projeto NewsCloud.
Confira abaixo o registro completo das atividades de desenvolvimento, coleta e manutenção do projeto NewsCloud.
Histórico de Atividades
| Data | Atividades Realizadas | Participantes |
|---|---|---|
| 09/02/2024 | EQUADOR-ECO, PERU-ECO, COLOMBIA-EES - Retomada da segunda coleta | Rafael, Maria Clara Tomazini |
| 09/02/2024 | EQUADOR-ECO, PERU-ECO, COLOMBIA-EES - Ajustes nas coletas | Rafael, Maria Clara Tomazini |
| 02/02/2024 | EQUADOR-ECO, PERU-ECO, COLOMBIA-EES - Revisão e planejamento das coletas restantes | Rafael, Maria Clara Tomazini |
| 15/12/2023 | EQUADOR-ECO, PERU-ECO, COLOMBIA-EES - Início da indexação no recoll | Rafael, Maria Clara Tomazini |
| 24/11/2023 | EQUADOR-ECO - Ajustes e organização da base de dados | Rafael, Maria Clara Tomazini |
| 24/11/2023 | PERU-ECO - Ajustes e organização da base de dados | Rafael, Maria Clara Tomazini |
| 24/11/2023 | COLOMBIA-EES - Ajustes e organização da base de dados | Rafael, Maria Clara Tomazini |
| 09/10/2023 | COLOMBIA-ELT - Início da estruturação da coleta | Rafael, Maria Clara Tomazini |
| 09/10/2023 | PERU-LRP - Início da estruturação da coleta | Rafael, Maria Clara Tomazini |
| 09/10/2023 | PERU-ECO - Ajustes dos scripts e retomada das coleta 01 e 02 | Rafael, Maria Clara Tomazini |
| 09/10/2023 | EQUADOR-ECO - Ajustes dos scripts e retomada das coleta 01 e 02 | Rafael, Maria Clara Tomazini |
| 29/09/2023 | COLOMBIA-EES - Ajustes dos scripts e finalização da coleta 02 | Rafael, Maria Clara Tomazini |
| 25/09/2023 | COLOMBIA-EES - Ajustes dos scripts do tratamento dos links e coleta 02 | Rafael, Maria Clara Tomazini |
| 15/09/2023 | COLOMBIA-EES - Ajustes finais script coleta 02 | Rafael, Maria Clara Tomazini |
| 15/09/2023 | COLOMBIA-EES - Tratamento dos links para a coleta 02 | Rafael, Maria Clara Tomazini |
| 15/09/2023 | COLOMBIA-EES - Ajustes finais no script da coleta 01 | Rafael, Maria Clara Tomazini |
| 04/09/2023 | COLOMBIA-EES - Ajustes no script e continuação da coleta 01 | Rafael, Maria Clara Tomazini, Malak Chefrid |
| 25/08/2023 | COLOMBIA-EES - Configuração de contas novo sistema do LabRI | Rafael, Maria Clara Tomazini, Malak Chefrid |
| 07/06/2023 | EQUADOR-ECO - Início da coleta das notícias | Rafael, Maria Clara Tomazini, Leonardo Petrilli |
| 07/06/2023 | EQUADOR-ECO - Finalização da estrutura da coleta 01 e 02 | Rafael, Maria Clara Tomazini, Leonardo Petrilli |
| 02/06/2023 | EQUADOR-ECO - Estruturação da coleta do jornal | Rafael, Maria Clara Tomazini |
| 31/05/2023 | PERU-ECO - Ajustes na segunda coleta | Rafael, Maria Clara Tomazini |
| 24/05/2023 | COLOMBIA-EES - Continuação da estruturação da coleta do jornal | Rafael, Maria Clara Tomazini |
| 23/05/2023 | PERU-DCO, COLOMBIA-HDM - Geração de htmls e Indexação no recoll | Rafael, Maria Clara Tomazini |
| 16/05/2023 | COLOMBIA-EES - Estruturação da coleta (continuação) | Rafael, Maria Clara Tomazini, Leonardo Petrilli |
| 10/05/2023 | PERU-ECO, PERU-DCO, COLOMBIA-HDM - Correção de problemas no script | Rafael, Maria Clara Tomazini |
| 05/05/2023 | COLOMBIA-EES - Estruturação da coleta do jornal | Rafael, Maria Clara Tomazini |
| 05/05/2023 | EQUADOR- ELU - Estruturação da coleta do jornal | Rafael, Maria Clara Tomazini |
| 03/05/2023 | PERU-DCO - Ajustes no script | Rafael, Maria Clara Tomazini |
| 03/05/2023 | PERU-ECO - Ajustes no script | Rafael, Maria Clara Tomazini |
| 03/05/2023 | COLOMBIA-HDM - Ajustes no script | Rafael, Maria Clara Tomazini |
| 28/04/2023 | COLOMBIA-HDM - Início da coleta | Rafael, Maria Clara Tomazini |
| 28/04/2023 | PERU-ECO - Ajustes chrome selenium | Rafael, Maria Clara Tomazini |
| 26/04/2023 | PERU-ECO - Início da Coleta 02 | Rafael, Maria Clara Tomazini |
| 25/04/2023 | PERU-DCO - Início da Coleta 02 | Rafael, Maria Clara Tomazini |
| 25/04/2023 | PERU-DCO - Ajustes para geração de htmls a partir das informações inseridas no banco json | Rafael, Maria Clara Tomazini |
| 14/04/2023 | PERU-DCO - Verificação do problema em relação ao intervalo de datas | Rafael, Maria Clara Tomazini |
| 14/04/2023 | PERU-DCO - Indexação dos arquivos no Recoll | Rafael, Maria Clara Tomazini |
| 14/04/2023 | Ajuste na estrutura das pastas | Rafael, Maria Clara Tomazini |
| 31/03/2023 | Fluxograma de interação entre os scripts | Rafael, Maria Clara Tomazini, Artur Dantas, Leonardo Petrilli |
| 31/03/2023 | Fluxograma das pastas | Rafael, Maria Clara Tomazini, Artur Dantas, Leonardo Petrilli |
| 31/03/2023 | BRASIL-FBV - Indexação da FBV no Recoll | Rafael, Maria Clara Tomazini, Artur Dantas, Leonardo Petrilli |
| 31/03/2023 | PERU-DCO - Implementação de controle temporal de coleta por dia | Rafael, Maria Clara Tomazini, Artur Dantas, Leonardo Petrilli |
| 24/03/2023 | PERU-DCO - Aperfeiçoamento da filtragem de datas no banco json | Rafael, Maria Clara Tomazini |
| 10/03/2023 | PERU-DCO - Tratamento da autoria finalizado | Rafael, Maria Clara Tomazini |
| 10/03/2023 | PERU-DCO - Inserção do nome do país sede do jornal | Rafael, Maria Clara Tomazini |
| 10/03/2023 | PERU-DCO - Finalização dos ajustes nos htmls | Rafael, Maria Clara Tomazini |
| 09/03/2023 | Ajustes nos htmls | Rafael, Maria Clara Tomazini |
| 09/03/2023 | Reestruturação das pastas | Rafael, Maria Clara Tomazini |
| 09/03/2023 | BRASIL-FBV - Início da indexação da FBV no Recoll | Rafael, Maria Clara Tomazini |
| 03/03/2023 | Atualização do script de geração de html | Rafael, Maria Clara Tomazini |
| 03/03/2023 | Atualização do script do banco json | Rafael, Maria Clara Tomazini |
| 02/03/2023 | PERU-DCO - Coleta de parágrafos | Rafael, Maria Clara Tomazini |
| 17/02/2023 | ECU-UNI - Primeira versão do script e coleta finalizada | Rafael, Maria Clara Tomazini |
| 10/02/2023 | ECU-UNI - Estruturação da coleta | Rafael, Maria Clara Tomazini |
| 10/02/2023 | BRA-FBV - Realização da coleta dos pdfs | Rafael, Maria Clara Tomazini |
| 09/02/2023 | BRA-FBV - Início da extração dos pdfs do jornal brasileiro Folha de Boa Vista | Rafael, Maria Clara Tomazini |
| 09/02/2023 | PERU-ECO - Coleta do jornal peruano El Comercio | Rafael, Maria Clara Tomazini |
| 26/01/2023 | PERU-DCO - Inicio da coleta do jornal peruano Diario Correo | Rafael, Maria Clara Tomazini |
| 08/12/2022 | BRA-CBZ - Ajuste na coleta dos pdfs | Rafael, Maria Clara Tomazini |
| 01/12/2022 | BRA-CBZ - Coleta dos pdfs de 01/06/1999 a 31/08/2020 | Rafael, Maria Clara Tomazini |
| 21/10/2022 | BRA-CBZ e BRA-FBV - Extração de link e data e inserção no banco json | Rafael, Vitório Aflalo, Maria Clara Tomazini |
| 21/10/2022 | GZP extração dos links das notícias e da data | Rafael, Vitório Aflalo, Maria Clara Tomazini |
| 08/09/2022 | Ajuste para tornar mais rápida a coleta das informações que não foram inseridas no banco | Rafael, Vitório Aflalo |
| 11/08/2022 | ESP - ajustes dos erros finais anotados no README | Rafael, Cíntia |
| 10/08/2022 | ESP - ajustes no tratamento de listas de autoria nos anos de 2015 e 2016 | Rafael, Cíntia |
| 08/08/2022 | ESP - ajustes de erros anotados no README | Rafael, Cíntia |
| 04/08/2022 | ESP - adição de novas formas de extração das tags data, horario, data atualizado, horario atualizado, autoria e paragrafo em 2022 | Rafael, Cíntia |
| 03/08/2022 | ESP - adição de novas extrações das tags subtitulo, data, atualizacao, autoria, paragrafo no ano de 2022 | Rafael, Cíntia |
| 02/08/2022 | ESP - ajustes no tratamento da tag titulo em 2021 e no tratamento da tag autoria em 2015 | Rafael, Cíntia |
| 01/08/2022 | ESP - ajustes na extração de dados de 2019, criação da extração de link e categoria na função de exceção | Rafael, Cíntia |
| 29/07/2022 | ESP - ajustes no tratamento da tag autoria em 2018, 2019 e 2020; tentativa de ajustar erro em notícia de 2019 | Rafael, Cíntia |
| 28/07/2022 | ESP - adição de nova forma de extração de parágrafos em 2016; limpeza e ajustes no tratamento das tags | Rafael, Cíntia |
| 27/07/2022 | ESP - ajustes na extração da tag local em 2015, adição de nova forma de extração da tag autoria | Rafael, Cíntia |
| 26/07/2022 | ESP - ajustes nas extrações e tratamentos das tags local, autoria, palavras-chave entre 2014 e 2015 | Rafael, Cíntia |
| 25/07/2022 | ESP - ajustes nas extrações e tratamentos das tags autoria nos anos de 2012 à 2014 | Rafael, Cíntia |
| 08/07/2022 | ESP - ajustes nas extrações e tratamentos das tags autoria nos anos 2012 e 2013 | Rafael, Cíntia |
| 07/07/2022 | ESP - ajustes na extração e tratamento das tags palavras-chaves e autoria em 2010 | Rafael, Cíntia |
| 06/07/2022 | ESP - ajustes nas extrações da lista paragrafos, e no tratamento das autorias e palavras-chaves em 2010 | Rafael, Cíntia |
| 05/07/2022 | ESP - ajustes na extração e tratamento das tags autoria em 2001, 2008 e 2009 | Rafael, Cíntia |
| 04/07/2022 | ESP - ajustes na tag autoria no ano de 2008 | Rafael, Cíntia |
| 01/07/2022 | ESP - ajustes no tratamento da tag data em 2001, titulo em 2004, e adição de extração das tags autoria | Rafael, Cíntia |
| 30/06/2022 | ESP - conferindo extração dos anos de 2002 à 2004, e tratamento da tag título no ano de 2004 | Rafael, Cíntia |
| 28/06/2022 | ESP - conclusão da criação da nova função; check nas extrações de 2001, 2002 e 2003 | Rafael, Cíntia |
| 27/06/2022 | ESP - avanços no desenvolvimento de nova função para notícias específicas de 2001 | Rafael, Cíntia |
| 24/06/2022 | ESP - ajustes na extração da tag categoria e início da criação de nova função para notícias específicas | Rafael, Cíntia |
| 23/06/2022 | ESP - ajustes no tratamento da tag titulo no ano de 2001 (função padrão) | Rafael, Cíntia |
| 21/06/2022 | ESP - ajustes na extração e no tratamento das tags paragrafos e titulo e readequação das funções | Rafael, Cíntia |
| 20/06/2022 | ESP - ajustes na extração e no tratamento da tag autoria e da tag data | Rafael, Cíntia |
| 14/06/2022 | ESP - ajustes na extração e tratamento de subtítulo e autoria em 1998 e 2000 | Rafael, Cíntia |
| 10/06/2022 | ESP - ajustes na extração e tratamento das tags autoria, data e local em 1998 | Rafael, Cíntia |
| 06/06/2022 | ESP - ajustes na extração e tratamento das tags autoria, data e parágrafo em 1998 | Rafael, Cíntia |
| 03/06/2022 | ESP - início da conferência por ano: 1998; início da extração de autoria | Rafael, Cíntia |
| 31/05/2022 | ESP - ajustes gerais nas funções do ESP, sem ano específico | Rafael, Cíntia |
| 31/05/2022 | FSP - ajustes finais na coleta da FSP de 1994 à 2022 | Rafael, Cíntia |
| 30/05/2022 | FSP - reajustes no tratamento e extração das tags autoria, local, título e tags de 2019 à 2022 | Rafael, Cíntia |
| 27/05/2022 | FSP - reajustes no tratamento e extração das tags autoria e local em 2019 | Rafael, Cíntia |
| 26/05/2022 | FSP - ajuste de erro na extração de dados de 2018 à 2022 | Rafael, Cíntia |
| 12/05/2022 | FSP - readequação da extração e do tratamento das tags autoria, subtitulo, categoria e link | Rafael, Cíntia |
| 10/05/2022 | FSP - readequação do tratamentos das tags data atualizado, horario atualizado, local e autoria em 2017 | Rafael, Cíntia |
| 03/05/2022 | GPOV - Revisão do scrpit e arrumação de problemas na coleta | Rafael, Vitório |
| 29/03/2022 | GPOV - Revisão e documentação das funções de coleta e primeira coleta integral | Rafael, Vitório |
| 22/03/2022 | GPOV - Início da coleta completa | Rafael, Vitório |
| 22/03/2022 | GPOV - resolução de problema de página não encontrada | Rafael, Vitório |
| 22/03/2022 | FSP - início da revisão de 2000 | Rafael, Treyce |
| 11/03/2022 | FSP - continuação da readequação do período de 1998 à 1999 | Rafael, Cíntia |
| 10/03/2022 | FSP - readequação do período de 1998 à 1999 | Rafael, Cintia |
| 09/03/2022 | FSP - revisão e readequação do período de 1997, 1998 e 1999 | Rafael, Cintia |
| 08/03/2022 | FSP - revisão do período de 1994 à fevereiro de 1997 | Rafael, Cintia |
| 07/03/2022 | FSP - revisão do período de 2015 à 2022 concluída; início da revisão do período de 1994 à 2014 | Rafael, Cintia |
| 04/03/2022 | FSP - readequação na extração de autoria e local e tratamento das tags nos anos de 2013 e 2014 | Rafael, Cintia |
| 03/03/2022 | FSP - acréscimos na extração de autoria e local entre 2011 e 2012; ajuste nas coletas de 2013 e 2014 | Rafael, Cintia |
| 25/02/2022 | VLR - verificação da coleta realizada (problema na inserção no banco) | Rafael, Júlia |
| 25/02/2022 | FSP - ajustes na extração da data, local e autoria de 2008 a 2012 | Rafael, Cintia |
| 24/02/2022 | VLR - ajustes na visualização das imagens e no template HTML | Rafael, Júlia |
| 24/02/2022 | FSP - readequação da extração de autoria no ano de 2004, 2006 e 2007 | Rafael, Cintia |
| 23/02/2022 | FSP - ajustes no tratamento de autoria e local no ano de 2004; criação de nova função para 2005 | Rafael, Cintia |
| 22/02/2022 | VLR - resolução do problema de extração das imagens | Rafael, Júlia |
| 22/02/2022 | FSP - tratamento na extração das tags data, autoria e local nos anos 2002-2004 | Rafael, Cintia |
| 21/02/2022 | ajuste na estrutura do template HTML | Rafael, Júlia |
| 21/02/2022 | ajustes na estrutura da coleta da Carta Capital, El País, BBC e Gazeta do Povo | Rafael, Júlia |
| 21/02/2022 | VLR - finalização da estrutura da coleta | Rafael, Júlia |
| 21/02/2022 | FSP - readequação na extração de título, data, autoria e local nos anos 2002-2004 | Rafael, Cintia |
| 18/02/2022 | VLR - coleta das imagens, ajuste no banco json e tratamento de algumas tags | Rafael, Júlia |
| 18/02/2022 | FSP - ajustes nas extrações de autoria; criação de nova função para extração de notícias de 1998-1999 | Rafael, Cintia |
| 17/02/2022 | VLR - adicionando noticias no bd json e começando a coleta imagens | Rafael, Júlia |
| 17/02/2022 | FSP - ajuste de erros na limpeza de parágrafos e extração de autoria nas notícias de 1994 | Rafael, Cintia |
| 16/02/2022 | VLR - extração de todas as informações e início da extração das imagens | Rafael, Júlia |
| 16/02/2022 | FSP - ajustes na extração de notícias de 1994; extração de título, data, parágrafos e autoria na segunda função | Rafael, Cíntia |
| 15/02/2022 | VLR - início da extração das informações | Rafael, Júlia |
| 15/02/2022 | FSP - inserção da extração de data e parágrafos em uma segunda função criada | Rafael, Cíntia |
| 14/02/2022 | GP - finalização da extração dos dados | Rafael, Júlia |
| 14/02/2022 | FSP - testes na extração de notícias nos períodos de 1994 e 2008 até 2014 | Rafael, Cíntia |
| 11/02/2022 | FSP - readequação na extração de tags de origem, data, categorias e paragrafos | Rafael, Cíntia |
| 10/02/2022 | GP - continuação da estruturação da coleta | Rafael, Júlia |
| 10/02/2022 | BBC e El País - ajustes nos templates json e HTML e testes de coleta | Rafael, Júlia |
| 10/02/2022 | FSP - extração de datas, tags e parágrafos das notícias de 2019 a 2022 | Rafael, Cíntia |
| 09/02/2022 | BBC - início da inserção no banco; geração dos HTMLs; problema na inserção dos parágrafos | Rafael, Júlia |
| 09/02/2022 | El País - início da inserção no banco; geração dos HTMLs | Rafael, Júlia |
| 09/02/2022 | Carta Capital - continuação da inserção no banco; geração dos HTMLs | Rafael, Júlia |
| 09/02/2022 | FSP - início da extração de dados do ano de 2020 | Rafael, Cíntia |
| 08/02/2022 | El País - continuidade da extração de dados; início da inserção dos dados no banco | Rafael, Júlia |
| 08/02/2022 | ESP - readequação da função que acessa as páginas das notícias | Rafael, Cíntia |
| 07/02/2022 | El País - início da coleta | Rafael, Júlia |
| 07/02/2022 | ESP - extração de título, datas e parágrafos dos anos de 1997 à 2001 | Rafael, Cíntia |
| 04/02/2022 | BBC - início da inserção no banco e geração de HTML | Rafael, Júlia |
| 04/02/2022 | Carta Capital - início da inserção no banco e geração de HTML | Rafael, Júlia |
| 04/02/2022 | ESP - criação de um README_ESP para informações da coleta do ESP | Rafael, Cíntia |
| 03/02/2022 | BBC - finalização da identificação das tags; coleta em andamento | Rafael, Júlia |
| 03/02/2022 | ESP - readequação na extração da categoria e do subtítulo; documentação de exceções no README | Rafael, Cíntia |
| 02/02/2022 | BBC - início da coleta e identificação das tags | Rafael, Júlia |
| 02/02/2022 | Carta Capital - extraindo informações dos parágrafos e das tags | Rafael, Júlia |
| 02/02/2022 | ESP - ajustando erros na extração dos parágrafos e categoria | Rafael, Cíntia |
| 01/02/2022 | Carta Capital - readequação da coleta e extração pela tag meta | Rafael, Júlia |
| 01/02/2022 | ESP - ajustando erros na extração da data, tags e parágrafos dos HTMLs de 2022 | Rafael, Cíntia |
| 31/01/2022 | Carta Capital - início da readequação do script de coleta ao novo site da Carta Capital | Rafael, Júlia |
| 31/01/2022 | ESP - ajustando erros na extração da categoria e extração das datas e horários de atualização | Rafael, Cíntia |
| 28/01/2022 | ESP - avanço na extração das informações dos HTMLs do ano de 2022 | Rafael, Cíntia |
| 27/01/2022 | ESP - iniciando coleta das notícias das páginas antigas | Rafael, Cíntia |
| 05/01/2022 | Carta Capital - ajustando coleta das páginas antigas | Rafael, Júlia |
| 16/12/2021 | Carta Capital - ajustando template html | Rafael, Júlia |
| 15/12/2021 | Carta Capital - começando coleta das notícias das páginas antigas | Rafael, Júlia |
| 14/12/2021 | Carta Capital - começando coleta das páginas antigas | Rafael, Júlia |
| 13/12/2021 | Carta Capital - inserindo dir_local e ajustando HTML | Rafael, Júlia |
| 09/12/2021 | Carta Capital - termino do tratamento dos paragrafos | Rafael, Júlia |
| 07/12/2021 | Carta Capital - tratando paragrafos | Rafael, Júlia |
| 06/12/2021 | Carta Capital - inserção dados no db.json e tratando datas | Rafael, Júlia |
| 02/12/2021 | Carta Capital - extração de tags, paragrafos e subtitulo | Rafael, Júlia |
| 23/11/2021 | Gazeta do povo - extração do conteúdo das notícias | Rafael, Júlia, Vitório |
| 09/11/2021 | Resolvendo problema de encode | Rafael, Júlia, Vitório |
| 06/10/2021 | Gazeta do Povo - coleta dos links das notícias e início da extração do conteúdo | - |
| 06/10/2021 | Conversa inicial com João Ferreira (NEPPS) sobre criação de material de utilização do Recoll | - |
| 29/09/2021 | Gazeta do Povo - Estruturação inicial do script de coleta | - |
| 29/09/2021 | Carta Capital - coleta pag dinamica com selenium, parseamento da pag com bs | - |
| 19/08/2021 | Criação do ambiente virtual conda (finalizado) | - |
| 09/08/2021 | Término da normalização das variáveis e funções do projeto | - |
| 02/08/2021 | Finalização da normalização e tratamento dos erros | - |
| 27/07/2021 | Lidando com erros no tratamento das notícias | - |
| 21/07/2021 | Continuação da normalização de nomes de variáveis e funções | - |
| 20/07/2021 | Normalização de nomes de variáveis e funções | - |
| 19/07/2021 | Normalização de nomes de variáveis e funções | - |
| 13/07/2021 | Início da estruturação do fluxograma e revisão do código de tratamento atual | - |
| 12/07/2021 | Revisão do projeto - problema no momento de limpeza dos arquivos | - |
Last updated on 10/15/2025 by Rafael de Almeida