
Os projetos de jornalismo de dados envolvem várias etapas, cada uma apresentando seus próprios desafios. Para ajudar a compreendê-las, criei o que chamei de ‘Pirâmide Invertida do Jornalismo de Dados’. Ela delineia as etapas que precisam ser consideradas à medida que a matéria avança desde a conceção inicial até a comunicação dos resultados, e como elas se relacionam entre si. Abaixo, explico cada etapa, identifico questões a considerar conforme o projeto avança e ofereço conselhos e dicas sobre como enfrentá-las.
(Também disponível em Inglês, Alemão, Espanhol, Finlandês, Russo e Ucraniano.)
Etapa 1: Conceber
O primeiro desafio que um jornalista enfrenta é conceber uma ideia viável para uma matéria baseada em dados.
Existem pelo menos sete maneiras pelas quais os jornalistas normalmente chegam a uma ideia:
- A partir de uma divulgação pública de dados;
- A partir do acesso a um conjunto de dados exclusivo;
- Replicando ou adaptando uma matéria anterior baseada em dados;
- Dando seguimento a uma notícia;
- A partir de uma pergunta;
- A partir de uma denúncia; ou
- A partir da exploração.

Abordagens que começam fora dos dados (perguntas, denúncias e acompanhamento de notícias) são mais difíceis. Nessas situações, é provável que você precise adaptar a ideia em resposta aos dados que realmente existem (se é que existem), e ao que esses dados de facto medem.
Em Como fazer brainstorming de ideias de matérias sobre dados da COVID-19, descrevo algumas técnicas usadas para enfrentar esses desafios. Técnicas mais investigativas são exploradas em Como usar as ‘4 etapas da curiosidade’ como estrutura para investigações e Empatia como ferramenta investigativa: como mapear sistemas para gerar ideias de matérias.
Abordagens que começam com os dados envolvem um desafio diferente: identificar e escolher possíveis ângulos de matéria a partir dos dados disponíveis. Nessas abordagens, considere o seguinte:
- Que colunas os dados têm? (O que é medido)
- Que histórias poderiam ser contadas sobre cada uma dessas medidas?
- O que falta nos dados? (O que não está sendo medido)
Em Os ângulos mais usados por jornalistas para contar histórias com dados, descrevo como diferentes ângulos podem ser encontrados em diferentes medidas.

- Se houver uma coluna para datas, meses ou anos, por exemplo, então uma história pode ser contada sobre mudança;
- Se houver uma coluna para geografia ou categoria, uma história provavelmente pode ser contada sobre classificação ou variação.
- E quase todos os dados podem ser quantificados para contar uma história sobre a escala de algo.
Etapa 2: Compilar
O processo de compilação de dados pode ser rápido e simples — ou pode ser um grande projeto de jornalismo de dados por si só.
- A compilação mais direta é quando os dados são publicados regularmente numa determinada página (ou enviados num comunicado à imprensa), e é daí que vem a ideia.
- Você pode encontrar dados através de técnicas de pesquisa avançada
- Alguns dados são publicados através de uma API, e você precisará escrever código para ‘puxar’ esses dados.
- Você pode usar scraping — onde um script explora múltiplas páginas ou documentos para compilar dados destes numa planilha
- Você pode converter dados não estruturados, como texto, em algo que possa ser analisado
- Você pode compilar dados através de observação, inquéritos, formulários online ou crowdsourcing. O tempo e a despesa envolvidos em tal compilação significam que raramente é usado.
Esta etapa de compilação é especialmente importante não apenas porque torna o projeto de jornalismo de dados possível, mas porque você frequentemente precisará retornar a ela como parte das etapas subsequentes: os dados podem precisar ser compilados para limpar seus dados existentes, para contextualizá-los e combiná-los, e para melhor comunicar as descobertas.
Etapa 3: Limpar

Ter dados é apenas o começo. Ter confiança nas respostas que você obtém dos dados significa poder confiar na qualidade dos dados — e às vezes isso significa limpá-los.
A limpeza normalmente assume três formas: remover erros humanos; converter os dados num formato que possibilite fazer perguntas; ou garantir que as respostas obtidas sejam precisas.
Razões comuns para limpeza incluem:
- entradas duplicadas;
- entradas vazias;
- o uso de valores padrão onde nenhuma informação estava disponível;
- formatação incorreta (por exemplo, palavras em vez de números);
- entradas corrompidas ou entradas com código HTML;
- múltiplos nomes para a mesma coisa (por exemplo, BBC e B.B.C. e British Broadcasting Corporation);
- dados ausentes (por exemplo, distrito eleitoral);
- dados mistos na mesma coluna (por exemplo, categoria e subcategoria);
- ou dados na forma errada (por exemplo, trocar colunas e linhas).
Etapa 4: Contextualizar
Como qualquer fonte, os dados fornecem uma perspetiva sobre uma história e nem sempre podem ser confiáveis. Eles vêm com suas próprias histórias, vieses e objetivos.
Portanto, como qualquer fonte, você precisa fazer perguntas sobre eles: quem os recolheu, quando e com que propósito? Como foram recolhidos? (A metodologia). O que exatamente eles querem dizer com isso?
Você também pode precisar entender jargões, como códigos que representam categorias, classificações ou localizações, e terminologia especializada.
Estabelecer o contexto para um conjunto de dados pode levá-lo a compilar mais dados. Por exemplo, saber o número de crimes reportados numa cidade é interessante, mas só se torna significativo quando você coloca isso em contexto.
Esse contexto pode ser o tamanho da população, ou o número de policiais, ou os níveis de criminalidade cinco anos atrás. Pode ser o contexto de experiências ou perceções sobre o crime, taxas de condenação ou níveis de desemprego. Pode ser o contexto das definições de categorias de crimes.
Alguma literacia estatística básica é muito útil, então dedique um pouco de tempo a ler sobre o assunto. Como Mentir com Estatísticas é um clássico curto e fácil de ler na área, que é complementado pelo mais recente Como Fazer o Mundo Somar. E o livro de Ben Goldacre, Bad Science, prepara você para cobrir dados sobre saúde e ciência.
Adicione o podcast da BBC More or Less às suas subscrições para ouvi-los discutir histórias sobre dados, e confira The Tiger That Isn’t, dos apresentadores.
Etapa 5: Combinar
Boas histórias podem ser encontradas num único conjunto de dados, mas frequentemente você precisará combinar dois juntos. Afinal, dada a escolha entre uma matéria de fonte única e uma de múltiplas fontes, qual você preferiria?
Combinar dados é frequentemente parte de colocá-los em contexto: você regularmente vai querer combinar dados sobre o número de eventos em diferentes áreas com dados sobre as populações nessas áreas, por exemplo, para classificar a frequência per capita desses eventos. Dados sobre inflação terão que ser combinados com dados de gastos para ajustar valores de diferentes anos.
Às vezes você precisa combinar dados para obter a resposta a uma pergunta:
- Novos dados precisarão ser combinados com dados mais antigos para contar uma história sobre mudança.
- Dados sobre eventos precisarão ser combinados com dados populacionais para contar uma história sobre a escala por pessoa (ou por 10.000 pessoas, etc.)
- Dados sobre o desempenho de escolas ou hospitais precisarão ser combinados com dados sobre as localizações dessas instituições, para contar uma história classificando as áreas com os melhores ou piores desempenhos médios, ou simplesmente mostrar a extensão da variação.
- Para criar um mapa exploratório mostrando a distribuição de eventos, os jornalistas regularmente combinam um conjunto de dados com dados cartográficos. Exemplos incluem: Die Spur des Geldes: Prioritäten der EU-Migrationspolitik e Die Stadtflucht, enquanto Mein Viertel, eine Blase usa a mesma técnica para mostrar uma relação entre geografia e crenças.
Em cada etapa: Questionar
Questionar envolve analisar seus dados para obter respostas — mas também ocorre em cada etapa:
- Ao conceber ideias, questione seus vieses e pontos cegos. De quem são as vozes que faltam no processo de desenvolvimento da ideia? Você está obtendo ideias apenas de conjuntos de dados públicos — você também poderia considerar dados não publicados ou compilar dados você mesmo? Você está focando no setor público mas não no setor privado? Você tende a gerar tipos particulares de ângulos de matéria mais do que outros (como mudança em vez de escala)?
- Ao compilar dados, questione quão autorizada é a fonte e quão confiável é sua metodologia. Isso afetará como você comunica os resultados e que compilação, limpeza e contextualização adicionais precisam ser feitas.
- Faça perguntas sobre que contexto pode ser necessário: populações são frequentemente necessárias para colocar o número de eventos no contexto de quantos eventos houve por pessoa. O contexto demográfico permite que você faça perguntas sobre relações potenciais com privação, idade e outros fatores. Dados históricos permitem que você coloque dados recentes no contexto de anos anteriores. Dados sobre dinheiro precisarão do contexto da inflação: qual seria o equivalente hoje de determinado valor de cinco anos atrás?
- Faça perguntas sobre quais dados você está combinando: você deve usar a população inteira ou uma faixa etária específica ou outra demografia que se relacione com a matéria? Você deve usar a inflação geral ou focar num tipo particular de bens ou serviços?
Questionar pode evitar o viés de confirmação e desenvolver ceticismo.
Contexto
Como qualquer fonte, os dados fornecem uma perspetiva sobre uma história e nem sempre podem ser confiáveis. Eles vêm com suas próprias histórias, vieses e objetivos.
Portanto, como qualquer fonte, você precisa fazer perguntas sobre eles: quem os recolheu, quando e com que propósito? Como foram recolhidos? (A metodologia). O que exatamente eles querem dizer com isso?
Você também pode precisar entender jargões, como códigos que representam categorias, classificações ou localizações, e terminologia especializada.
Estabelecer o contexto para um conjunto de dados pode levá-lo a compilar mais dados. Por exemplo, saber o número de crimes reportados numa cidade é interessante, mas só se torna significativo quando você coloca isso em contexto.
Esse contexto pode ser o tamanho da população, ou o número de policiais, ou os níveis de criminalidade cinco anos atrás. Pode ser o contexto de experiências ou perceções sobre o crime, taxas de condenação ou níveis de desemprego. Pode ser o contexto das definições de categorias de crimes.
Alguma literacia estatística básica é muito útil, então dedique um pouco de tempo a ler sobre o assunto. Como Mentir com Estatísticas é um clássico curto e fácil de ler na área, que é complementado pelo mais recente Como Fazer o Mundo Somar. E o livro de Ben Goldacre, Bad Science, prepara você para cobrir dados sobre saúde e ciência.
Adicione o podcast da BBC More or Less às suas subscrições para ouvi-los discutir histórias sobre dados, e confira The Tiger That Isn’t, dos apresentadores.
Etapa 6: Comunicar
A visualização é a forma mais óbvia de comunicar uma história que você encontrou nos dados – mas não é a única. Outras incluem:
- Usar apenas narrativas textuais
- Usar estudos de caso de pessoas reais para dar vida aos dados
- Usar interatividade para ajudar o utilizador a ver como pode ser pessoalmente afetado
- Transformar dados em sons ou objetos físicos para fornecer outras formas de interagir com os dados
- Criar ferramentas que capacitem a audiência a usar os dados de forma prática
Como há muito mais a dizer sobre isso (veja o diagrama abaixo), escrevi um post separado sobre o tema. Aguardo com expectativa o vosso feedback sobre a pirâmide!
Traduzido com Claude Sonnet 4.5. Por favor, diga-me se encontrar algum erro nos comentários ou através do LinkedIn.
