Criando seu conjunto de dados

Siga os Números | Descomplicando os dados | Como encontrar dados? | Criando seu conjunto de dados

Saber lidar com zeros e uns é hoje uma das habilidade mais demandadas pelos veículos de comunicação mundo afora – para 76% dos editores e CEOs, é extremamente importante melhorar o uso de dados nas redações.(1) E, de fato, cada vez mais jornalistas estão procurando se alfabetizar em dados. Muitos conseguem localizar e trabalhar com bases de dados publicadas sem maiores dificuldades. “Isso agora é esperado de qualquer jornalista digital”, afirma John Burn-Murdoch, jornalista de dados do britânico Financial Times, na apresentação. “O verdadeiro valor está em desenvolver os seus próprios conjuntos de dados”.(2)

A criação de um conjunto de dados próprio pode partir de alguns caminhos, segundo Burn-Murdoch. Pode-se desenvolver um conjunto de dados partindo do zero. Foi o que fez o site Quartz em janeiro de 2016, na cobertura do encontro anual do Fórum Econômico Mundial, em Davos, na Suíça. Instalando uma antena no apartamento onde a equipe de jornalistas estava hospedada, foi possível identificar todo o tráfego de helicópteros particulares chegando e saindo da cidade durante os dias do evento – e, com isso, traçar um mapa do fluxo aéreo, incluindo os horários mais congestionados e até os modelos de aeronaves utilizadas. Esses números não existiam – foram “criados” pelos jornalistas (veja a reportagem aqui). Mas para montar um conjunto de dados também se pode selecionar e organizar outros conjuntos de dados já existentes, gerando algo que “valha mais do que a simples soma das partes”, conforme Burn-Murdoch. Caso da cobertura feita pelo Financial Times sobre o que ficou conhecido como Brexit, referendo em que os britânicos votaram pela saída do Reino Unido da União Europeia, realizado em junho de 2016. Os jornalistas cruzaram os resultados do referendo nas 382 áreas de votação do Reino Unido com os dados demográficos de cada uma delas. Com isso, foram capazes de identificar as características estatisticamente relevantes de quem escolheu “Sair” ou “Permanecer” – como idade, renda e nível educacional (veja detalhes aqui).

Partindo do zero ou de dados já existentes, o fato é que elaborar um conjunto de dados pressupõe encarar as etapas de trabalho descritas na pirâmide invertida do jornalismo de dados. Como assim? Quem passou pela faculdade de jornalismo certamente se lembra da tradicional técnica de redação conhecida como pirâmide invertida. Basicamente, parte-se do princípio de que as informações em um texto jornalístico devem seguir em ordem decrescente de relevância. No lide, ou primeiro parágrafo, precisa entrar o que é mais importante. Nos seguintes, o que é menos. Paul Bradshaw adaptou esse modelo para o fluxo de trabalho com dados e chegou ao seguinte:(3)

e-book-piramide-invertida-do-jornalismo-de-dados-valendo
Clique na imagem para abri-la e ver as informações em detalhes (Fonte: Adaptado de Paul Bradshaw, Birmingham City University)

A fase de “Compilar” – o momento em que se juntam os dados – é a mais importante, conforme Bradshaw, já que todas as próximas dependem dela. Tanto se pode recorrer a organizações para conseguir dados, quanto usar buscas avançadas ou técnicas de raspagem de dados (falaremos sobre isso logo mais). Se algo der errado no meio do caminho, provavelmente será preciso voltar a esse estágio para complementar a tarefa. Na fase de “Limpar”, garante-se mais qualidade aos dados. É preciso, por exemplo, remover erros humanos – como informações duplicadas, células vazias ou formatações incorretas – e converter os dados para um formato de acordo com outros dados que estejam sendo usados. É hora, então, de “Contextualizar”: quem juntou os dados? quando e com que objetivo? que método usou? o que eles significam exatamente? como se relacionam com outras variáveis, como a população, o crescimento da economia, o desempenho dos concorrentes…? “Combinar” os dados de uma base com os de outras é como entrevistar várias fontes para uma matéria – e só depois disso tudo é que chega a fase de “Comunicar” essas informações, seja com infográficos, mapas, animações, aplicativos ou a boa e velha narrativa clássica.

Algumas ferramentas podem ajudá-lo nas fases de “Coleta” e “Limpeza” de dados. Há aplicativos que permitem “raspar” dados da internet – ou copiá-los – de maneira automatizada, o que facilita muito o trabalho. Existem também comandos que agilizam o trabalho de limpeza e, depois, de análise dos dados em programas de planilhas eletrônicas. Siga os Números firmou uma parceria com o capítulo brasileiro da Escola de Dados – organização internacional que procura capacitar entidades da sociedade civil, jornalistas e cidadãos para o uso de dados – para reproduzir e adaptar conteúdos de alguns treinamentos que oferecem sobre como lidar com dados. Na medida do possível (e do necessário), o material foi revisto e ampliado para incluir aplicações diretas das ferramentas na cobertura de finanças e negócios. Você pode acessá-lo nos links abaixo ou pelo menu do sumário deste e-book.


Você pode se valer de pedidos de informação pública, assegurados pela Lei de Acesso à Informação, para conseguir dados para suas apurações. Como explicamos na seção Como encontrar dados?, muitas vezes essa é uma maneira de conseguir dados que parecem impossíveis de achar.


Entenda o básico sobre o funcionamento de aplicativos de planilhas eletrônicas, como Google Spreadsheets (ou, carinhosamente, Google Sheets) e Excel. São as ferramentas mais comuns para lidar com dados na hora de organizá-los, filtrá-los e analisá-los.


Se o acesso aos dados não for fácil, raspagem neles! É assim que se chama o método para extrair os dados escondidos em documentos, como páginas da web ou PDFs. Aprenda a usar ferramentas como Google Sheets, IFTTT e Webscraper.


Dados têm problemas – e você precisa dar um jeito neles antes de começar a fazer análises e tirar conclusões. O Guia Quartz para limpeza de dados foi desenvolvido pela equipe do site Quartz e traduzido para português pela Escola de Dados. Você tem acesso ao material aqui também. 


Por que investir na criação de conjuntos de dados econômicos?

Há anos o jornalista Fernando Torres, repórter do jornal Valor Econômico, cria e mantém conjuntos de dados que lhe garantem um estoque de boas reportagens de finanças e negócios. Como poucos jornalistas da área têm por hábito acompanhar dados com regularidade, Torres dificilmente é “furado” ou precisa correr com uma apuração. Em seu computador, o jornalista conta pelo menos mil planilhas eletrônicas com dados sobre os mais diversos assuntos: dos juros cobrados em cada linha de crédito pelas instituições financeiras até dados específicos do balanço de empresas do seu interesse ou as informações sobre a produção de petróleo da Petrobras. Alguns de seus dados foram usados uma única vez, em uma apuração específica. Outros conjuntos – beirando uma centena – Torres atualiza regularmente, de modo que consegue enxergar mudanças de padrões e fazer comparações históricas. Em entrevista a Siga os Números, ele contou como monta seus próprios conjuntos de dados:(4)

O que vale a pena compilar

Existem bases de dados públicas bem estruturadas e de fácil acesso. Nesses casos, é menos necessário acompanhá-los por conta própria, já que, em tese, estarão sempre lá. É o caso, por exemplo, do Sistema Gerenciador de Séries Temporais do Banco Central. Outros, não. O Banco Central divulga diariamente as taxas de juros cobradas por todos os bancos. O valor é a média das taxas praticadas em cada tipo de empréstimo em períodos de cinco dias. Para esse dado, com esse nível de detalhamento, não há série histórica disponível. Você não consegue saber, então, se um banco está cobrando juros mais altos ou mais baixos nessa semana, em relação à semana anterior. Esse é um conjunto de dados que comecei a montar sozinho e continuo atualizando.

As vantagens de ter os próprios conjuntos de dados

Sistematizar informações em planilhas me ajuda a pensar e a tirar conclusões. Tradicionalmente, em uma matéria sobre a divulgação do balanço de uma empresa, comparamos as informações – receita ou lucro, por exemplo – do trimestre mais recente com as do trimestre imediatamente anterior e com as do mesmo trimestre do ano passado. Para ter uma perspectiva mais longa, vale a pena ter esses dados já planilhados, pelo menos os das empresas que você cobre mais frequentemente. Veja o caso dos bancos. Obrigatoriamente, as instituições financeiras precisam informar periodicamente a qualidade das suas carteiras de crédito. Os empréstimos que elas concedem precisam ser classificados com notas de AA a H [créditos nota A têm uma chance maior de serem honrados pelos devedores, enquanto créditos nota H têm uma chance menor]. Mas não são obrigadas a apresentar dados comparativos com trimestres anteriores. Só quem tiver essas informações já organizadas é que conseguirá perceber rapidamente se houve uma reclassificação das notas que indique uma melhora ou uma piora na qualidade das carteiras de crédito dos bancos.

A importação de dados

Muito frequentemente é preciso compilar dados sobre empresas à mão. Há muita coisa disponível em PDF, o que dificulta o trabalho. Dados do site da Comissão de Valores Mobiliários (CVM) [órgão regulador do mercado de capitais] também são coletados manualmente. Para grandes apurações, uma alternativa interessante é formar grupos de jornalistas para acelerar a importação dos dados. Mas nesses casos é fundamental padronizar bem os procedimentos, de modo que todos trabalhem em sintonia.

Os problemas

Um problema recorrente em várias instituições são alterações na metodologia de coleta ou divulgação dos dados no meio do caminho. Em geral, elas são oficialmente comunicadas. Mas é importante ficar atento a mudanças repentinas nos padrões dos dados. Eles podem indicar coisas desse tipo. Outro item para atentar é o fato de que o padrão contábil brasileiro mudou a partir de 2008. Significa que os princípios adotados pelas empresas ao fazer sua contabilidade hoje são diferentes do que eram anos atrás. Comparar diretamente os números, portanto, pode levar a erros de interpretação.


Siga adiante:
ED: Lei de Acesso à Informação

Deixe um comentário