You are browsing the archive for R.

Quem trabalha com dados abertos no Brasil?

- March 13, 2019 in Dados Abertos, design, Destaque, direito, hackathons, Jornalismo de dados, Lei de acesso à informação, ouvidorias, pesquisa, Python, R, transparência

  • Texto por Pedro Vilanova
Em março acontece o Open Data Day, movimento mundial de promoção ao uso de dados abertos. São vários eventos ao redor do mundo com essa temática. Uma boa oportunidade para conhecer novas pessoas, ampliar horizontes técnicos e debater um tema super em voga. Este é o meu 4º ano de open data. Foi tempo suficiente para conhecer bastante gente diferente. Nos preparativos para mais um Open Data Day, resolvi investigar um pouco quem são as pessoas que trabalham com dados abertos em terras brasileiras. Eu sou formado em comunicação, mas desde 2016 eu trabalho analisando dados para escrever. Em 2017, aprendi a programar e um novo mundo se abriu. Apesar de hoje ter dezenas de colegas jornalistas de dados, percebo que o tema open data, ou simplesmente dados abertos, ainda está muito distante da maioria das pessoas. Resolvi bater um papo com alguns amigos da área, com formações bem diferentes, para tentar facilitar para quem sempre quis participar e nunca conseguiu  – e para quem não faz nem ideia do que sejam dados abertos. Afinal, quem é que trabalha com dados abertos? Otávio Carneiro, o arquiteto e agitador da comunidade. O primeiro papo que tive foi com o Otávio Carneiro. Ele é arquiteto, com mestrado em gestão do conhecimento e tecnologia da informação. E talvez você já tenha visto ele em algum evento por aí. O Otávio faz parte do Calango Hacker Club desde 2013 e, de acordo com ele, começou a se inteirar sobre dados abertos com o pessoal por lá. Um ano depois, já estava participando de eventos com a Câmara dos Deputados e mais um aninho na frente organizou o Open Data Day em Brasília  – e por 3 anos: 2015, 2017 e 2018 (com uma pausa em 2016 por causa do mestrado). Para mim, ele é uma das pessoas mais engajadas na comunidade. Não me lembro de ter ido a um evento sequer sem tê-lo encontrado. Mesmo assim, ele nunca ganhou dinheiro com open data. E também nunca precisou lidar com a área diretamente no trabalho  – o que, confesso me deixou até um pouco chocado. O Otávio não sabe, mas foi ele que me convidou para a minha primeira palestra sobre open data, justamente com o pessoal do calango. Para mim, é curioso o fato de ele não trabalhar diretamente com isso. Na conversa, o Otávio disse que muitos dos desafios são técnicos: qualidade e formato dos dados, dificuldade de encontrar os dados e o despreparo dos órgãos do governo com a LAI são os principais. Para ele, mais pessoas deveriam ter a habilidade de lidar com dados abertos. Concordo, Otávio. E é por isso que estamos aqui. A segunda pessoa com quem bati um papo foi a Judite Cypreste, com uma pegada bem menos hacker club e bem mais jornalística, ela mantém uma característica comum com o Otávio: não é formada em computação, mas em Letras, com pós em Jornalismo Cultural. Judite Cypreste, redação, zumbis e um bot que cobra dados. A Judite Cypreste começou a trabalhar com open data em um treinamento na Folha de S.Paulo sobre Jornalismo de Dados, ano passado. Antes disso, só estudava sobre o tema como pesquisadora na UERJ. Ela aprendeu a programar com o Fernando Masanori. Aliás, pausa aqui. Eu também aprendi a programar em Python com o Masanori, no Python para Zumbis, curso totalmente gratuito, com todas as aulas disponíveis no YouTube. Fim da pausa. A partir da programação, a Judite fez algumas reportagens bem legais, com um impacto considerável, passeou em algumas redações e esse ano lançou o Colaboradados, um projeto que se propõe a auxiliar as pessoas a acharem bases de dados confiáveis e gratuitas (siga o bot, o @colaboradados, que cobra resposta dos órgãos sempre que portais da transparência apresentam problemas de acesso). Para ela, a importância do open data é central não só no seu trabalho, mas na sociedade. Os dados abertos podem auxiliar no combate à falta de informação. Quem não conhece, não monitora e não cobra. E para melhorar isso, ela tem tentado contar boas histórias, de impacto, e mexer com dados. Perfis como o da Judite são o que mais encontrei desde que comecei a trabalhar com open data: pessoas que escrevem e usam dados para isso, mesmo que de forma voluntária. Às vezes programam, às vezes não. Às vezes são jornalistas, às vezes não. O grande segredo está na busca por dar sentido aos dados. E isso pode ser feito com Python, R ou até mesmo em uma tabela no Excel. Por isso é tão importante que a gente cobre dos órgãos competentes que disponibilizem esses dados em bons formatos, de maneira acessível. E é daí que surge o gancho com a terceira pessoa com quem bati um papo: Fabrício Rocha, uma das pessoas por trás da API de dados abertos da Câmara dos Deputados. Fabrício Rocha, o repórter que não afrouxa. Talvez você conheça o Fabrício Rocha da televisão. Ele apresenta o programa Participação Popular, na TV Câmara. É jornalista de formação, com pós em TV Digital Interativa. É, é muita televisão nessa carreira. E o que dados abertos tem a ver com isso? O Fabrício é servidor público. E foi destinado ao então Centro de Informática da Câmara em janeiro de 2016, lotado na coordenação que atende a área de Comunicação da casa. Lá atrás, há três anos, ele foi colocado em uma seção recém-criada que tinha chamado para si a responsabilidade pelo serviço de Dados Abertos da Câmara e sua já necessária atualização. Dois meses depois ele começou a elaborar a nova versão do serviço. E é desde então que nosso apresentador trabalha com dados abertos. O exemplo do Fabrício é interessante. Quando perguntei para ele qual era a importância dos dados abertos na sua realidade, ele me respondeu que é a razão do trabalho dele, porém que, às vezes, a própria instituição na qual ele trabalha parece se importar menos com o tema do que servidores como ele. Pausa. Em 2016, quando comecei a trabalhar com dados abertos, o meu pensamento acompanhava o senso comum de que os órgãos públicos faziam de tudo para dificultar a vida de jornalistas e ativistas de monitoramento social. Até que conheci pessoas como o Fabrício, que faz parte de um grupo razoavelmente grande de servidores que lutam diariamente para melhorar o acesso à informação por parte da sociedade. Se não conseguem, muitas vezes, isso se dá pelas burocracias e falta de organização do próprio órgão. Fim da pausa. Isso está traduzido, por exemplo, no que o Fabrício considera o desafio de trabalhar com dados abertos. É difícil fornecer dados a partir de bases criadas por sistemas sem um propósito de publicação das informações em forma de dados abertos. Em outras palavras, é organizar dados que foram armazenados de forma incompleta, divergente ou muito mal estruturados. Olha só que coincidência Esse é o lado dos dados abertos de quem trabalha na base da cadeia. Na matéria prima. Fazendo cumprir-se a Lei de Acesso à Informação (LAI), que rege os dados públicos governamentais no Brasil, que, por algumas vezes é tratada com descaso por autoridades. Mas a LAI, como o próprio nome diz, é uma lei. Bruno Morassutti, dados, direito e alguns e-mails a ouvidorias. Bruno Morassutti é advogado, especialista em processo civil e direito público, mestrando da área de direito e tecnologia. Ele narra o começo da sua trajetória nessa área dos dados ainda na faculdade, mas em transparência, não necessariamente em dados abertos. Bruno tem por hábito questionar ouvidorias para entender melhor o funcionamento das coisas e assim fazer propostas de melhoria mais bem informadas e assertivas. Da transparência para os dados abertos o salto foi natural. Os dados abertos potencializam muito a transparência e, consequentemente, o seu trabalho. Ele é um advogado “orientado a dados” desde 2012. Eu gosto muito desse perfil. Primeiro porque o Bruno é super entusiasmado. A ponto de dizer que em um mundo ideal trabalharia só com o universo de direito e dados abertos, o que não é possível ainda pela falta de projetos remunerados na área. Depois porque sua expertise é extremamente necessária para os dados abertos. É um conhecimento técnico aplicado aos dados. E vice-versa. Na primeira vez que fui a um Open Data Day, em 2016, eu me lembro de olhar para a plateia e pensar que era o único representante da ala não técnica. Esse engano se manteve até o ano seguinte, quando me envolvi mais com a comunidade e percebi que estava ao lado de jornalistas, arquitetos, auditores públicos e advogados. O Bruno é um desses exemplos. Foi então que eu percebi os dados abertos como um meio para facilitar quase todo o tipo de função. E daí meu questionamento mudou. Ok, eu não era o único não técnico ali. Mas o que será que faltava para que todo mundo usufruisse dos benefícios do open data? A Tatiana, por exemplo, nosso próximo perfil, também tem uma formação tradicionalmente afastada dos dados abertos. Tradicionalmente porque acredito que essas barreiras vão fazer cada vez menos sentido. Eu espero. Tatiana Balachova, a russa que faz design com dados. Tatiana Balachova é publicitária, designer autodidata e nunca codou na vida. Mesmo assim, é uma das pessoas mais engajadas dentro do universo de dados abertos que eu já conheci. A Tati é uma das mentes que ajudou a popularizar a Rosie, robô que a Operação Serenata de Amor criou em 2016. Os dados, abertos ou não, só tem valor de fato quando transformados em informação, e consequentemente, em ação. O perfil dela é essencial para fechar esse ciclo e levar conhecimento para o público. Para ela, o maior desafio é aproximar o cidadão que não está familiarizado com o universo de open data, para que ele também participe da conversa sobre transparência e controle das contas públicas. E se por um lado, há pessoas como a Tati, que entraram no mundo dos dados abertos por conta de um projeto, com uma carreira recente na área, há quem trabalhe com isso há quase uma década. É o caso da Fernanda Campagnucci, a próxima pessoa com quem bati um papo sobre dados abertos. Fernanda Campagnucci, uma década de dados abertos. A Fernanda Campagnucci também é jornalista (vá contando, só nesse artigo já são 4 comunicadores, sem contar comigo), porém, no seu currículo, que inclui mestrado, doutorado e uma pós em transparência, o trabalho com dados abertos começou em 2006. Ou seja, há muito mais tempo do que a maioria das pessoas na área. Na época, ainda na RAC, Reportagem com Auxílio de Computador, na graduação na USP. O caminho dela é bem interessante. Do uso de dados, à cobrança por mais transparência e melhores dados, à participação em hackatons e redes como a Transparência Hacker até ser convidada para integrar a Controladoria Geral do Município de São Paulo, que é a área encarregada de implementar a LAI e as políticas de dados abertos na cidade. Hoje, já concursada, ela trabalha em outro órgão, a Secretaria Municipal de Educação, onde implementa um programa de governo aberto. A Fernanda, assim como o Fabrício, é uma das pessoas que passou de consumidor e provedor ou mantenedor de boas práticas de dados abertos – inclusive ganhando a vida com isso. E esse é um ponto que ajuda a responder a pergunta que as pessoas de fora da área mais fazem para mim: em que os profissionais podem ajudar em dados abertos? A resposta é: consumindo, transformando dados em informação, deixando tudo isso mais legal e palatável para a população e até analisando a lógica das políticas de dados abertos. Você não necessariamente precisa ser jornalista de dados ou trabalhar em uma redação para isso. E, enfim, chegamos à Jessica Temporal. Nós nos conhecemos graças à Operação Serenata de Amor desde então ela se tornou minha solucionadora titular de problemas e picuinhas técnicas. Alguém que sabe mais que eu e tem paciência para me mostrar o caminho e ensinar. Apesar de unidos no mesmo projeto e pelos mesmos ideias, nossas formações são bem diferentes. Jessica Temporal, dados biomédicos, dados públicos e data ajuda. A Jessica Temporal tem uma formação técnica. É graduada em Informática Biomédica e na faculdade já usava dados abertos para análises biológicas. E desde os tempos de Serenata tem um contato maior com esse universo. Eu perdi as contas de quantas vezes vi a Jessica lutar por dados mais organizados, estruturados e às vezes até mesmo pela existência deles. Nós trabalhamos juntos por um ano com open data  – os dois remunerados. O ponto chave é que ela nem trabalha mais na área  – ainda trabalha com dados, mas não exclusivamente abertos  – porém continua colaborando muito de forma voluntária na comunidade (e nas minhas dúvidas). A Jessica, assim como outros amigos, entraram para o open data para nunca mais sair. O universo de dados abertos nunca vem sozinho. Ele sempre traz um monte de projetos legais, práticas open source e uma ou alguma coisa relacionada, minha sugestão é: tenha calma e procure gente que trabalha na área. Eu conversei com sete pessoas. Poderiam ter sido mais. Eu poderia estar até agora escrevendo esse texto. A comunidade de dados abertos no Brasil só cresce. A cada ano o Open Data Day é maior, com mais eventos regionais e mais projetos sendo apresentados. Faça como o Otávio, a Judite, o Fabrício, o Bruno, a Tati, a Fernanda e a Temporal: coloque os dados abertos na sua vida. É um caminho sem volta. Flattr this!

Data Roundup, 12 March

- March 12, 2014 in acquisition, ampp3d, Companies, Data Roundup, data visualization, forbes, Google Analytics, knowledge is beautiful, lunch time, mccandless, NYT, R, record, tech, Upshot, weather radials, womentechafrica

Code – mutednarayan

Tools, Events, Courses Don’t miss the opportunity to design on of the page of Knowledge is Beautiful, the next book of David McCandless. The challenge is open until March 24 and is also well rewarded with a prize of a total of five thousand dollars. Ampp3d, the Trinity Mirror-owned data journalism site, launched its own competition too. Aspiring journalists have to develop a mobile-friendly data visualization which will be published on the Ampp3d website. The winner gets a hundred-pound prize. R is one of the top choices when it comes to programming languages for data visualization. Here you may find a tutorial from Daniel Waisberg on how to display Google Analytics Data with it. The New York Times is about to reveal Upshot, its new data-driven website based on politics and economics, which will replace Nate Silver’s FiveThirtyEight. Read some updates here. Data Stories This week we would like to start by presenting a series of infographics that are detailed as well as interesting. The funniest one is surely “Twelve world records you can break during your lunch hour”, posted by ChairOffice on Visual.ly. Big tech companies mean big business transactions. Watch this interactive explanation from Simplybusiness on the history of the biggest Tech Giants Acquisitions Among the others mentioned above, we strongly recommend you see Weather Radials, a poster representing all the climate changes occurring in 35 cities in the world last year, which is also a data visualization masterpiece to admire. For a deeper understanding of visualization, take a moment to read this article written by Dorie Clark on the Forbes website, which reminds us why “Data Visualization is the Future”. Data Sources See how tech enterprises and organizations are spreading across Africa in this map on WomenTechAfrica. The toolkit of a data addict is growing every day, and sometimes you have to choose the right tool for your own project. Here is a short list from Jerry Vermanen of software and programs that can be used for data extraction, filtering, and visualization. flattr this!

Visiting Electionland

- November 6, 2013 in Data Stories, HowTo, R, visualisation


After the German elections, data visualization genius Moritz Stefaner created a map of election districts, grouping them not by geography but by election patterns. This visualisation impressively showed a still-existing divide in Germany. It is a fascinating alternative way to look at elections. On his blog, he explains how he did this visualization. I decided to reconstruct it using Austrian election data (and possibly more countries coming). Austria recently published the last election’s data as open data, so I took the published dataset and cleaned it up by removing summaries and introducing names for the different states (yes, this is a federal state). Then I looked at how to get the results mapped out nicely. In his blog post, Moritz explains that he used Z-Scores to normalize data and then used a technique called Multidimensional Scaling (MDS) to map the distances calculated between points into 2-dimensional space. So I checked out Multidimensional Scaling, starting on Wikipedia, where I discovered that it’s linear algebra way over my head (yes, I have to finish Strang’s course on linear Algebra at some point). The Wikipedia article fortunately mentions a R command cmdscale that does multidimensional scaling for you. Lucky me! So I wrote a quick R script: First I needed to normalize the data. Normalization becomes necessary when the raw data itself is very hard to compare. In election data, some voting stations will have a hundred voters, some a thousand; if you just take the raw vote-count, this doesn’t work well to compare, as the numbers are all over the place, so usually it’s broken down into percentages. But even then, if you want to value all parties equally (and have smaller parties influence the graph as much as larger parties), you’ll need to apply a formula to make the numbers comparable. I decided to use Z-Scores as used by Moritz. The Z-Score is a very simple normalization score that takes two things, the mean and the standard deviation, and tells you how many standard deviations a measurement is above the average measurement. This is fantastic to use in high-throughput testing (the biomed nerd in me shines through here) or to figure out which districts voted more than usual for a specific party. After normalization, you can perform the magic. I used dist to calculate the distances between districts (by default, this uses Euclidean distance) and then used cmdscale to do the scaling. Works perfectly! With newly created X and Y coordinates, the only thing left is visualization—a feat I accomplished using D3 (look at the code—danger, there be dragons). I chose a simpler way of visualizing the data: bubbles the size of voters in the district, the color of the strongest party. Wahlland visualization of Austrian general Elections 2013
(Interactive version) You can see: Austria is less divided than Germany. However, if you know the country, you’ll find curious things: Vienna and the very west of Austria, though geographically separated, vote very similarly. So while I moved across the country to study when I was 18, I didn’t move all that much politically. Maybe this is why Vienna felt so comfortable back then—but this is another story to be explored another time. flattr this!

Exploratory Data Analysis – A Short Example Using World Bank Indicator Data

- July 7, 2013 in Data Stories, iPython, R

Knowing how to get started with an exploratory data analysis can often be one of the biggest stumbling blocks if a data set is new to you, or you are new to working with data. I recently came across a powerful example from Al Essa/@malpaso where he illustrates one way in to exploring a new data set – explaining a set of apparent outliers in the data. (Outliers are points that are atypical compared to the rest of data, in this example by virtue of taking on extreme values compared to other data points collected at the same time.) The case refers to an investigation of life expectancy data obtained from the World Bank (World Bank data sets: life expectancy at birth*), and how Al tried to find what might have caused an apparent crash in life expectancy in Rwanda during the 1990s: The Rwandan Tragedy: Data Analysis with 7 Lines of Simple Python Code *if you want to download the data yourself, you will need to go into the Databank page for the indicator, then make an Advanced Selection on the Time dimension to select additional years of data. world bank data The environment that Al uses to analyse the data in the case study is iPython Notebook, an interactive environment for editing Python code within the browser. (You can download the necessary iPython application from here (I installed the Anaconda package to try it), and then followed the iPython Notebook instructions here to get it running. It’s all a bit fiddly, and could do with a simpler install and start routine, but if you follow the instructions it should work okay…) Ipython notebook iPython is not the only environment that supports this sort of exploratory data analysis, of course. For example, we can do a similar analysis using the statistical programming language R, and the ggplot2 graphics library to help with the chart plotting. To get the data, I used a special R library called to WDI that provides a convenient way of interrogating the World Bank Indicators API from within R, and makes it easy to download data from the API directly. I have posted an example of the case study using R, and the WDI library, here: Rwandan Tragedy (R version). The report was generated form a single file written using a markup language called R markdown in the RStudio environment. R markdown provides a really powerful workflow for creating “reproducible reports” that combine analysis scripts with interpretive text (RStudio – Using Markdown). You can find the actual R markdown script used to generate the Rwanda Tragedy report here. As you have seen, exploratory data analysis can be thought of as having a conversation with data, asking it questions based on what answers it has previously told you, or based on hypotheses you have made using other sources of information or knowledge. If exploratory data analysis is new to you, try walking through the investigation using either iPython or R, and then see if you can take it further… If you do, be sure to let us know how you got on via the comments:-) flattr this!