You are browsing the archive for dados.

Escola de Dados realiza Coda.Br nos dias 10 e 11 de novembro

- November 7, 2018 in academia, Coda.Br, conferência, dados, Destaque, Escola de Dados, Evento, Jornalismo de dados, Métodos Digitais, métricas, monitoramento

Mais de 40 palestrantes nacionais e internacionais estão confirmados para a terceira edição da Conferência Brasileira de Jornalismo de Dados e Métodos Digitais, Coda.Br, organizada pela Escola de Dados. O evento ocorre em São Paulo nos dias 10 e 11 de novembro, na ESPM. Confira a programação completa e inscreva-se no site: coda.escoladedados.org. O Coda.Br recebe Jeremy Merril da ProPublica, premiadíssimo veículo norte-americano de jornalismo investigativo; Alberto Cairo, referência internacional quando o assunto é visualização de informações; Fernanda Viegas, pesquisadora sênior do Google; Neale El-Dash, cientista político fundador do Polling Data; entre outras dezenas de especialistas já confirmados.   Como conseguir evidências ou boas histórias utilizando bases de dados públicas? Que tal criar mapas para visualizar sua informação espacialmente? Ou usar a linguagem R para analisar políticas governamentais? São mais de 60 horas de workshops, apresentações e oficinas práticas com convidados nacionais e internacionais. Não sabe por onde começar? O Coda.Br vai ter momentos de debates abertos e atividades introdutórias para ensinar a lidar com bases de dados massivas, usando Python ou SQL, por exemplo. Mas se você quer aprofundar, vale conferir as atividades sobre Machine Learning ou quem sabe se aventurar nos workshops de Estatística Avançada ou Processamento de Linguagem Natural aplicados ao jornalismo. Além das mesas e dos workshops práticos, o evento vai ter espaços de networking sobre dados abertos, bootcamps de 6h para quem deseja aprender a programar em Python ou R e sessões de mentoria no estilo “Traga seu problema”, onde os participantes vão poder tirar dúvidas de projetos em andamento ou já realizados. Ainda há ingressos disponíveis. Garanta já o seu aqui. (Dica: junte um grupo de quatro ou mais amigos, colegas de trabalho ou da faculdade, para conseguir descontos. Basta entrar em contato no e-mail de contato da Escola de Dados) Se você já está mais certo que as planilhas, confirme também no evento no Facebook e convide amigos por lá. Ajude a notícia a chegar em possíveis interessados e ampliar a comunidade de jornalistas e cientistas de dados no Brasil. Esperamos você lá! Flattr this!

Dados Conectados

- November 20, 2017 in dados, Dados Abertos, Destaque, Internet, linked data, W3C

Por Thiago Ávila* Vamos começar este artigo analisando a figura 01, extraída do site DataPortals.org [1], que mostra a ocorrência de catálogos de dados abertos no mundo:

Figura 01 – Distribuição dos catálogos de dados abertos governamentais no mundo [1]

Hummm … 200 catálogos na Europa, 140 na América do Norte, 22 na América do Sul, 23 na África, 21 na Ásia e 15 na Oceania. Tudo bem. E como fazer para responder algumas questões relevantes como:
  • Quais os dados disponíveis sobre ocorrência de doenças no hemisfério sul ?
  • Ou ainda, quais as ocorrências de determinado tipo de crime nestes países ?
  • Quantas escolas foram abertas desde 2008 em cada país que possua um catálogo de dados ?
Como se tratam de catálogos de dados abertos, provavelmente, para tentar responder a pelo menos uma dessas perguntas será preciso acessar os 424 catálogos, buscar em cada um deles o dado desejado, fazer o download de cada conjunto de dado, padronizar o formato de dados, metadados, levar para uma ferramenta de extração, tratamento de carga de dados (ETL), construir uma consulta para depois ter um resultado. Muito esforço, não? E deixando a coisa um pouco mais complexa, se a licença de uso de um conjunto de dados impedir que esse dado seja cruzado com outro dado, ou ainda, se o formato disponibilizado seja proprietário ou um formato de baixa qualidade, como o PDF? Provavelmente você ficará sem responder as suas perguntas. A web que conhecemos atualmente é a web dos documentos onde são priorizados e disponibilizados páginas HTML, arquivos de diversos formatos, como planilhas, documentos de texto, mapas, coordenadas geográficas, animações, conteúdo multimídia, etc. Acontece que os dados, mesmo que estejam disponíveis em formatos abertos, para serem acessíveis primeiro é preciso encontrar o arquivo que armazena os dados, para aí sim, acessar cada dado, pois, em sua maioria são formatos não estruturados e são adequados para facilitar o acesso e leitura para humanos e não são compreensíveis por máquina [2]. Considerando situações corriqueiras como essa, o World Wide Web Consortium – W3C tem desenvolvido muitos esforços para não apenas estabelecer os padrões da internet global, mas para a oferta de dados na Web, como já apresentamos no post anterior. E como seria se pudéssemos acessar diretamente os dados disponíveis na web, mediante consultas a servidores de dados? Consultas que acessem dados de diversas origens, espalhados ao longo do mundo e ainda, obtendo não apenas os dados, mas a semântica relacionada a eles?  Buscando construir esta web dos dados que, dentre outras muitas coisas, resolvem aos problemas corriqueiros do início do artigo que ao longo destes esforços e pesquisas desenvolvidas pelo W3C, Tim Berners-Lee (ele mesmo, o mesmo cara que inventou a Web) propôs um conceito muito promissor que são os Dados Conectados, do termo em inglês, Linked Data [3]. Em definição, Linked Data se resume ao conjunto de boas práticas para a publicação de dados na web. Linked Data define princípios para a publicação e consumo dos dados e os classificam de acordo com sua disponibilidade, acesso, estruturação e conexão [2]. Assim como a web do hipertexto, a web dos dados é construída a partir de documentos na web, porém, diferentemente da web do hipertexto, onde os links são âncoras que relacionam uma página web a outra (ou a um arquivo), na web dos dados, os links são apontados para os dados que são descritos por um framework de recursos, conhecido como RDF (Resource Description Framework). Além disso, cada dado é identificado por um identificador universal – URI (Universal Resource Identifier) e ainda, podem ser acessados mediante uma linguagem de consulta que é o SPARQL (SPARQL Protocol and RDF Query Language). Para um dado ser conectado, ele precisa obedecer aos quatro princípios para publicação [4]:
  1. Use URIs para definir coisas;
  2. Use HTTP URIs para que os dados possam ser encontrados por humanos e agentes na web;
  3. Quando um dado for solicitado através de HTTP URIs, fornecer todas as informações sobre o mesmo, em um formato de dados estruturados utilizando padrões como RDF e SPARQL;
  4. Incluir links para outras fontes de dados relacionados (usando URIs) para que seja possível obter mais informações.
A partir do conceito de Dados Conectados, algumas nações globais já estão considerando este novo paradigma e incentivando a sua produção e oferta. Países como o Reino Unido e os Estados Unidos da América já possuem uma boa oferta de dados em formato RDF nos seus catálogos de dados governamentais. Além disso, grandes projetos em escala global tem crescido a cada ano, como a DBPedia[5], que é a base de dados conectada a partir da Wikipedia ou a LODSpringer[6], que visa ofertar dados conectados sobre artigos, periódicos e conferências científicas editorados pela Springer. Enfim, sobre o Reino Unido já é possível responder a terceira pergunta do início deste artigo “Quantas escolas foram abertas desde 2008 em cada país que possua um catálogo de dados ?”. Basta executar a seguinte consulta SPARQL abaixo: PREFIX sch-ont: <http://education.data.gov.uk/ontology/school#> PREFIX xsd: <http://www.w3.org/2001/XMLSchema#> SELECT ?school ?name ?date ?easting ?northing WHERE { ?school a sch-ont:School; sch-ont:establishmentName ?name; sch-ont:openDate ?date ; sch-ont:easting ?easting ; sch-ont:northing ?northing . FILTER (?date > “2008-01-01″^^xsd:date && ?date < “2009-01-01″^^xsd:date) } Nos próximos artigos, continuaremos apresentando o potencial, casos de uso, vantagens, limitações e muito mais sobre o universo dos Dados Conectados. Até a próxima!!!
  • Thiago Ávila é conselheiro consultivo da Open Knowledge Brasil.
  •  Estes artigos são oriundos de pesquisas científicas desenvolvidas no Núcleo de Excelência em Tecnologias Sociais (NEES), do Instituto de Computação da Universidade Federal de Alagoas (UFAL) e contam com a contribuição direta dos pesquisadores Dr. Ig Ibert Bittencourt (UFAL), Dr. Seiji Isotani (USP), e Armando Barbosa, Danila Oliveira, Judson Bandeira, Thiago Ávila e Williams Alcântara (UFAL).
[1] DataPortals. (2015). A Comprehensive List of Open Data Portals from Around the World. Open Knowledge Foundation. Acesso em: jul. 2015. Disponível em: http://www.dataportals.org [2] Bandeira, Judson; Alcantara; Williams;  Barbosa, Armando; Ávila, Thiago; Oliveira, Danila; Bittencourt, I. & Isotani, S. (2014). Dados Abertos Conectados. Jornada de Atualização em Tecnologia da Informação. Anais do III Simpósio Brasileiro de Tecnologia da Informação – SBTI 2014. [3]Berners-Lee, Tim (2006). Linked Data. W3C. Acesso em: jul. 2015. Disponível em: http://www.w3.org/DesignIssues/LinkedData.html [4] Bizer, Christian; Hheath, Tom; Berners-Lee, Tim (2009). Linked data – the story so far. International Journal On Semantic Web And Information Systems, v. 5, n. 3, p. 1-22. [5] DBPedia – http://www.dbpedia.org [6] Springer Linked Open Data – http://lod.springer.com Texto publicado no site Thiago Ávila. Ele faz parte da série de artigos Dados abertos conectados. Flattr this!