You are browsing the archive for Mina Lee.

Open Format vs Machine Readable Format

- June 4, 2013 in Machine Readable Format, Open Format, 오픈 데이터, 오픈 데이터 포맷, 정보

이 글은 OKFN Korea 페이스북 그룹에서 먼저 작성된 글입니다.
오픈 데이터와 관련하여 위에 두 가지 형식에 대해 정리가 필요해 보입니다. 미국의 Open Data Policy에서 Machine Readable Format이 언급되면서 이슈가 되었다고 생각합니다.   먼저 “Open Format” 데이터를 활용하기 위한 범용적 솔루션을 지향합니다. 웹 브라우저, 메모장과 같이 일반적인 사용자가 갖고 있는 도구로 활용할 수 있는 데이터 형식을 말합니다. 예를 들어, XLS 형식은 마이크로소프트의 엑셀 (Excel)이라는 소프트웨어가 없으면 사용할 수 없지만, 같은 내용을 csv (comma separated value)형태로 제공하면 텍스트 편집기나 웹 브라우저를 통해 확인할 수 있습니다. 그래서 오픈 데이터의 형식은 보편성을 지향합니다. 반면, (꼭 상반된 개념은 아니지만), Machine Readable Format은 데이터를 처리 (processing)하는 관점에서 조금은 공학적인 얘기를 합니다. PDF, HTML 형식은 사람들이 볼 수 있는 (human readable) 목적으로 적합하지만, 컴퓨터가 처리하는데 적합한 형식은 아닙니다. 개발자라면 데이터를 파싱 (parsing) 한다는 의미를 이해할텐데요. 데이터를 활용 목적에 맞게 처리하는 것인데, 위에 언급한 형식들은 이런 작업에 시간도 많이 걸리고 쉽지 않습니다. 결국 어떤 데이터를 활용하고자 할 때, 컴퓨터가 처리하기 어렵다는 말은 누군가-개발자이던 아니던- 더 많은 시간을 데이터 조작에 써야 된다는 의미가 됩니다.
오픈 데이터에서 Machine Readable Format을 지향하는 것은 컴퓨터가 더 많은 일을 처리할 수 있는 가능성을 확보하는 것이고, 궁극적으로 데이터 사용자의 시간과 노력을 절약할 수 있기 위한 목적입니다. 물론 여기에 더해 데이터를 연계하고 통합하고… 상호운용이 가능하고… 라는 수식어를 보탤 수 있지만 데이터 사용자를 위한 목적만으로 그 의미가 있다고 할 수 있습니다. 기술적 관점에서 이런 것들에 가장 가까운 것이 Linked Data 기술이지만, 이 이슈는 다른 포스트에 써 보겠습니다.
두 가지 형식이 상호 배타적 관계가 아닌 보완적인 관계라는 것이 중요합니다. Machine Readable Format으로 제공되는 XML, RDF, OWL과 같은 형식은 웹 브라우저에서 모두 볼 수 있는 보편적 형식입니다. 이런 형식으로 제공하기 위해 추가적인 작업이 필요한 것이 문제(?)이지만, 이를 통해 얻을 수 있는 이점은 많아질 것이라 생각합니다. 이렇게 쓰고 보니, 결국 기술적인 얘기도 같이 해야 겠네요 ^^ Machine readable data에 대한 링크를 남깁니다.   http://en.wikipedia.org/wiki/Machine-readable_data “Machine-readable data is data (or metadata) which is in a format that can be understood by a computer. There are two types; human-readable data that is marked up so that it can also be read by machines (examples; microformats, RDFa) or data file formats intended principally for machines (RDF, XML, JSON). For purposes of implementation of the GPRA Modernization Act (GPRAMA), the Office of Management and Budget (OMB) defines “machine readable” as follows: “Format in a standard computer language (not English text) that can be read automatically by a web browser or computer system. (e.g.; xml). Traditional word processing documents, hypertext markup language (HTML) and portable document format (PDF) files are easily read by humans but typically are difficult for machines to interpret. Other formats such as extensible markup language (XML), (JSON), or spreadsheets with header columns that can be exported as comma separated values (CSV) are machine readable formats. It is possible to make traditional word processing documents and other formats machine readable but the documents must include enhanced structural elements.”[1] Publishing public data in an open, standard, machine-readable format is a best practice (good operating practice).”   *추가자료 David Weinberger가 Human Readable vs. Machine Readable에 대해서 짤막하게 설명한 영상입니다. http://vimeo.com/48196816

OKFN Korea의 Linked Data Hackathon

- June 4, 2013 in OKF, okfn, 링크드데이터, 열린지식재단, 이벤트, 해커톤

이 글은 OKFN Korea 페이스북 그룹에서 먼저 작성된 글입니다. OKFN Linked Data 해커톤의 일정이 2013년 6월 22일로 변경되었습니다. 대학생들의 기말고사가 끝난 후 모여서 열정적으로 만들어 보려고 합니다. 최근 공공기관에서 Linked Data에 대한 논의가 활발히 진행되고 있습니다. 과제화되어 공고가 나오는 것으로 알고 있습니다. OKFN Linked Data 해커톤은 국가 데이터 기반 체계를 만드는 시도를 합니다. 공공 데이터가 개방되고 데이터 사이에 유기적인 연결관계를 맺기 위한 필수적인 데이터를 링크드 데이터로 개발하고 활용할 수 있는 오픈소스를 만드는 것이 목표입니다.
  • 기본 데이터: 전국 행정구역, 전국 도로명, 전국 도로명주소, 전국 지번주소, 전국 우편주소, 국가 행정표준코드 등 (스키마와 인스턴스 모두 Linked Data 변환 완료)
  • 활용 데이터: 전국 어린이집, 유치원, 초등학교, 중학교, 고등학교, 대학교 데이터 (기본 데이터와 연계하여 링크드 데이터로 구축)
  • 연계 데이터: 기본 데이터 + 활용 데이터를 연계하여 스토리를 만들 수 있는 데이터 (공공데이터포털, 서울시 열린데이터광장에서 검토)
구축이 필요한 데이터와 행사에 대한 의견은 언제나 환영합니다. ^^