우리는 일상에서 데이터를 만들기도 하고 동시에 소비하는 주체입니다. 소셜 웹, 공공 영역의 데이터 공개는 양적인 증가를 이끌고 있으나, 양질의 데이터를 적시에 얻는 것은 큰 도전과제가 될 수 있습니다.
대한민국, 잇다! 프로젝트는 국내외 활용 가능한 데이터를 링크드 데이터 기술을 적용해 연결하고 효과적으로 활용할 수 있는 환경을 제공합니다.

온라인 공간에 데이터는 많습니다. 공공 영역에서 데이터를 공개함에 따라 활용할 수 있는 데이터는 더욱 확대될 수 있습니다. 그러나 데이터가 양적으로 증가한다고 하여 활용도가 비례적으로 증가하지 않습니다. 특정한 데이터를 활용함에 있어 가장 중요한 것은 필요로 하는 데이터를 적시에, 효과적으로 사용하는 것입니다.

1. 원하는 데이터는 어디에?

대부분의 데이터 사용자는 자신이 원하는 데이터를 찾는데 많은 시간을 소비합니다. 시나리오에 따라 연관성있는 데이터의 존재여부, 제공자, 라이센스 여부 등 다양한 이슈를 검토해야 합니다. 공공데이터포털, 서울시 열린데이터광장이 이런 문제를 해결하는데 도움이 되지만, 여전히 어려운 것이 현실입니다.

2. 데이터를 쓰기 쉽게?

실세계의 데이터는 불완전 (incomplete)하고, 잡음(noisy)이 있고, 일관성이 부족 (inconsistent)할 수 있습니다. 데이터 전처리는 이러한 문제를 해결하기 위한 것으로 데이터 정제 (cleaning), 통합 (integration), 변환 (transformation), 축소 (reduction)를 포함합니다. 데이터에 따라 다를 수 있지만, 전처리와 정제 과정은 많은 노력이 필요할 수 있으며 양질의 데이터를 만드는 핵심 과정입니다. 그러나 정제한 내용과 데이터는 쉽게 공유되지 않습니다.

3. 데이터의 연결점은?

서로 관련 있는 데이터를 연결하기 위해 기준이 될 수 있는 데이터가 중요합니다. 링크드 데이터 환경에서 디비피디아 (Dbpedia)는 가장 많은 링크가 연결되는 핵심이 되고 있습니다. 그러나, 국내와 관련된 데이터가 제한적이라는 측면에서 현실적 접근이 필요합니다. 링크드 데이터를 많이 배포하는 것보다 기준점을 통해 연결하는 것이 중요한 이유입니다. 대한민국의 데이터를 연결하기 위해 기준점은 무엇일까요?

대한민국, 잇다!는 데이터를 쉽고 효과적으로 활용할 수 있는 기반을 구축합니다. 다양한 영역의 데이터를 서로 연결하고, 데이터 매쉬업을 실현하기 위한 인프라를 구축하여 데이터의 재사용성을 높입니다. 대한민국 데이터 생태계를 구성하는 기반 데이터에 대한 표준을 제시하고, Linked Open Data와 분야별 데이터를 연계함으로써 데이터 분석과 시각화 등 응용 사례를 만들 수 있는 기반을 제공합니다.

1. Simplicity

LOD 데이터 허브는 최소의 데이터 모델을 지향합니다. 데이터셋에 따라 다를 수 있지만 풍부한 표현력보다 실용적으로 사용할 수 있는 모델을 지향합니다. 모든 데이터 모델은 최소의 핵심 어휘와 관계만을 정의하고, 상세화가 필요한 부분은 별도의 모델로 확장할 수 있습니다.

2. Incremental

LOD 데이터 허브는 데이터의 특성에 따라 확장과 수정이 가능한 점진적인 데이터 모델을 지향합니다. 완결성이 높은 도메인 온톨로지를 만들기 보다 데이터셋이 담고 있는 특성을 반영시켜 데이터 모델을 점진적으로 확장시키는 것을 지향합니다.

3. URI

LOD 데이터 허브를 통해 발행되는 모든 데이터에 일관성 있는 URI (Unique Resource Identifier) 체계를 적용합니다. URI가 부여된 자원 (resource)은 데이터를 식별하고 다른 데이터와 연결하는데 사용할 수 있습니다.

대한민국, 잇다!는 라이센스에 제약이 없는 데이터를 수집하여 링크드 데이터로 만들고, 구축 과정에서 생성되는 모든 산출물을 공유합니다.

구축 범위

링크드 데이터 구축 범위는 기반 데이터와 분야별 데이터를 포함합니다. 먼저 기반 데이터는 행정구역, 도로명, 우편번호와 같이 보편적으로 활용되는 핵심 데이터를 포함합니다. 분야별 데이터는 제한이 없으며, 사회 전반에서 의미적으로 연결할 수 있는 모든 주제 범위를 포함합니다.
  • 모든 데이터는 기반 데이터와 Linked Open Data의 연계를 원칙적으로 적용합니다.
  • 국가 기반 데이터는 임의적으로 도식화하였으며, 데이터에 따라 확장이 필요합니다.
  • 데이터는 정형적인 특성과 수치, 통계적 데이터를 모두 포함합니다.
  • 데이터 융합과 응용 영역의 서비스를 위해 오픈 API, Linked Data, SPARQL Endpoint를 함께 제공합니다.

이미지 크게 보기

relation

구축 프로세스

링크드 데이터를 구축하는 전체 과정은 다음과 같습니다.
  • 대한민국, 잇다!는 시맨틱 웹과 링크드 데이터 기술을 적용하여 데이터를 구축하며, RDF, JSON, XML 등 다양한 형식으로 공유합니다.
  • 데이터 수집은 정부기관 및 사이트, 오픈 데이터를 공유하는 기관이 모두 포함됩니다.
  • 수집, 변환 및 구축된 모든 데이터는 코리아 데이터허브에 공유합니다.
  • 링크드데이터로 구축하는 대상은 The Voice of Open Data 사이트와 사용자의 피드백을 통해 결정합니다.
relation

표준화

링크드 데이터의 구축 과정에 필요한 표준을 함께 진행합니다.
  • 데이터 모델 및 어휘: schema.org를 기반으로 하며, 필요시 모델과 어휘를 확장합니다. 기반 데이터와 관련된 모델은 표준화를 진행합니다.
  • 데이터 연계, URI 설계, API 설계 명세서: 링크드 데이터를 구축하는 과정에 필요한 요소들에 대해 문서화하며, 향후 링크드 데이터 구축을 위한 가이드라인을 제시합니다.

링크드 데이터를 구축하는 전체 과정은 다음과 같습니다.

데이터명 데이터출처 데이터 크기 발행기관 발행일자 연결 대상 Linked Data
행정구역 안전행정부 21,667건 통계청 2013년 10월 7일 행정구역 다운로드
도로명 코드 도로명주소 안내시스템 347,242 건 안전행정부 2013년 10월 7일 행정구역 다운로드
초등학교 교육부 6,247건 교육부 2013년 10월 행정구역 다운로드
중학교 교육부 3,204건 교육부 2013년 10월 행정구역 다운로드
고등학교 교육부 2,304건 교육부 2013년 10월 행정구역 다운로드
대학교 교육부 1,837건 교육부 2013년 10월 행정구역 다운로드
유치원 교육부 8,696건 교육부 2013년 10월 행정구역 다운로드
병원 건강보험심사평가원 84,731건 건강보험심사평가원 2013년 10월 행정구역 다운로드
문화재 문화재청 13,704건 문화재청 - 행정구역 다운로드
주차장 서울시 열린데이터광장 471건 서울시 2013년 10월 행정구역 다운로드
지하철 운영시간 서울시 열린데이터광장 3,337건 서울시 2013년 10월 행정구역 다운로드
지하철 노선 서울시 열린데이터광장 20건 서울시 2013년 10월 행정구역 다운로드
지하철역 서울시 열린데이터광장 581건 서울시 2013년 10월 행정구역 다운로드