• 검색 결과가 없습니다.

3. 국립중앙도서관의 데이터 관련 자료 및 사업현황 62

3.4 빅데이터와의 관련성

앞서 디지털 콘텐츠, OASIS, LOD 사업에 대한 간략한 경과와 내용을 살펴 보았다. 디지털 콘텐츠의 핵심은 DCMS로, DCMS는 국립중앙도서관의 모든 디지털 정보자원을 입수, 관리, 보존, 서비스하는 주요 시스템이다. DCMS가 기존의 도서관 시스템과 차별성을 갖는 점은 도서관 외 다양한 기관이나 개인 이 XML 형태의 서지 데이터를 활용할 수 있는 체계를 갖추고 있으며, MODS를 활용함으로써 실제 데이터 값(value)이 의미하는 바를 직관적인 메 타데이터명으로 유추할 수 있는 것에 있다.

그러나 DCMS를 통해서 반출되는 데이터 역시 MARC와 같이 하나의 레코 드로 관리되고 있고 오픈 API를 통해서 접근가능하기 때문에 국립중앙도서관 의 허가와 접속 및 활용에 제한이 따른다는 한계를 갖는다. 기존 MARC 데이 터에 비해서 유용성은 증가하였으나 도서관, 박물관, 기록관 등과 같은 기관 에서의 사용 이외에 다양한 도메인, 다양한 서비스개발 등에 직접 활용하기는 어렵다. 또한 도서관이 자체적으로 보유, 관리하고 있는 정보자원에 대한 데이 터를 구축하기 때문에 ISBN, ISSN 등 국제적인 표준 식별자가 존재하지 않 을 경우 외부의 동일 디지털 개체에 대한 연결성을 확보하기 어렵다. 디지털 컬렉션 서비스의 경우는 DCMS를 통해서 관리되지 않는 데이터가 존재하기 때문에 데이터로서의 유용성과 활용성은 낮다.

OASIS는 웹사이트를 대상으로 한다는 점에서 콘텐츠 형태적으로 가장 큰

보다는 복잡성에서 기인한다. MARC 포맷이 대표적인 사례이다. 디지털 정보 가 도서관의 새로운 매체 유형으로 중요한 자리를 차지하고 웹이 정보의 생산 과 소멸이 이루어지는 거대한 데이터 플랫폼으로 자리매김함에 따라 도서관 데이터의 중요성은 오히려 증가하고 있다. 특히 도서관이 전통적으로 구축해 온 주제명, 저자명 등의 통제어휘는 웹에 무분별하게 적재되어 있는 정보들을 데이터 단위로 구분하고 식별할 수 있도록 한다는 점에서 중요한 역할을 수행 할 수 있다. 도서관이 구축해온 데이터셋이 빅데이터로 외부에 반출될 경우 모든 데이터들의 의미적 연결, 구분을 가능하게 할 수 있는 기초데이터로 활 용될 수 있다. 다시 말해 도서관 데이터는 빅데이터 환경에서 의미적 불명확 성을 갖는 다른 모든 데이터들의 유용성, 활용성을 증가시키는 토대 역할을 할 수 있다. 도서관 데이터가 이러한 역할을 보다 잘 수행하기 위해서는 LOD 와 같은 범용적이고 구조화된 형태의 지속적인 개방이 필요하다.

도서관의 입장에서 빅데이터는 두 가지 주요한 측면에서 고려될 수 있다.

하나는 빅데이터로서 도서관 데이터를 누구나 활용할 수 있는 형태로 제공하 는 것에 대한 부분이고, 또 다른 하나는 외부에 존재하는 빅데이터를 어떻게 도서관에서 활용할 수 있는가 대한 것이다. 데이터셋은 국가대표도서관인 국 립중앙도서관의 입장에서 관리, 보존, 서비스해야하는 새로운 유형의 정보 유 형이다. 현재 DCMS의 경우도 데이터셋을 처리할 수 있는 기능적인 요건을 갖추고 있으나 해당 데이터를 분석하고 직접 활용할 수 있는 체계는 부족하 다. 외부에 존재하는 데이터를 도서관에서 직접 활용하고 서비스하기 위해서 는 관리, 보존, 서비스 대상으로써 외부 데이터를 수집, 보존하는 현재 인프라 외에 업무, 통계, 예측(추론) 등에 필요한 빅데이터 분석, 활용 인프라를 도입 할 필요가 있다.

무엇보다 현재 국립중앙도서관이 갖고 있는 모든 데이터, 데이터셋에 대한 가치를 빅데이터, 구조적데이터, 오픈데이터 등 다양한 측면에서 분석하고 데 이터셋의 품질을 향상시킬 수 있는 방법을 강구하는 것이 중요하다.

제 3 장 관련 사례 조사 분석

1. 해외 국가도서관의 데이터 관련 서비스 및 전략 2. 공공데이터 포털 서비스

3. 연구데이터의 수집 및 공유 현황 4. 데이터서비스 관련 주목 사례

제3 장

관련 사례 조사 분석

1. 해외 국가도서관의 데이터 관련 서비스 및 전략

1.1 미국의회도서관 (Library of Congress, LC)

가. LCWA

미국의회도서관(Library of Congress, LC)은 국립중앙도서관과 마찬가지로 크롤링을 통해 인터넷 웹페이지의 정보를 수집 및 아카이빙하는 LCWA(The Library of Congress Web Archives)를 운영하고 있다. 명시적인 이용허락이 있는 경우 웹을 통해 정보를 제공하며, 그렇지 않은 경우에는 연구와 같은 특 정 목적을 위해 관내 열람이 가능하다. 별도 선거, 입법부와 같은 ‘테마’나 남 북 전쟁, 이라크 전쟁과 같은 ‘사건’ 중심으로 수집된 데이터를 주제별 전문가 들이 큐레이팅하고, 목록전문가들이 컬렉션 단위로 메타데이터 서지를 구성하 고 있다.

나. 트위터 아카이브

제공하고 있다. LC의 트위터 자료는 이와 같은 상업회사의 서비스와 경쟁하기 힘들 것으로 보이며 단순 아카이빙 자료로 남아 있을 가능성이 높다.

다. National Digital Stewardship Alliance

2010년 LC 주도하에 디지털 정보자원의 장기적인 보존을 도모하기 위해 만 들어진 컨소시엄으로 미국 내 160개의 대학, 전문단체, 정부기관 및 상업회사 가 참여하고 있다. contents, standards, infrastructure, innovation, outreach의 5개 working group을 통해 운영된다. 지리 공간 데이터의 보존을 위한 프로 젝트 추진, 개인 차원의 디지털 아카이빙 도구 및 가이드 제공, 디지털 컬렉션 을 활용하기 위한 프로그램인 viewshare.org 등의 개발 등 다양한 프로그램을 운영 중에 있다.

라. Chronicling America

2005년 LC와 미국인문재단(National Endowment for the Humanities, NEH) 이 공동으로 실시하는 미국 디지털 신문 프로그램(National Digital Newspaper Program, NDNP)에서 주관하는 데이터베이스이다. 역사적인 가치가 있는 신 문을 디지털화하여 인터넷에서 검색이 가능한 신문 데이터베이스를 개발하고 영구적으로 접근할 수 있도록 하는 것을 목표로 한다. 1836년부터 1922년까지 의 신문 974만 여 쪽을 디지털화해 제공하고 있다.

이 프로그램은 미국에서 발행한 신문의 목록·보존·이용을 위한 국가적 프로 그램인 미국신문프로그램(United States Newspaper Program, USNP, 1982~

2009)을 기반으로 하는 것으로 LC의 기술적 지원과 NEH의 자금을 제공받아 운영되고 있다. LC와 NEH는 2003년 NDNP와 기관의 책무 및 전반적인 지원 에 대한 정식 협약을 체결했으며, 2004년에는 NEH가 미국의 역사 연구 강화 를 위해 NDNP 가이드라인을 발표했다. 2005년 이후에는 국가 프로그램에 참 여한 주립도서관, 역사단체 및 대학에 보조금을 지원하고 있다.

마. LC 링크드 데이터 서비스21)

도서관 분야에서의 링크드 데이터 접근의 특징은 개념적 접근과 기술적 접근이 동시에 진행되고 있다는 것이다. LC는 2009년부터 LCSH(Library of Congress

Subject Headings)를 RDF(Resource Description Framework)로 표현하여 링

관련 문서