• 검색 결과가 없습니다.

3. 국립중앙도서관의 데이터 관련 자료 및 사업현황 62

3.2 오아시스(OASIS)

오아시스(Online Archiving & Searching Internet Source, OASIS)17)는 웹사이 트 시스템, 그리고 웹사이트가 서비스하고 있는 파일자료를 수집 보존하기 위한

17) http://oasis.go.kr

프로젝트이다(<표 2-3>, <그림 2-25> 참조).

2008 국제인터넷정보자원보존기구(International Internet Preservation Consortium, IIPC) 정회원 가입 OASIS 수집DB 메타데이터 품질 고도화 사업

<그림 2-25> OASIS 홈페이지 디지털정보자원 검색화면

이런 정보들은 디지털 정보자원의 장기보존을 위해 보존 대상 디지털 객체 와 함께 메타데이터 형태로 패키징 되어 입력되어야할 정보들로 2009년 이후 DCMS에 관리 기능이 흡수되었다.

2009년 이후 OASIS 관리시스템의 가장 큰 변화는 IIPC에서 제공하고 있는 오 픈 소스 소프트웨어의 도입과 저장 파일 포맷을 ISO 28500 표준인 WARC(Web Archive Data Format)으로 전환한 것과 디지털 장서관리시스템으로 관리 시스 템을 이관한 데 있다.

IIPC의 오픈 소스 소프트웨어는 크롤링과 하베스팅(Crawling and harvesting), 웹 아카이브 디스플레이(Display/view web archive), 분석(Analytics)으로 이루 어진다. IIPC 정회원 가입 후 국립중앙도서관에 도입된 소프트웨어는 수집기인 Heritrix와 저장된 파일을 보기 위한 Wayback이다.

소프트웨어 특징

구 분 Heritrix 1.x Heritrix 3.x 하나의 수집기에서 수집 가능한

사이트 수 1개 2개 이상

(설정된 메모리 크기 내에서)

하나의 사이트 수집시

필요한 설정 파일의 개수 2개 이상 1개(crawler-beans.cxml을 사용하여 모든 사항 설정 가능)

많은 개수의 진입 URL 수집시 메모리

충돌 가능성 높음 없음.(3.x 버전에서 교정됨)

유연성 없음 있음

병렬성 낮음 높음

<표 2-5> Heritrix 버전별 특징 비교

국립중앙도서관은 해외 웹아카이빙 프로젝트와 비교했을 때 담당직원의 비 율, 수집기 투입 대수 등에서 낮은 수준을 보였으나 Heritrix 3.x 버전을 도입 함으로써 양적인 열세를 극복할 수 있게 되었다.

2011년 1월 포르투갈의 웹아카이브 프로젝트에서 전 세계 웹아카이브 현황 조사가 이루어짐에 따라 위키피디아에 각국의 현황 정보가 공유되기 시작했다 ([부록 1]: 전 세계 웹아카이빙 프로젝트 현황 참조). 각국의 웹아카이브 담당 자가 직접 아카이브 현황 정보를 입력하였는데 한국의 경우 2011년 1월 프로 젝트 담당자인 Daniel Gomes와 협업을 통해 OASIS 정보를 입력한 것이 가 장 최신정보로 현행화 된 내용이 반영되어 있지 못한 상태이다.

현재 OASIS는 디지털장서 DB구축 지원시스템에서는 관리자 기능이 구현되 어 운영 중이다.

<그림 2-26> 디지털장서DB구축시스템 웹사이트 수집 화면

국립중앙도서관의 모든 디지털정보자원은 MODS에 기반하여 메타데이터를 입력하며, OASIS의 경우도 MODS를 기반으로 등록 대상(수집 대상) 웹사이트 정보를 입력한다. 2009년 이전의 경우 Dublin Core 메타데이터를 기준으로 입 력되었으나 2009년 시스템 개선 이후 MODS를 준용하고 있다(<그림 2-26>,

<그림 2-27> 참조).

관련 문서