• 검색 결과가 없습니다.

2.3 디지털자원의 보존 동향 54

2.3.2 웹 아카이빙 사례

❑ 미국

1) 웹 아카이빙 전반

∙2000년 파일럿 프로젝트 수립: 웹사이트를 수집하고 보존하기 위한 프로젝트를 수 행하였다.

∙도서관 직원은 차세대 연구원을 위해 자료를 평가, 선택, 수집하여 목록을 작성하 고, 액세스 권한을 부여하여 보존하는 방법을 연구하였다.

∙이후 ‘미국 내 선거’, ‘이라크 전쟁’ 및 ‘9월 11일’과 같은 주제별 웹 및 이벤트 기반 아카이브를 개발하였다.

∙웹 아카이브 방식: 주제, 이벤트 또는 주제 영역별로 그룹화하여 아카이빙된 웹사 이트의 모음이며 보관된 사이트는 원본 사이트의 특정 시점에 대한 스냅 샷이다.

웹사이트의 변경 히스토리를 문서화하며, 대부분의 사이트는 두 차례 이상 아카이 빙 되었다. 아카이브는 텍스트, 이미지, 오디오, 비디오 및 PDF를 포함하여 가능한 한 원본 사이트에 해당 자료들을 포함시키고 있다.

∙웹 아카이빙 팀(Web Archiving Team): 디지털 콘텐츠를 관리하고 유지하는 역할 을 수행하며, 웹 콘텐츠를 캡처하기 위한 라이브러리 전체에 대한 이해와 기술 인 프라를 구축하였다. 또한 다양한 도서관 직원 및 국내외 파트너와 협력하여 정책 문제를 파악하고 웹 콘텐츠를 수집하고 보존하는 도구를 구축하였다.

2) 웹 아카이빙 도구의 특징

∙주요 기능 영역: 선택, 사용 권한, 획득, 저장 및 액세스 등

∙오픈 소스 및 사용자 정의 개발 소프트웨어를 사용한 전반적인 워크플로우

∙개발, 선정 및 허가: 큐레이터 직원이 보관할 웹사이트를 선택할 수 있도록 도와주 는 DigiBoard(PDF)를 개발 및 구현 완료하였으며, 웹사이트 캡처 및 오프사이트 액세스, 웹 아카이브 품질 검토 프로세스에 대한 법적 권한 관리를 용이하도록 하 는 플랫폼을 개발 중에 있다.

∙수집: 웹 아카이브는 Heritrix라는 오픈소스 웹 크롤러를 사용하여 생성되며, 이를 사용하여 웹사이트의 복사본을 만든다.

∙저장소: 웹 아카이브는 BagIt 라이브러리를 사용하여 BagIt 준수 패키지로 패키지 된다.

∙액세스: 웹 아카이브 재생은 Wayback Machine의 로컬 설치로 활성화한다.

3) 기술적 요구 사항

∙웹사이트를 최대한 완벽하게 재현하는데 필요한 모든 코드, 이미지, 문서, 미디어 및 기타 파일을 검색한다.

∙웹 서버(예: HTTP 헤더)와 크롤러(예: 캡처 컨텍스트, 날짜 및 시간 스탬프, 크롤 링 조건)의 기술 메타데이터를 캡처하고 보존한다.

∙날짜/시간 정보는 동일한 자원의 연속 캡처를 구별하는 데 특히 중요하다.

∙전달된 내용과 정확히 동일한 형식으로 내용을 저장한다.

∙HTML 및 기타 코드는 항상 그대로 유지되며, 동적 수정은 웹 아카이브 재생 중에 즉석에서 이루어진다.

∙플랫폼 및 파일 시스템 독립성을 유지한다.

∙기술 메타데이터는 파일 시스템 고유의 메커니즘을 통해 기록되지 않는다.

4) 적용 표준 사항

∙웹 아카이브는 Internet Archive ARC 및 Web ARChive(WARC) 컨테이너 파일 형식으로 저장된다.

∙MODS를 사용하여 아카이브 된 웹사이트를 카탈로그화 한다.

∙예비 키워드, 제목 및 주제 메타데이터는 cURL을 사용하여 보관된 웹사이트에서 추출한 다음 제어된 이름과 제목 표제를 추가로 할당한 목록 작성자가 이를 검토하 고 향상시킨다.

5) 웹 아카이빙 사이트 범위(선택적 웹 아카이빙)

∙미국 정부(연방, 주, 지방), 외국 정부, 정치적 후보자, 정치적 논평, 정당, 언론, 종 교 단체, 지원 단체 및 공무원이 포함된다.

∙기록관리 단체, 옹호 단체, 교육 및 연구 기관, 창조적인 표현물(만화, 시 등) 및 블 로그가 포함된다.

∙도서관은 웹사이트를 포함한 전자자료의 선택을 안내하는 수집 정책 진술 및 기타 내부 문서를 보관한다.

∙그 외에 URL, 상표, 저작권 선언, 소유권, 게시일 등 모든 식별 사이트 문서를 완전 히 복제하려고 시도하고 있다.

6) 웹 아카이브 종류

∙U.S. Election Web Archives: 2000년 이래로 이 도서관은 미국 대통령 선거, 의회 선거, 지사 선거와 관련된 웹사이트를 보존했다.

∙U.S. Congressional/Legislative Web Archives: 도서관은 의회 구성원뿐만 아니라 의회위원회의 웹사이트를 정기적으로 보존한다.

∙Law Library Web Archives: 의회 도서관은 대법원에 변경 사항을 문서화한 웹 콘텐츠를 보존한다. 그들은 또한 미국 변호사 협회가 승인한 법률 학교, 연구 기관, 싱크 탱크 및 기타 전문 지식 기반 조직과 관련된 권위 있는 법률 블로그의 선택적 수집을 개발했다.

∙Single Sites Web Archive: 도서관의 전통적인 아날로그자료를 강화하고 확장하기 위해 디지털 형태로 제작 및 생성된 콘텐츠를 선택한다.

∙Other Events and Themed Web Archives: 도서관은 다양한 다른 이벤트 및 주제 컬렉션의 콘텐츠를 선택하고 보존한다.

∙International Web Archives: 도서관의 웹 아카이브는 전 세계적으로 선거, 이벤트 및 주제를 기록하는 범위에서 국제적이다.

∙전 세계 사건 아카이빙: 미국 및 전 세계에서 전개되는 사건을 아카이빙하기 위해 다른 기관들과 협력하고 있으며 액세스는 파트너 웹사이트를 통해 제공된다.

7) 웹 아카이브 수집 기간

∙콘텐츠가 변경되는 빈도에 따라 일주일에 한 번 또는 매달 한 번 웹사이트를 크롤 링되고 있다.

∙일부 사이트는 한 번 또는 두 번 일 년에 한 번도 크롤링되지 않을 수 있다.

∙일부 보존 활동은 국가 선거 전후 또는 직후와 같이 시간에 민감한 사안과 관련이 있다.

∙기타 보존 활동은 지정된 종료일 없이 진행될 수 있다.

❑ 캐나다

1) LAC의 웹 아카이빙

∙2005년부터 LAC는 연방 및 비 연방 웹자원을 수집하고 있으며, 캐나다 웹 아카이 브(GCWA) 웹사이트는 보관된 연방 웹사이트에 대한 액세스를 제공한다.

∙Treasury Board of Canada Secretariat's Web Renewal Initiative 2016-17의 일환으 로 대부분의 연방 웹 정보가 캐나다 도메인으로 이전하도록 추진하고 있으며 진행 중인 보존 활동의 일환으로 LAC는 이전의 모든 연방 자료를 수집하여 GCWA에 서 이를 제공한다.

∙캐나다 웹 아카이브(GCWA) 포함 사이트: 기존 웹 게시 연방 정부 정보, 더 이상 공개되지 않는 연방 웹페이지를 말한다.

∙비 연방 컬렉션에 대한 향후 계획: 캐나다 사회와 관련된 특정 주제에 중점을 둔 비 연방 웹 컬렉션에 대한 액세스를 제공하기 시작할 것이다.

2) 현재까지 수집된 주제별 웹 아카이브 컬렉션

∙수집된 컬렉션의 종류는 다음과 같다.

- 연방 선거

- 1차 세계 대전 100주년(2014-2018) 자료 - 진실과 화해위원회

- 2014 소치올림픽 등이 포함

❑ 호주

1) 디지털 보존 종류

∙PANDORA(Preserving and Accessing Networked Documentary Resources of Australia) 프로젝트: 시드니 올림픽 보존 프로그램에서 시작되었으며 가장 성공적 인 웹 아카이빙 프로젝트로 평가받고 있다. 국가 차원에서 중요한 역사적 가치를 가지거나 장기적 보존이 필요하다고 판단되는 디지털자원에 대한 수집 및 이에 대 한 목록 생성을 목표로 하였다.

∙PANDORA 프로젝트에서 아카이빙된 자료는 호주 국가도서관의 목록에서도 접근 가능하다.

∙AGWA: 2014년 PANDORA 이후로 발전되어, 2011년 6월부터 연방 정부 웹사이 트에 대한 보존을 시작하였다.

∙또한 호주 국가도서관은 Archive-It 서비스를 통해 특정 아시아 태평양 웹사이트의 사본을 선택, 수집 및 보관하기 위해 2007년부터 Internet Archive와 파트너 관계를 맺고 있다. AGWA는 연간 2회에 걸쳐 하베스팅하는 것을 목표로 하고 있다.

2) 웹 아카이빙의 3가지 컬렉션 유형

∙PANDORA 프로젝트에서 선택적으로 수집한 디지털자원

∙호주 국가 도메인에서 주기적으로 스냅샷 방식으로 하베스팅한 웹페이지

∙호주 정부 도메인(.gov.au)에서 대량으로 수집한 디지털자원

3) 웹 아카이빙 범위의 변화

∙주제 선택적 수집에서 도메인 선택적 수집으로 변화

∙TL Domain으로의 수집 작업은 진행 중

[그림 2-1] 호주 웹 아카이빙 수집 범위의 변화

4) 웹 아카이빙 통계

∙PANDORA Web Archive

- ‘Selective’, 1996-Aug.2014 (88,500 instances) - 2억 4천 1백만 개 파일(11TB)

∙Australian Domain(.au) Web Archive

- ‘Country TL domain’, 2005-2013 (8 crawls) - 53억 8천만 개 파일(204TB)

∙Australian Government Web Archive - ‘Seed-list’, 2011-2013 (4 crawls) - 3,450만 개 파일(3TB)

❑ 영국

1) 3가지 주요 컬렉션

∙Open UK Web Archive

- 2004년부터 허가를 받아 웹사이트를 수집하였고 세 컬렉션 중 가장 규모가 작음 - 보관용 사본은 수작업으로 품질을 검사하고 엄격하게 주석을 달고 있음

- ‘영국의 삶과 문화’, ‘총선’, ‘2012년 올림픽’, ‘제1차 세계 대전 100주년 기념행사’

등과 같은 특정 행사를 다룸

- 지속적으로 추가되고 있으며, 누구나 영국 웹사이트를 추천하여 추가를 요청할 수 있음

∙JISC 영국 웹 도메인 데이터 세트(1996-2013)

- ‘.uk'로 끝나는 도메인에서 호스팅 되었거나 영국 페이지를 렌더링 하는데 필요한 인터넷 아카이브의 모든 리소스를 수집하여 보존한 세트

∙Non-Print Legal Deposit 영국 웹 아카이브

- 영국 전역의 연간 아카이브를 통해 확보한 수백만 개의 웹사이트를 포함함 - 2013년 4월 정부가 발표한 비인쇄물의 법적 납본 규정에 의해 가능해짐

[그림 2-2] Open UK Web Archive

[그림 2-3] JISC 영국 웹 도메인 데이터 세트

2) 접근 가능한 웹 아카이브 자료

∙온라인 접근이 가능한 웹 아카이브 자료

- 특정 웹사이트 및 정보를 찾기 위해 Open UK Web Archive를 검색하거나, 주제 또는 특정 컬렉션별로 찾아보기가 가능함

- 다운로드할 수 있는 많은 데이터 세트가 있음

- 특별히 제작된 프로토타입 검색엔진인 Shine을 사용하여 JISC UK 웹 도메인 데 이터 집합(1996-2013)을 검색할 수 있음

- 추세 분석 기능을 통해 17년 동안 웹에서의 변화를 추적 할 수도 있음

- 검색 인터페이스를 통해 postcode, 파일 유형, 연도 또는 도메인별로 전체 텍스트 결과를 필터링할 수 있음

∙관내 접근 가능 자료

- 비인쇄 법적 납본 UK Web Archive는 열람실의 컴퓨터에서만 액세스할 수 있도 록 하였음.

∙기타 기관에서 접근 가능한 자료

- 비인쇄 법적납본 UK Web Archive는 해당 도서관의 열람실에서 열람 가능: 웨

- 비인쇄 법적납본 UK Web Archive는 해당 도서관의 열람실에서 열람 가능: 웨

관련 문서