• 검색 결과가 없습니다.

데이터의 보존

문서에서 외국도서관 정책자료 Ⅲ (페이지 35-38)

리포지토리는 데이터 공유에서 장기 아카이빙에 이르기까지 저마다 다른 목적을 갖고 있다. 그러나 가능한 오랜 접근을 보장하기 위해서, 처음부터 보존 문제에 대한 특정한 정책이나 계획을 마련해야 한다.

5.a 데이터 보유 기간

아래의 예와 같이 데이터세트의 보유 기간을 정해 두어야 한다.

자료를 무기한 보유한다.

제출받은 날짜로부터 최소한 XXX년 간 자료를 보유한다.

리포지토리가 존재할 때까지 자료를 보유한다.

개별 자료마다 요구되는 만큼의 보유 기간을 설정한다.

5.b 기능적 보존

소프트웨어의 기술적 낙후 문제로 인해 특정 파일 형식의 가독성을 보장하는 것 이 불가능할 수 있으나, 리포지토리는 시간이 지나도 특정 파일포맷이 이용되고 이해될 수 있도록 보장할 것이다.

만약 리포지토리가 오랜 시간동안 유용성과 이해가능성을 보장한다면, 이 러한 보장에는 어떠한 특정 파일형식이 포함되는가?

데이터베이스 큐레이션(Database Curation)

‘데이터베이스 아카이빙은 데이터베이스 관리 시스템의 통제 하에 유지되고 관계형 데 이터베이스와 같은 데이터베이스 스키마로 구조화되는 데이터 아카이빙에 초점을 맞추 고 있다. 과학적 데이터나 참조 데이터를 아카이빙 할 때, 데이터베이스 아카이빙은 시 간에 따른 데이터베이스 스냅샷 장서를 유지하는 일로 간주된다... 이러한 형식의 데 이터베이스 아카이빙은 데이터의 오프라인 사본을 만드는 작업과 이들 사본을 효율적 으로 관리하는 작업을 포함한다.’ 더 상세한 정보를 알고 싶다면 DCC 브리핑 보고서를 참고하라(Müller, 2009).

5.c 파일 보존

앞부분의 1.e 데이터 파일 포맷 장에서는 어떤 파일 포맷이 납본에 적합한지에 대해 다루었다. 이번 장에서는 리포지토리가 어떻게 오랜 시간 동안 데이터세트를 관리하는지에 대해 알아본다.

‘오래 전부터 내려온 데이터 관리 기술과 디지털 보존의 우수실무사례를 혼합하여 사 용하면, 시간이 지나도 DSpace에 저장된 자료를 있는 그대로 보존할 수 있다. 그러나 특정 포맷에 관해서는 수많은 파일 유형의 독점적인 특징으로 인해 데이터의 지속적 보 존을 보장하기가 어렵다.’(MIT 도서관, 2002)

고려사항은 다음과 같다.

다양한 파일 포맷을 위해 다양한 수준의 지원을 제공할 것인가?

리포지토리의 연구 데이터를 위한 정책결정 지침 33

모든 파일을 지원할 수 없다면, 일부 포맷은 단지 비트 수준으로만 보존할 것인가? (파일을 매체변환하거나 이전할 계획은 없는가?)

리포지토리가 보존 중인 파일을 암호화하거나 압축할 것인가?

리포지토리는 현행 우수실무사례에 따라 소장하고 있는 파일을 정기적으로 백업할 것인가?

그 지적 내용에 대한 접근을 보존할 필요가 있는 자료의 경우 새로운 파일 포맷으로 매체 변환할 것인가?

기관의 연구데이터 보존 전략

코넬대학 알버트 R. 만 도서관(Albert R. Mann Library)에서 운영하는 DataStaR(Data Staging Repository)는 출판 및 아카이빙 데이터, 고품질의 메타데이터를 특정 학문 분야 의 데이터 센터, 코넬대학 소속기관 리포지토리에 저장한다. 또한 연구과정 초기에 데이 터 큐레이션 서비스를 제공함으로써 연구자들 간의 협력과 데이터 공유를 지원하며, 그 이후에는 장기 큐레이션과 보존에 적합한 리포지토리에 데이터를 전달한다.

참고: http://datastar.mannlib.cornell.edu/

모나쉬대학(Monash University)은 연구기간 동안의 데이터 보존 및 큐레이션 문제를 다 루기 위해 도메인(Domain), 데이터 저장(Data Store), 큐레이션 경계(Curation Boundaries) 의 개념을 제안한다. 데이터 객체를 평가, 기술, 제어하며, 적합한 데이터 저장소로 이전 할 수 있는 일련의 큐레이션 경계를 통해 데이터는 개인적 연구 자산에서 공유 연구자 산으로, 다시 공공 자산으로 이동한다.(Treloar 외, 2007)

5.d 영속성과 진본성

OAIS 표준(CCSDS, 2002)은 디지털 객체로부터 추출한 정보의 진본성을 입증하 기 위해 이용될 수 있는 정보로서의 영속성을 정의한다. 체크섬16), 메시지 다이제 스트17), 디지털 서명 등과 같은 영속성 검사는 디지털 객체가 시간 혹은 어떤 사

16) checksum : 데이터의 정확성을 검사하기 위한 용도로 사용되는 합계. 오류 검출 방식의 하나이다. 대개는 데이터의 입력이나 전송 시에 제대로 되었는지를 확인하기 위해, 입력 데이터나 전송 데이터의 맨 마지막 에 앞서 보낸 모든 데이터를 다 합한 합계를 따로 보내는 것이다. 데이터를 받아들이는 측에서는 하나씩 받아들여 합산한 다음, 이를 최종적으로 들어온 검사 합계와 비교하여 오류가 있는지를 점검한다.

17) message digest : 각 메시지마다 고유하게 산출되도록 만든 간단한 문자열. 임의의 길이의 메시지를 단 방향 해시 함수로 반복 적용하여 축약된 일정한 길이의 비트열로 만들어 표현한 것으로, 메시지마다 단 하나의 메시지 다이제스트가 산출되고, 서로 다른 문서에서 같은 메시지 다이제스트가 산출될 수 없다. 따라서 원문의 변조 여부를 확인할 수 있는 일종의 체크섬이다.

건 전후에 변화하지 않았는지 검증하는 데 사용된다. 이들 영속성 검사에서 얻은 정보들은 디지털 객체의 무결성과 진본성의 근거를 제공한다.

영속성 정보를 언제 만들 것이며 언제 검증할 것인가?

영속성 정보는 보존 워크플로의 수많은 단계에서 만들어지거나 검증될 수 있다.

아카이브 관리정책, 아카이브의 환경, 필요 신뢰도 수준, 이 세 가지를 통해 영속 성 정보를 언제 만들 것이며 어떤 유형의 영속성 정보를 만들 것인지, 얼마나 자 주 검증할 것인지를 결정할 것이다.

영속성 정보를 만들어내고 검증하는 적절한 시점은 다음과 같다.

데이터를 만들어 낸 시점 데이터 입수 시점

데이터 수집 시점 데이터 변형 시점 표준정비절차의 일부

데이터 보급 시점(Paradigm Project, 2007)

디지털 객체와 메타데이터의 진본성을 확보하기 위해서

리포지토리는 누가 각 데이터세트에 접근했는지, 누가 리포지토리의 질적 수준을 높이고 리포지토리에 주석을 달았는지 알려주기 위해 프로토콜과 이용 추적을 구축할 것인가?(RIN, 2008 p. 14)

데이터세트와 명시적 링크간의 현재 관계를 계속 유지할 것인가?

문서에서 외국도서관 정책자료 Ⅲ (페이지 35-38)