디지털화 2.0 전략 - 디지털 2.0 서비스 방안 - 제 4장 디지털화 프로세스 정립 및 표준화 방안

제 4장 디지털화 프로세스 정립 및 표준화 방안

3. 디지털 2.0 서비스 방안

3.3 디지털화 2.0 전략

text-pdf파일의 형식으로 구축하기 위한 디지털화 2.0의 제작공정은 1.1장에서 설 명하고 있는 도서자료의 디지털화 프로세스와 공정은 유사하다. 인쇄물 형태 자료를 TIFF 파일, PDF, 썸네일 방식으로 제작하는 공정을 간략하게 살펴보면 다음 그림과 같이 설명할 수 있다.

(그림 4-1) 디지털화 제작 공정 과정

이미지 변환과정 속에서 파일 형식을 TIFF, JPG, PDF, PDF/A 등으로 지정하여 저장할 수 있다. 여기에서 PDF/A(PDF/Archive) 형식은 ISO에서 2005년에 ｢전자문 서의 장기보관 및 보존 포맷 표준｣으로 승인하여 현재 전자문서 보존포맷으로 활용되 고 있는 형식이다. PDF/A 형식의 구축비용은 일반 종이인쇄물을 PDF 형식으로 제 작하는 것과 비교해 5~10%정도 높다고 한다.

1) 이미지 파일에 대한 OCR 적용

일반적으로 OCR 전제 조건은 해상도 300dpi 이상으로 구축된 이미지 자료에 적합

하며 OCR률은 필사본보다 인쇄물에 적합하다. 최근 OCR 인식률은 이미지나 한자 등 특수문자가 많지 않다면 90%이상이라고 관련 업계는 말하고 있다. 김대유 등은 PDF/A 파일 형태인 경우에는 편집이나 보안이 있는 경우에 이를 해제하기 위한 별 도의 작업이 이루어진 파일에 대해서 왜곡보정을 통해 한글에 대한 인식률을 높이는 결과를 제시하였다. OCR 인식률이 7% 나오는 왜곡된 이미지를 93%까지 향상 시켜 OCR과 TTS를 사용하여 시각장애인에게 음성으로 들려주는 시각장애인용 독서 스 탠드의 구현과정을 기술하였다. OCR 인식률을 높여주기 위하여 기존에 제시된 왜곡 보정 기술은 특수한 장비가 필요하다.²³⁾ 특히 이렇게 시도의 목적이 시각장애인들을 위한 TTS방식을 적용하여 어떤 책이라도 순간적으로 읽어주는 기술을 제시한 것이 다. 따라서 이와 같은 방식을 국립중앙도서관 디지털도서관에서 고려할 경우에 새롭 고 획기적인 서비스를 제시할 수 있을 것이다. 다음은 기존에 구축되어 있는 이미지 자료를 OCR로 구축한 자료에 대한 샘플이미지를 제시한 것이다.

(그림 4-2) 원시 이미지

➡

(그림 4-3) OCR 작업결과

이미지 자료에 대한 OCR 작업을 통해 얻을 수 있는 장점은 본문 검색을 지원하게

23) 김대유, 김호성, 김지상, 김수철, 황광일. 시각장애인용 독서 스탠드 개발. 제36회 한국정보처리학회 추계학술발표 대회 논문집 제18권 제2호(2011. 11) pp.1~3.

됨으로 신속하고 명확한 정보 제공이 용이해지고 본문 검색을 인덱스 시킬 경우 다양 한 정보 제공이 이루어 질 수 있다는 점이다. 따라서 검색과 본문 연동이 수월해서 정보 제공이 풍부해 질 수 있다.

반면 OCR 작업을 통한 문제점은 PDF/A 자료의 경우 서비스 자료에 대한 보안을 해제하게 됨에 따라 텍스트로 저장이 가능하여 저작물의 재제작 및 배포가 쉬워짐으 로 별도의 보안장치가 필요하게 된다. 또한 OCR율에 따라 한자, 일본어 등 OCR율이 상대적으로 낮은 자료는 검색 기능이 떨어진다는 점이다.

따라서 국립중앙도서관은 앞으로의 사업을 진행하는 데 있어 이와 같은 장단점과 비용을 고려하여 디지털화 2.0 사업을 진행하는 것이 바람직하다.

다음은 PDF 형식으로 구축된 기존의 국립중앙도서관 소장 자원을 디지털화하는 공정을 도식화한 예이다. 기본적으로 200dpi이상의 전자자원의 경우를 가상하여 정리 한 것이다. 디지털화의 목적은 해당 자원을 크게 다음과 같은 목적을 갖는 것이다.

∙시각장애인들과 같이 화면을 보기 어려운 이용자에게 TTS 방식으로 처리하여 읽어주도록 하기 위함

∙텍스트 파일화를 하여 이용자가 필요한 정보를 접근하고 해당 부분을 오려내어 활용할 수 있도록 하는 것

∙정보접근점을 다양하게 제시하여 이용자로 하여금 검색에 용이하도록 하는 것

위에서 제시한 목적은 모두 해당 자료에 대한 페이지화(분절화)와 색인어로써 검 색어를 확보하는 것을 전제로 한다.

이상의 공정에서 중요한 작업은 OCR의 효율과 보정작업이다. 전자의 경우에는 소 프트웨어의 품질과 밀접한 관계를 가지며, 후자의 경우에는 보정담당자의 수준과 기 술에 밀접한 관계를 갖는다. 이 때 고려할 요소를 정리하면 다음과 같다.

∙원시자료에 형태에 따라 품질좌우

∙무보정시Text품질저하(비용저렴)

∙보정시 Text품질확보(비용과다발생)

∙색인어 자동추출 적용 고려

(그림 74) 이미지 파일의 텍스트 파일화 공정

특히 자동색인을 반드시 고려한다. 왜냐하면 모든 자료의 분절정보를 수작업의 형 태로 처리하는 것은 현실적으로 불가능하기 때문이다.

2) 텍스트를 TEXT 파일에 대한 OCR 적용

현재 국립중앙도서관을 비롯하여 대부분의 디지털자원은 이미지 PDF형태의 파일 로 서비스를 하고 있다. 기존에 TEXT PDF이미지 자료 형태로 서비스하고 있는 국

따라서 디지털화화 형태의 자료를 만들 때 텍스트형태의 파일을 복사할 수 있는 텍스 트 형태의 PDF 파일화를 동시에 작성하는 것이 바람직하다. 이러한 방식은 향후 디 지털화 파일 운영과 활용, 타 기관과의 연계에 시너지 효과를 높일 수 있는 방법이라 고 판단한다.

다음 그림은 일반 텍스트 파일을 PDF와 텍스트를 함께 추출하는 공정을 도식화한 것이다. 이 때 고려할 점은 다음과 같다.

(그림 75) 텍스트파일의 디지털공정

∙DPI별 스캔 속도 고려

∙원시자료에 형태에 따라 품질좌우

∙무보정시Text품질저하(비용저렴)

∙보정시Text품질확보(비용과다발생)

∙색인어 자동추출 적용고려

●●● 국립중앙도서관 소장자료 디지털화 중장기 전략 연구

제 5 장 디지털 컬렉션

문서에서 국립중앙도서관 소장자료 디지털화 중장기 전략 연구 (페이지 176-183)