• 검색 결과가 없습니다.

제 4장 디지털화 프로세스 정립 및 표준화 방안

3. 디지털 2.0 서비스 방안

3.3 디지털화 2.0 전략

text-pdf파일의 형식으로 구축하기 위한 디지털화 2.0의 제작공정은 1.1장에서 설 명하고 있는 도서자료의 디지털화 프로세스와 공정은 유사하다. 인쇄물 형태 자료를 TIFF 파일, PDF, 썸네일 방식으로 제작하는 공정을 간략하게 살펴보면 다음 그림과 같이 설명할 수 있다.

(그림 4-1) 디지털화 제작 공정 과정

이미지 변환과정 속에서 파일 형식을 TIFF, JPG, PDF, PDF/A 등으로 지정하여 저장할 수 있다. 여기에서 PDF/A(PDF/Archive) 형식은 ISO에서 2005년에 「전자문 서의 장기보관 및 보존 포맷 표준」으로 승인하여 현재 전자문서 보존포맷으로 활용되 고 있는 형식이다. PDF/A 형식의 구축비용은 일반 종이인쇄물을 PDF 형식으로 제 작하는 것과 비교해 5~10%정도 높다고 한다.

1) 이미지 파일에 대한 OCR 적용

일반적으로 OCR 전제 조건은 해상도 300dpi 이상으로 구축된 이미지 자료에 적합

하며 OCR률은 필사본보다 인쇄물에 적합하다. 최근 OCR 인식률은 이미지나 한자 등 특수문자가 많지 않다면 90%이상이라고 관련 업계는 말하고 있다. 김대유 등은 PDF/A 파일 형태인 경우에는 편집이나 보안이 있는 경우에 이를 해제하기 위한 별 도의 작업이 이루어진 파일에 대해서 왜곡보정을 통해 한글에 대한 인식률을 높이는 결과를 제시하였다. OCR 인식률이 7% 나오는 왜곡된 이미지를 93%까지 향상 시켜 OCR과 TTS를 사용하여 시각장애인에게 음성으로 들려주는 시각장애인용 독서 스 탠드의 구현과정을 기술하였다. OCR 인식률을 높여주기 위하여 기존에 제시된 왜곡 보정 기술은 특수한 장비가 필요하다.23) 특히 이렇게 시도의 목적이 시각장애인들을 위한 TTS방식을 적용하여 어떤 책이라도 순간적으로 읽어주는 기술을 제시한 것이 다. 따라서 이와 같은 방식을 국립중앙도서관 디지털도서관에서 고려할 경우에 새롭 고 획기적인 서비스를 제시할 수 있을 것이다. 다음은 기존에 구축되어 있는 이미지 자료를 OCR로 구축한 자료에 대한 샘플이미지를 제시한 것이다.

(그림 4-2) 원시 이미지

(그림 4-3) OCR 작업결과

이미지 자료에 대한 OCR 작업을 통해 얻을 수 있는 장점은 본문 검색을 지원하게

23) 김대유, 김호성, 김지상, 김수철, 황광일. 시각장애인용 독서 스탠드 개발. 제36회 한국정보처리학회 추계학술발표 대회 논문집 제18권 제2호(2011. 11) pp.1~3.

됨으로 신속하고 명확한 정보 제공이 용이해지고 본문 검색을 인덱스 시킬 경우 다양 한 정보 제공이 이루어 질 수 있다는 점이다. 따라서 검색과 본문 연동이 수월해서 정보 제공이 풍부해 질 수 있다.

반면 OCR 작업을 통한 문제점은 PDF/A 자료의 경우 서비스 자료에 대한 보안을 해제하게 됨에 따라 텍스트로 저장이 가능하여 저작물의 재제작 및 배포가 쉬워짐으 로 별도의 보안장치가 필요하게 된다. 또한 OCR율에 따라 한자, 일본어 등 OCR율이 상대적으로 낮은 자료는 검색 기능이 떨어진다는 점이다.

따라서 국립중앙도서관은 앞으로의 사업을 진행하는 데 있어 이와 같은 장단점과 비용을 고려하여 디지털화 2.0 사업을 진행하는 것이 바람직하다.

다음은 PDF 형식으로 구축된 기존의 국립중앙도서관 소장 자원을 디지털화하는 공정을 도식화한 예이다. 기본적으로 200dpi이상의 전자자원의 경우를 가상하여 정리 한 것이다. 디지털화의 목적은 해당 자원을 크게 다음과 같은 목적을 갖는 것이다.

∙시각장애인들과 같이 화면을 보기 어려운 이용자에게 TTS 방식으로 처리하여 읽어주도록 하기 위함

∙텍스트 파일화를 하여 이용자가 필요한 정보를 접근하고 해당 부분을 오려내어 활용할 수 있도록 하는 것

∙정보접근점을 다양하게 제시하여 이용자로 하여금 검색에 용이하도록 하는 것

위에서 제시한 목적은 모두 해당 자료에 대한 페이지화(분절화)와 색인어로써 검 색어를 확보하는 것을 전제로 한다.

이상의 공정에서 중요한 작업은 OCR의 효율과 보정작업이다. 전자의 경우에는 소 프트웨어의 품질과 밀접한 관계를 가지며, 후자의 경우에는 보정담당자의 수준과 기 술에 밀접한 관계를 갖는다. 이 때 고려할 요소를 정리하면 다음과 같다.

∙원시자료에 형태에 따라 품질좌우

∙무보정시Text품질저하(비용저렴)

∙보정시 Text품질확보(비용과다발생)

∙색인어 자동추출 적용 고려

(그림 74) 이미지 파일의 텍스트 파일화 공정

특히 자동색인을 반드시 고려한다. 왜냐하면 모든 자료의 분절정보를 수작업의 형 태로 처리하는 것은 현실적으로 불가능하기 때문이다.

2) 텍스트를 TEXT 파일에 대한 OCR 적용

현재 국립중앙도서관을 비롯하여 대부분의 디지털자원은 이미지 PDF형태의 파일 로 서비스를 하고 있다. 기존에 TEXT PDF이미지 자료 형태로 서비스하고 있는 국

내 DB업계에서도 복사나 복제의 우려로 텍스트 추출이 불가능한 이미지 PDF 형태로 서비스를 확대하고 있다. 이러한 방식은 저작권과 연구자의 인식개선을 통해 향후 개 선이 확실할 것이기 때문에 연구나 활용적 측면에서 커다란 장애요인이 되고 있다.

따라서 디지털화화 형태의 자료를 만들 때 텍스트형태의 파일을 복사할 수 있는 텍스 트 형태의 PDF 파일화를 동시에 작성하는 것이 바람직하다. 이러한 방식은 향후 디 지털화 파일 운영과 활용, 타 기관과의 연계에 시너지 효과를 높일 수 있는 방법이라 고 판단한다.

다음 그림은 일반 텍스트 파일을 PDF와 텍스트를 함께 추출하는 공정을 도식화한 것이다. 이 때 고려할 점은 다음과 같다.

(그림 75) 텍스트파일의 디지털공정

∙DPI별 스캔 속도 고려

∙원시자료에 형태에 따라 품질좌우

∙무보정시Text품질저하(비용저렴)

∙보정시Text품질확보(비용과다발생)

∙색인어 자동추출 적용고려

●●● 국립중앙도서관 소장자료 디지털화 중장기 전략 연구

제 5 장 디지털 컬렉션