• 검색 결과가 없습니다.

제2절 메타데이터와 온톨로지

3 장 온 톨 로 지 기 반 인 터 넷 건 강 정 보 구 축 방 안

[그림 3-1] 건강 콘텐츠 생성 및 재사용 프로세스 개요

제2절 메타데이터와 온톨로지

보건의료정보 자료를 관리하는 데 가장 큰 장애요인은 현재 가공되는 자료가 구조화되어 있지 않고 구조화된 용어를 사용하여 색인되어 있지 않아서 관련 정보를 잘 추출하지 못하는 데 있다. 이러한 문제를 극복 하기 위해 인터넷에서 제공되는 구조화되지 않은 텍스트 기반 콘텐츠를 자연어 처리 (natural language processing) 과정을 거쳐 핵심개념을 추출하여 SNOMED CT와 같은 용어체계에 포함된 개념과 매핑하고 메타데이터를 정의하여 지식베이스에 저장하는 한 후 나중에 재활용한 다. 메타데이터는 정보 자원을 쉽게 검색하고, 활용하고, 관리하기 위해 정보에 대해 기술하고, 설명하는 구조화된 정보를 말한다(NISO, 2004).

메타데이터에는 제목, 저자, 초록, 키워드와 같이 정보자원을 기술하는

64

2 0 1 1 인 터 넷 건 강 정 보 게 이 트웨 이 시 스 템 구 축 및 운 영

데 사용되는 서술 메타데이터(descriptive metadata)와 생성된 날짜, 접 근성, 정보의 위치와 지적재산권과 같은 정보자원을 관리하는 데 사용 되는 관리 메타데이터(administrative metadata)로 구성된다. 메타데이 터를 활용하면 데이터 구조를 이해하지 못해도 쉽게 정보자원을 찾을 수 있고, 정보의 목표 대상자와 주제에 따라 정보를 구조화할 수 있고, 정보를 교환하는 데 필요한 상호운용성을 확보할 수 있다. 서술 메타데 이터는 정보를 생산하는 해당 주제의 전문가가 SNOMED CT, ICD, LOINC, HL7과 같은 데이터 표준을 이용하여 작성할 수 있으며, 관리 메타데이터는 자료를 관리하는 IT 전문가가 작성할 수 있으며 정보도구 를 활용하여 자동으로 수집할 수 있다. 건강정보검색엔진의 온톨로지 인프라는 웹문서를 서술하는데 사용되는 요소를 명시하는 메타데이터 스키마와 온톨로지 용어체계로 구성된다. 메타데이터 스키마는 건강정보 검색엔진에 포함될 웹문서를 서술하는 데 사용될 요소와 요소가 취할 수 있는 값의 종류를 정의하고 있다. 이 스키마는 이미 제공되는 있는 건강정보를 추출하여 분류하는 데 활용될 수 있을 뿐 아니라 앞으로 건 강정보의 콘텐츠를 생산하는 개인이나 기관이 활용하면 콘텐츠의 구문 론적 상호운용성(syntactic interoperability)이 보장될 것이다. 온톨로지 용어체계는 메타데이터 스키마의 값을 채우는데 사용할 개념을 포함하 고 있다. 온톨로지 용어체계를 콘텐츠를 개발하는 개인이나 기관이 사 용하면 콘텐츠의 의미론적 상호운용성(semantic interoperability)이 보 장될 것이다.

1. 메타데이터 스키마

건강정보포털에서 검색할 웹문서는 일관성 있는 기계가 이해할 수 있 는 형식으로 기술되어있어야 한다. 메타데이터 스키마는 개별 문건에 대한 정보를 제시하는 데 필요한 필드(속성)를 정의한다. 메타데이터 필

65 Term Name Optionality Cardinal

ity

Value

type Value range Definition

General Metadata

Identifier Mandatory 1 URI 자원의 참조 Title Mandatory 1 Free text Non-empty

string

자원에 부여된 명칭, 자 원이 알려진 공식적 명칭 Description Optional 0..* Free text Non-empty

string

자원에 대한 설명 (초록, 목차, 그래픽 표현 등) Contributor Optional 0..* Instance 개인, 기관,

서비스

자원의 생성에 기여한 개체

Language Optional 0..* String RFC4546 자원이 개발된 언어

Date Optional 0..* String W3CDTF (ISO 8601)

자원의 생명주기의 특정 사건과 관련된 시각 혹 은 시간

Publisher Optional 0..* Instance 개인, 조직 혹은 서비스

자원의 생성에 일차적인 책임이 있는 객체 Creator Optional 0..* Instance 개인, 기관,

서비스 알려진 Dublin Core Metadata Element Set(http://dublincore.org/

documents/dces/)를 활용하고자 한다. 단, 15개 Dublin Core

66

Term Name Optionality Cardinal ity

Value

type Value range Definition

Content Classifica-

tion

Subject Mandatory 1..* Concept Keywords나 분

류체계로 표현 자원의 주제 Target

audience Optional 0..* Concept

성별, 연령별, 질병유무에 따 른 대상자 구분

자원의 대상자

Type Mandatory 1..* Concept DCMI Type

Vocabulary*1 자원의 종류 Format Optional 0..* String Internet

Media Type*2

자원의 파일형식, 매체 혹은 영역 (크기와 기간)

Coverage Optional 0..* String or Concept

주: *1. Collection, Dataset, Event, Image, InteractiveResource, MovingImage, PhysicalObject, Service, Software, Sound, StillImage, Text

*2. Application, Audio, Example, Image, Message, Model, Multipart, Text, Video

본 연구에서 제안한 메타데이터 스키마는 이미 발표된 정보를 색인

67

제 3 장 온 톨 로 지 기 반 인 터 넷 건 강 정 보 구 축 방 안

관련 문서