▒ 접수▸2012년 6월 29일 수정▸2012년 6월 29일 채택▸2012년 7월 24일 ▒ 교신저자 장현철, 대전광역시 유성구 유성대로 1672 한국한의학연구원
Tel 042-868-9364 Fax 042-861-9421 E-mail [email protected]
처방명 연계를 위한 유니코드 한자 기반의
한글-한자 매핑정보 구축에 관한 연구
전병욱, 김안나, 김지영, 오용택, 김철, 송미영, 장현철 한국한의학연구원
A study on Mapping the Unicode based Hangul-Hanja for prescription names in Korean
Medicine
Byoung-Uk Jeon, An-Na Kim, Ji-Young Kim, Yong-Taek Oh, Chul Kim, Mi-Young Song, Hyun-Chul Jang Korea Institute of Oriental Medicine
Objective: UMLS is ‘Ontology’ which establishes the database for medical terminology by gathering various medical vocabularies representing same fundamental concepts.
Method: Although Chinese character are represented in the Chinese part of Korean Unicode system in a computer, writing of Chinese characters is vary depending on Chinese input systems and Chinese writers’ levels of knowledge. As the result of this, representation of Chinese writing in a computer will be considerably different from an old Chinese document. Therefore, a meaningful relationship between digital Chinese terminology and translated Korean is necessary in order to build Ontology for Chinese medical terms from Oriental medical prescription in a computer system.
Result: This research will present 1:1 mapping information among the Chinese characters used in the Oriental medical prescription with analysis of ‘same character different sound’ and ‘same meaning different shape’ in Chinese part of Unicode systems.
Conclusions: Furthermore, the research will provide top-down menu of relationship between Chinese term and Korean term in medical prescription with assumption of that the Oriental medical prescription has its own unique meaning.
Key Words : Unicode, UMLS, ontology, information retrival, terminology
Ⅰ. 서론
황1)등의 연구에서 한자표기는 주로 한자어의 의미 애매성 해소, 전문용어와 복합어의 어원 표기 및 애매 성 해소를 위해 사용되는데 ‘KS X1001’2)에 있는 473 개의 한글표기가 4,888개의 한자표기에 대응되어 하 나의 한글표기에는 적개는 한 개, 많게는 64개의 한자 표기가 대응되어 한글표기가 고유어, 외래어에도 대응 될 수 있다고 하였다. 또한, 윤3)의 연구에서는 현재 유 니코드 한자는 정보시스템에 그대로 적용하기에는 무 리가 있기 때문에 정확한 한자표현 및 한자검색을 위 1) 배선미, 최기선, 황금하. 전문용어 한글-한자 자동 변환. 한국 정보관리학회지. 2004;31(1):886-888. 2) 한국 산업 규격으로 지정된 한국어 문자 집합으로, 정식 규격 명은 “정보 교환용 부호계(한글 및 한자)”이며 옛 이름인 KS C 5601로도 알려져 있다. 3) 윤소영. 정보시스템의 유니코드 기반 한자 검색 지원. 한국정 보관리학회. 2007;24(4):375-391.해서는 한자를 포함하는 자료에 대한 정확한 이해를 바탕으로 여러 가지 지원방안을 마련해야 한다고 하였 다. 최4)의 연구에서는 한자용어와 한글용어가 달라지 는 원인으로 입력자는 한자 폰트의 획득이 목적일 뿐 역으로 생성될 한글음에는 관심이 없으며, 정확한 한 글표기를 몰라서 다른 한글음을 이용하여 변환하거나, 표준코드에 해당 한자의 음이 없어서 다른 음의 한자 를 빌려서 입력하거나, 한자와 한글의 음운체계가 달 라 생성된 한글음이 맞지 않기 때문으로 분석하였다. 이러한 문제를 해결하기 위해서는 유니코드 한자를 기 반으로 정보시스템을 구축할 때에는 다양한 디지털 문 자들의 연계가 필요하다. 한편, UMLS는 의학분야에서 사용되는 동일 개념을 표현하는 다양한 어휘를 수집하여 데이터 교환 및 각 분야의 통합정보 검색에 적용을 목적으로 NLM에서 개발된 의학분야의 온톨로지(Ontology)라 할 수 있다. 의학분야의 UMLS와 같은 시스템을 구축하기 위해 서는 한자의 특성을 분석하여 한자용어의 언어자원에 대한 지원방안이 필요하다. 예를들면 한글 처방명 ‘육 미지황탕’에 대응하는 한자 처방명인 ‘六味地黃湯’과 한글 처방명 ‘륙미지황탕’에 대응하는 한자 처방명은 ‘六味地黃湯’을 가지는데 한자의 모양이 같더라도 시 스템에서는 다르게 인식되어 각 용어들간의 연계가 필 요하다. 대부분의 정보시스템 구축에 사용되는 한자는 유니코드 한자 영역으로 표현되는데 정보시스템 구축 에 사용되는 입력시스템마다 지원되는 한자가 다르며 입력자의 지식수준에 따라서 변형된 한자어가 추출될 가능성이 높기 때문에 실제 문헌에서 표현되는 언어자 원과는 다른형태의 다양한 디지털 문자들이 존재한다. 예를들면 한자 ‘虫’에 대응되는 한글음가는 ‘충, 훼’을 가지며, 한자 ‘則’에 대응되는 한글음가는 ‘측, 칙’을 가 지는데 Excel을 이용한 입력시스템을 사용할 때에는 한글음가 ‘훼’를 이용해야만 한자 ‘虫’을 변환할 수 있 고, 한글음가 ‘칙’을 이용해야만 한자 ‘則’을 변환할 수 있기 때문에 ‘충’이나 ‘즉’으로도 대응되는 한자들과의 매핑 정보가 있어야 한다. 따라서, UMLS와 같이 한의학 분야의 정보검색이나 데이터 교환 및 공유를 위해서는 한자의 특성으로 인 4) 최석두. 한자용어로부터 한글색인어의 생성. 한국정보과학회. 1996;10:51-58. 해 다양한 디지털 문자로 존재하는 어휘들의 연계가 필요하다. 본 연구에서는 처방명이 각각의 고유 개념을 가진다 는 전제로부터 처방명에 사용된 한자를 대상으로 유니 코드 한자 영역에서 표현 가능한 한글-한자 매핑정보 를 구축하고 Top-down 방식을 적용5)하여 다양한 디 지털 문자로 표현 가능한 처방명을 연계하였다.
Ⅱ. 연구 방법
본 연구는 한국한의학연구원 「온톨로지 기반 지능 형 한의학 지식체계 구축」 사업과 특허청 「전통의학지 식포탈에 구축」 사업에서 Excel 파일로 처방명을 수 집하였다. 처방명 중 구성 약재의 다양성 및 용량의 차 이로 이름에 구별을 지은 알파벳, 숫자 등의 기호는 제 거하였고, 중복된 처방명을 삭제해서 고유한 한자 처 방명 15,917건을 확보하였다. 그리고, 한자 처방명을 음절 단위로 분리 한 후 중복된 한자를 삭제하여 처방 명에 사용된 유니코드 한자 2,410개를 확보하였다. 처 방명에 사용된 한자의 특성을 분석하기 위해서 ‘中漢 大辭典’6), ‘漢韓大字典’7), ‘유니코드한자 검색시스 템’8), ‘네이버 한자사전’9)등을 참조하였으며, 처방명 에 사용된 한자들의 同形異音 漢字 정보와 同義異形 漢字 정보를 구축하였다. 마지막으로 同形異音 漢字와 同意異形 漢字의 한글-한자 매핑 정보를 통해 고유한 한 자 처방명의 한글 처방명과 한자 처방명을 연계하였다.Ⅲ. 다양한 처방명의 언어자원의 확장 필요성
5) 최석두, 한상길 역. 온톨로지 알고리즘Ⅱ. 한울아카데미. 2008;87-88. 온톨로지의 기본적 원리로서 어떤 개념을 분류 하는 방식이다. Top-down은 어떤 개념에 대응하는 것을 수 집하는 것 또는 모으는 것이라 하고, Buttom-up은 수집된 것 을 나누어가면서 개념을 세분화하여 분류하는 것을 의미한다. 6) 康寔鎭. 中韓大辭典. 서울:건명출판사. 1993. 7) 民衆書林 編輯局 編. 漢韓大字典. 서울:민중서림. 2004. 8) DB:유니코드 한자 검색시스템. http://www.koreanhistory.or.kr/ newchar/. 검색기간:2012.6.1-22 9) 네이버 한자사전. http://hanja.naver.com/. 검색기간: 2012.6.1-221. 한글 처방명이 같은 한자 처방명
음절 기준으로 ‘KS X1001’10)에 있는 473개의 한글 표기는 4,888개의 한자표기에 대응되어 하나의 한글 표기에는 적개는 한 개, 많게는 64개의 한자표기가 대 응되며, 단어 기준으로는 표준국어대사전에 등재된 507,000여개의 표제어 중 288,600 어휘(56.92%)가 한자를 가지고 있으며 전문용어나 학술용어의 대부분 이 한자어로 되어 있어 한글로만 표기할 경우에는 정 확한 이미를 이해하기 어렵다.11) 이와 같은 문제는 처방명에서도 나타난다. 예를 들 면 한글 처방명 ‘온위탕’은 ‘溫胃湯’과 ‘溫衛湯’ 두 개의 처방명에 대응이 되는데 두 처방은 구성약재와 효능이 다르다. 따라서, 한글음만을 가지는 처방명으로는 정 확히 어떤 처방명을 지칭하는 것인지를 판별 할 수 없 기 때문에 한글 처방명과 한자 처방명의 언어자원이 필요하며 같이 사용되어야 의미 전달이 명확해 진다.2. 同形異音 漢字와 유니코드 한자
소리(音)와 뜻(意)이 두 가지 이상으로 쓰이는 한자 를 同字異音異意語12)라 하는데 의미에 따라 音이 변 하지만 한자의 모양은 변하지 않고, 또한 입력시스템 에서는 各 音마다 사용하는 한자코드가 다르기 때문에 다른 문자로 처리된다. 본 연구에서는 이러한 漢字를 통틀어 同形異音 漢字로 정의하였다. 同形異音 漢字는 한글과 한자의 두음법칙에 영향을 받는 한자가 主를 이루는데 예를 들면 Excel 시스템에서는 ‘육’에 대응 하는 한자 ‘六’은 ‘60347’ 코드를 가지며 ‘륙’에 대응하 는 한자 ‘六’은 ‘55231’ 코드를 가지기 때문에 ‘육-六’ 과 ‘륙-六’은 다른 문자열로 처리된다. 반면에 ‘虫’은 ‘충, 훼’ 두 개의 음가를 가지는데 유니코드 한자는 ‘훼’ 에 대응는 한자만 가지고 있으며 Excel에서도 ‘훼’에 대응하는 한자만 가지고 있어서 ‘충’을 이용해서는 한 자 ‘虫’으로 변환이 불가능하다. 이러한 이유로 같은 10) 한국 산업 규격으로 지정된 한국어 문자 집합으로, 정식 규 격명은 “정보 교환용 부호계 (한글 및 한자)”이며 옛 이름인 KS C 5601로도 알려져 있다. 11) 김홍순, 신준철, 옥철영. 의미처리 기반의 한글-한자 변환 시스템. 한국정보처리학회. 2011;18(1). 12) 원영섭. 동자이음이의어. 서울:세창출판사, 1995:1-2. 한자 처방명을 사용하더라도 다양한 한글 처방명이 존 재한다. 따라서, 정보시스템에 구축시 입력시스템마다 지원되는 한자코드에 관한 정보가 있어야 한다.3. 同意異形 漢字와 유니코드 한자
字形이 다르면서 同音同意를 가지는 한자를 異形字 와 필획이 별다른 의미없이 변형되고 의미에도 변화가 없는 한자를 異體字라 하는데13) 異體字는 略字, 簡體 字, 俗字, 다른 書體字 등을 통들어 말한다.14) 본 연구 에서는 한자의 의미와 음가가 같지만 유니코드 한자 영역에서 모양이 다른형태의 한자들을 同意異形 漢字 로 정의하였다. 의미가 같지만 모양이 다른 한자들이 유니코드로 제 정되어 계속 확장되고 있다.15) 유니코드 한자는 자유 로운 표현이 가능해지는 장점이 있으나 한자 데이터 처리에는 주의가 필요하다.16) 또한 입력자는 한자 폰 트의 획득이 목적이 강하다.17) 이와 같이 의미와 음이 같지만 실제 문헌에 인쇄된 한자의 모양만을 선택하여 한자를 변환하게 되면 시스템에서는 다른 문자로 인식 한다. 때문에 의미와 한글음이 같더라도 한자의 자형 차이로 인해 다양한 형태의 한자어가 존재하게 된다. 예를 들면 같은 의미와 한글음 ‘탕’에 대응되는 유니코 드 한자는 ‘湯, 汤, 盪, 蕩’의 이형자로 표현이 가능해 지는데, 시스템에서는 모두 다른 문자열로 처리가 된 다. 따라서 동일 개념을 중심으로 표현 가능한 유니코 드 한자들의 매핑이 필요하다.4. 기타 한자 처방명의 다양성
1) 語順倒置에 따른 처방명
한자어는 의미 범주와 한자 형태소의 배열 순서에 따라서 동의 관계를 형성하기도 하며 의미가 달라지기 13) 백한기. 이체자 정보검색 시스템. 한국고전번역원. 2010. 14) 위키백과. http://ko.wikpedia.org 15) 이남희. 고문헌 디지털 아카이브 구축과 한자 처리 문제. 영 남학회지. 2010;17:265-296. 16) 윤소영. 정보시스템의 유니코드 기반 한자 검색 지원. 정보 관리학회지. 2007;24(4):375. 17) 최석두. 한자용어로부터 한글색인어의 생성. 한국정보과학회. 1996;10:51-58.도 한다.18) 한의학 처방명에는 ‘加味’ 또는 ‘加減’을 한 처방명을 표기할 때 ‘가미’와 ‘가감’을 단어의 앞에 배 열하거나 맨 마지막에 배열하여 사용하는 경우가 있 다. 또한 서로 다른 두 개의 처방이 합해진 경우 ‘合’ 또는 ‘加’를 기준으로 단어의 배열이 바뀌어 語順倒置 로 인한 처방명이 확인 된다. 예를 들면 原處方인 ‘보 중익기탕’에 ‘加味’가 포함된 처방명은 ‘가미보중익기 탕(加味補中益氣湯)’과 ‘보중익기탕가미(補中益氣湯 加味)’로 표기된 경우와 ‘加減’이 포함된 처방명은 ‘가 감보중익기탕(加減補中益氣湯)’과 ‘보중익기탕가감 (補中益氣湯加減)’으로 표현되는 것을 확인하였다. 다 른 예로는 ‘加’나 ‘合’을 기준으로 語順이 도치되는 처 방명이다. ‘육울탕합온담탕(六鬱湯合溫膽湯)’과 ‘온담 탕합육울탕(溫膽湯合六鬱湯)’은 ‘合’을 기준으로 語順 倒置가 된 처방명이다. 따라서 語順倒置로 인한 처방 명들의 연계가 필요하다.
2) 異名을 가지는 처방명
인삼구폐산(人蔘救肺散)은 구맥산(救脈散)이라는 異名을 가진 처방이다. ‘구맥산’은 위에서 언급한 동일 한글음을 가지는 처방명으로서 ‘救脈散’, ‘瞿麥散’을 가지기도 한다. 이와 같이 이명을 가지는 처방명들은 동의어 처리를 통한 연계가 필요하다.3) 제형 개념의 변화
대부분의 처방명에서 製形을 의미하는 한자는 단어 의 끝자리에 위치한다. 한약의 製形은 「黃帝內經」 13방 중에 이미 湯, 丸, 散, 膏, 酒, 丹 등의 제형 등이 이용되었고, 그 후 계속적으로 발전하여 錠, 條, 線, 餠, 露, 燻煙, 燻稅, 灌腸, 坐藥 등의 제형이 이용되었으며, 오늘날에 와서는 이러한 전통적인 제형의 기초에 바탕 을 두고 현대의 제형을 가미하여 針劑, 片劑, 沖劑, 糖 漿, 浸膏, 橡皮膏 등과 같은 새로운 제형들을 창출하고 있다.19) 세신고(細辛膏), 세신산(細辛散), 세신탕(細辛 湯)은 제형의 의미소만 다른데 제형뿐 아니라 구성약 재 효능도 다르기 때문에 오늘날 새롭게 창출되는 製 18) 노명희. 한자어의 의미 범주와 한자 형태소의 배열 순서. 한 국문화. 2008;44:217-218. 19) 이진영. 한약제제 제조공정 표준화 사업(연구보고서). 서울. 2005. 形 개념과는 차이가 있다. 한편, ‘순기원’은 ‘順氣元’과 ‘順氣圓’의 한자 처방 명을 가지는데 ‘元’으로 끝나는 처방명은 ‘丸製’의 製 形을 가지는 것으로 확인이 가능하지만 ‘圓’으로 끝나 는 처방명은 확인을 할 수 없었다. 따라서, 製形을 의 미하는 한자의 誤字나 다른 한자 사용으로 다르게 표 현된 처방명들의 연계가 필요하다.Ⅳ. 한글-한자 매핑정보 구축을 이용한
처방명 확장
1. 同形異音 漢字 매핑
同形異音 漢字 매핑 정보는 처방명에 사용된 한자의 사용 빈도, 한글음가, Excel 내부코드, KS코드, 유니 코드 및 입력시스템에서 異音을 이용한 한자변환이 가 능한지의 정보로 구성된다. Excel에서는 한글음 ‘육’과 ‘륙’을 이용하여 한자 ‘六’으로 변환이 가능하다. 한자-한글 매핑정보를 통 해서 Excel에서는 ‘륙(六)’의 Excel 내부코드는 ‘55231’과 ‘육(六)’의 Excel 내부코드는 ‘60347’로 다 른 것을 확인할 수 있다. 유니코드 한자 ‘륙(六)’의 코 드 값인 ‘516D’만을 가지고 있기 때문에 한글과 한자 상호간의 연계된 정보를 확인할 수 있다. 또한, 한자 ‘虫’에 대응되는 한글음이 ‘충, 훼’를 가지지만 Excel 에서는 ‘충’을 이용한 한자 변환을 지원하지 않는다는 것을 알 수 있다. 그 결과 처방명에 사용된 2,410개의 한자 중에서 同形異音 漢字는 273개로 조사되었으며 각 한글음에 대응되는 한자코드의 지원여부를 O, X로 표시하여 <표 1>과 같이 정리하였다. 따라서, 同形異音 漢字의 한글-한자 매핑 정보를 통 해 한자 ‘육(六)’과 ‘륙(六)’을 포함하는 한자 처방명은 196개에 대응되는 한글 처방명 196개와 同形異音 漢 字로 인한 한자 처방명 196개 그리고 이에 대응되는 한글 처방명 196개가 추가된다. 그러나 ‘거풍벽독탕-祛風辟毒湯’에서 ‘辟’에 대응되 는 한글음은 ‘벽, 피, 비’ 3개를 가지지만 입력시스템사용 한자 사용 빈도 변환 한글음 Excel 내부코드 KS코드 유니코드 음가 1 변환여부 음가 2 변환여부 음가 3 변환여부 총 음가수 六 22 륙 55231 D7BF U+516D 륙 O 육 O ‧ ‧ 2 六 174 육 60347 EBBB ‧ 육 O 륙 O ‧ ‧ 2 <Table 1> 同形異音 漢字의 한글-한자 매핑 정보 예시 수집된 처방명 대응 한글 처방명 추가된 한자 처방명 추가된 한글 처방명 加減十六味流氣飮 가감십륙미류기음 加減十六味流氣飮 가감십육미류기음 四六安神湯 사륙안신탕 四六安神湯 사육안신탕 生脉六均湯 생맥륙균탕 生脉六均湯 생맥육균탕 六味地黃湯加減 륙미지황탕가감 六味地黃湯加減 육미지황탕가감 六味地黃丸加味 륙미지황환가미 六味地黃丸加味 육미지황환가미 <Table 2> 수집된 처방명에 대응되는 처방명 문자열 확장 사례 사용 한자 유니코드 異形字1 유니코드 異形字2 유니코드 異形字3 유니코드 異形字4 유니코드 異形字5 유니코드 湯 6E6F 汤 6C64 盪 76EA 蕩 8569 氣 6C23 気 6C17 气 6C14
風 98A8 风 98CE 凮 51EE 凨 98CE 檒 6A92 飌 98CC
<Table 3> 同意異形 漢字의 유니코드 한자 매핑 정보 예시 수집된 처방명 한글 처방명 추가된 한자 처방명 추가된 한자 처방명 추가된 한자 처방명 加味導痰蕩 가미도담탕 加味導痰湯 加味導痰汤 加味導痰盪 蕩鬼湯 탕귀탕 湯鬼湯 汤鬼湯 盪鬼湯 蕩脾圓 탕비원 湯脾圓 汤脾圓 盪脾圓 蕩邪湯 탕사탕 湯邪湯 汤邪湯 盪邪湯 蕩疝丸 탕산환 湯疝丸 汤疝丸 盪疝丸 蕩皮圓 탕피원 湯皮圓 汤皮圓 盪皮圓 <Table 4> 同意異形 漢字 정보를 이용한 한자 처방명 확장 사례 (Microsoft Excel 2010)에서는 ‘피’를 이용해야 ‘辟’ 으로 변환이 가능하다. 따라서 이와 같은 한자 처방명 에는 한글 처방명 ‘거풍피독탕’과 ‘거풍비독탕’만이 추 가가 가능하다. 유니코드 한자 영역 확장과 연관되는 문제로서 한글-한자 매핑 정보의 지속적인 관리와 보 완이 필요하다.
2. 同意異形 漢字의 유니코드 한자 매핑
同字異音 漢字는 理體字, 異形字를 포함하며 입력시 스템에서 제공되는 다른 모양의 한자를 조사하고 유니 코드 한자에서 표현이 가능한 것만을 조사하여 정리하 였다. 실제 조사한 한자보다 異體字와 異形字가 더 많 은 것을 확인하였지만 유니코드 한자에서 표현 할 수 있는 것을 정리하였다. 同意異形 漢字의 한글-한자 매 핑 정보는 <표 3>과 같이 처방명에 사용된 한자에 대 응하는 異形字와 유니코드 값으로 구성하였다. <표 3> 과 같이 처방에 사용된 한자 ‘湯’은 유니코드 한자에서 ‘汤, 盪, 蕩’으로 표현이 가능하다. 그 결과 본 연구에서는 2,410개의 한자들 중에서 유 니코드 한자 영역에서 1,513개의 한자들이 하나 이상 의 異形字를 가지는 것으로 조사되였다.3. 기타 처방명을 위한 한자-한글 매핑 정보
또한 앞에서 언급한 기타 한자 처방명의 다양성을연계하기 위해서는 처방명의 異名, 語順倒置로 인한 처방명 분석, 제형 개념의 변화에 따른 전통처방명과 구별된 명명법등 다양한 연구 분야에서 생성되는 용어 들의 연계가 필요하다. 또한, 실제 임상에서 사용하는 처방명의 略語와의 연계가 필요하다.
Ⅴ. 결론
UMLS는 의학분야에서 사용되는 동일 개념을 표현 하는 다양한 어휘를 수집하여 데이터 교환 및 각 분야 의 통합정보 검색에 적용을 목적으로 NLM에서 개발 된 통합의학용어 모델로서 의학분야의 용어 온톨로지 (Ontology)라 할 수 있다.UMLS는 Metathesaurus, Sementic Network, Specialist Lexicon and Lexical Tools로 구성되는데 Metathesaurus에서는 하나의 고유 개념에 대응되는 다양한 문자열을 포함하기 때문에 어떤 개념의 실 체에 대해 접근성을 높여주는 역할을 하고 있으며, Metathesaurus에서 다루는 언어자원은 영어 철자 및 문법을 기반으로 철자오류로 인한 문자열도 포함한다. 한의학 용어도 UMLS와 같은 체계를 마련하기 위해 서는 다양한 코드로 변환된 디지털 문자가 필요하다. 이와 같은 디지털 문자는 유니코드 한자 영역으로 표 현되고 입력시스템마다 지원되는 한자가 다르며 입력 자의 지식 수준에 따라서 변형된 한자어가 추출되어 실제 문헌에서 표현되는 언어자원과는 다르게 다양한 코드로 존재한다. 따라서 한의학 분야의 정보검색이나 데이터 교환 및 공유를 위해서는 다양한 디지털 문자 코드에 대한 한의학 고유의 통합용어체계가 마련되어 야 한다. 이러한 언어자원을 확보하는 방법으로는 Top- down방식과 Buttom-up 방식이 있는데 Top-down 방식은 고유 개념을 정하고 이에 관련된 언어자원을 추가하는 방식이며, Buttom-up 방식은 모든 어휘를 수집하고 지식전문가들의 분류를 통해 고유의 개념을 선정하는 방식이다. 본 연구에서는 처방명이 각각의 고유 개념을 가진다 는 전제하에 Top-down 방식을 적용하여 어휘를 확장 하는 방안으로서 처방명에 사용된 한자를 이용하여 유 니코드 한자 영역에서의 同字異音 漢字, 同意異形 漢 字 관계를 보완하고 한자-한글 매핑정보를 통해 처방 명의 한글 문자열과 한자 문자열을 추가하고 연계하여 각각의 처방명에 다양한 표현이 가능한 문자열을 확보 하고자 하였다. 향후 한의학 분야의 다양한 문자열을 확보하기 위해 서는 병증, 증상, 치법, 침구학 등 다른 분야에서 사용 되는 한자에 대한 추가 분석이 필요하다. 또한 한글-한자 매핑정보를 활용하여 한의학 분야에서 표현하고 자 하는 유니코드 한자의 확장과 실제 문헌에서 표현 하는 전거정보 및 다른 언어자원들과의 의미망 구축에 관한 연구가 필요하다.
감사의 글
본 연구는 “온톨로지 기반 한의학 지능형 정보체계 연구(K12090)” 과제의 지원을 받아 수행되었습니다.참고문헌
1. 윤소영. 정보시스템의 유니코드 기반 한자 검색 지원. 한국정보관리학회. 2007;24(4):375-391. 2. 최석두. 한자용어로부터 한글색인어의 생성. 한국정보 과학회. 1996;10:51-58. 3. 이진영. 한약제제 제조공정 표준화 사업 연구보고서. 식 품의약품안전청. 2005:41-43. 4. 배선미, 최기선, 황금하. 전문용어 한글-한자 자동변환. 한국정보관리학회지. 2004;31(1):886-888. 5. 이남희. 고문헌 디지털 아카이브 구축과 한자 처리 문제. 영남학회지. 2010;17:265-296. 6. 노명희. 한자어의 의미 범주와 한자 형태소의 배열 순서. 한국문화. 2008;44:217-218. 7. 엄동명, 금경수, 정헌영, 송지청, 김상운, 심현아, 홍윤정, 심철웅, 채송아. 한의학 온톨로지 검증을 위한 가이드라 인 작성과 약재 온톨로지 검증 연구. 2011:6-8. 8. 김홍순, 신준철, 옥철영. 의미처리 기반의 한글-한자 변 환 시스템. 한국정보처리학회. 2011;18(1):398-401. 9. 대한한의학회 한의학 용어 및 정보 표준화 위원회 편.한의학 용어 표준화 작업 지침서. 2007:20-25. 10. 이재윤, 김태수. 사전과 언어 정보 : WordNet과 시소
러스. 언어개발정보연구. 1999:232-269.
11. H.H.Suarez, X.Hao, and Chang IF, “Searching for information on the Internet sing the UMLS and Medical World Search”, In Proceedings the 1997 Annual AMIA Fall Symposium, Nashville, TN:Hanley & Belfus. 1997:824-828.
12. 최석두, 한상길 역. 온톨로지 알고리즘Ⅰ. 서울:한울아 카데미. 2008:186-188. 13. 최석두, 한상길 역. 온톨로지 알고리즘Ⅱ. 한울아카데미. 2008:87-88. 14. 조헌영 외 10인. 동의보감. 서울:여강출판사. 2007. 15. 황도연. 증맥 방약합편. 서울:남선당. 1992. 16. 전국한의과대학 공동교재위원회 편저. 본초학. 서울:영 림사. 2007. 17. 전통의학연구소 편. 한의학사전. 서울:성보사. 2001. 18. 민중서림 편집국 편. 한한대자전. 서울:민중서림. 2004. 19. 한국보건정보교육학회. 보건정보학개론. 서울:현문사. 2000. 20. 원영섭. 동자이음이의어. 서울:세창출판사. 1995:1-2. 21. 위키백과사전. http://www.wikipedia.org 22. 유니코드 한자 검색시스템. http://www.koreanhistory. or.kr/newchar/ 23. 네이버 한자 사전. http://hanja.naver