말뭉치 기반 부분 어절 기분석 사전의 구축과 형태소 분석
신준철
O, 옥철영
울산대학교, 전기공학부
[email protected], [email protected]
Construction of Partial Word Morpheme Dictionary based on Tagged Corpus and Korean Morphological Analysis
Joon-Choul Shin
O, Cheol-young Ock Dept. of Electrical Engineering, Ulsan University,
요 약
기존의 말뭉치 기반 한국어 형태소 분석 방법은 대용량의 어절 기분석 사전을 사용하여 분석하고, 그
사전에 없는 어절은 코드 변환, 형태소 분리, 원형 복원 규칙 적용 등을 거치는 복잡한 분석 방법을 통해
후보들을 생성했다. 이 복잡한 분석 방법은 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확
률을 낮추고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 부분 어절의 기분석 사전을 구
축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 부분 어절의 기분석 사
전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 재현율이 99.05%였
으며, 품사 및 동형이의어 태깅 정확률은 96.76%였다.
주제어: 한국어, 형태소 분석기, 말뭉치, 부분 어절 기분석 사전
1. 서론
한국어 형태소 분석기는 기계 번역, 정보 검색 등 한 국어를 처리하는 정보 기술 분야에서의 필요성 때문에 오래 기간에 걸쳐 많은 연구가 이루어졌다. 그러나 여전 히 속도와 정확률 그리고 유지보수 측면에서 새로운 접 근방법이 필요하다.
기존의 알려진 한국어 형태소 분석 방법들은 크게 전 분석과 무분석 2가지로 나뉜다[1]. 전분석 방법이란 입력 어절에서 형태소의 원형을 복구해 가면서 하나씩 분리하 는 방법으로 테이블 파싱법[2], 최장 일치법[3], Two-Level 분석법[4] 등이 있다. 이 방법은 복잡한 원형 복구 과정을 위해 조합형으로 코드변환이 필요하고 다양 한 중간 과정을 만들어내어 사전 검색횟수가 많아지고 과분석되는 단점이 있다.
전분석의 이런 단점들을 개선하기 위해 사전 검색 횟 수를 줄이는 방법이나 중간 분석결과의 조합수를 최소화 하는 등의 시도[5, 6]가 있었다. 그리고 미리 통합형태소 를 만들어 사용하여 원형복구 과정을 일부 생략하도록 하는 시도[7]가 있었다.
무분석 방법이란 원형 복구 전, 어절에 있는 표층형의 전체 또는 부분을 사전에 미리 등록하고, 형태소 분석시 에는 표층형으로 검색하여 미리 분석된 내용을 조합하는 것이다. 빈번하게 나타나지만 처리가 곤란한 준말을 어 절 그대로 등록하거나 말뭉치에서 모든 어절을 등록한 기분석 사전 Full Word Morpheme Dictionary(FWD)이 대 표적이다. 그러나 현실적으로 FWD가 모든 입력 어절을 처리할 수는 없다. 이런 문제를 해결하기 위해 부분 어 절의 기분석을 등록한 Partial Word Morpheme Dictionar y(PWD) 를 이용할 수 있다. 통합형태소를 이용한 [7]의
연구가 PWD에 포함될 수 있다. 이 외에 PWD를 구축 사 용하는 연구로 형태소 분석기 개발 환경 MADE[8]가 있 었고, 형태소 사전을 통해 구축하고 사용하는 연구[1]가 있었다. 일단 구축된 FWD 또는 PWD가 있다면 무분석 처리는 간단한 알고리즘으로 구현 가능하다.
무분석은 전분석보다 비교적 최근에 연구된 것들로 더 큰 사전용량을 필요로 하지만 컴퓨터 기술의 향상으로 주 기억 장치에 모두 저장이 가능하며, 실행 시에는 처 리 속도가 빠르고 사용자가 사전을 수정/추가하면서 유 지보수를 쉽게 할 수 있기 때문에 특정 도메인의 최적화 도 쉽게 할 수 있다.
그러나 PWD는 구축이 간단하지 않다는 문제가 있다.
[1] 은 형태소 사전에 등록된 형태소에 음운 변화를 일으 켜 표층형을 만들어 PWD를 구축하였다. 이와 다르게 본 논문에서는 말뭉치를 통해 FWD를 구축할 때 PWD를 같 이 구축하는 방법을 제안하며 여기에 적합한 형태소 분 석 방법도 같이 제안한다.
2. 학습 데이터 구축
분석된 말뭉치를 통해서 PWD와 형태소 위치 적합성 를 구축하는 방법을 제안한다.
2.1 표층형-형태소의 음절 연결
부분 어절의 표층형과 원형을 추출하기 위해서는 표층
형과 원형간의 음절 단위의 연결 정보가 필요하다. [그림
1] 은 한 예로 전체 어절 ‘사랑이에요’를 3개의 형태소
로 분해한 것이다. 부분 어절인 ‘이에요’에 대해서 기
분석 내용을 구축할 때“이+에요”가 되는 것을 연결 정
보를 통해 알 수 있다.