CRF를 이용한 대명사 참조해소 시스템
김형철
O, 서형원, 김재훈, 최윤수 한국해양대학교 / 한국과학기술정보연구원
[email protected],
[email protected],[email protected], [email protected]
Automated Pronoun Resolution Using CRF
Hyung-Chul Kim
O,
Hyung-Won Seo, Jae-Hoon Kim, Yun-Soo Choi
Korea Maritime University / Korea Institute of Science and Technology Information 요 약
이 논문은 영어 문장에서 대명사의 참조해소 시스템을 구현한다. 대명사는 문장에서 반복되는 말 대신에 사용하는 단어이다. 반복되는 말을 선행어라고 하며 대명사는 선행어보다 간결한 형식으로 사용된다. 정보 검색이나 정보추출에서 대명사를 그대로 색인하여 검색하면 정확한 정보를 추출할 수 없다. 따라서 대용 어가 가리키는 개체를 정확히 파악해서 이 정보를 색인하고 검색하면 정보검색, 정보추출, 질의응답의 성 능을 크게 개선할 수 있다. 이 논문에서는 CRF모델을 이용해서 이용하여 영어 문서에서 대명사 참조해결 방법을 제안하고 이를 구현한다.
주제어: 참조해소, CRF
1. 서 론
가상 공간(cyber space)라고 하는 웹은 전 세계를 통 하여 많은 정보를 쉽게 얻을 수 있는 정보의 보고이다.
가상 공간에 존재하는 정보들은 매우 다양하며, 그 양 또한 매우 빠른 속도로 증가하고 있다. 방대한 정보공간 에서 유용한 정보를 효과적으로 찾기 위해 정보검색이나 정보추출 등이 널리 사용된다. 이러한 기법들은 자연언 어 처리를 기반으로 하여 사용자가 필요로 하는 정보들 을 인식하여 요약된 형태로 가공하거나 서로의 관계들을 규명한다. 그러한 작업들은 아직도 많은 해결되지 않은 문제들을 가지고 있고, 큰 문제 중 하나가 대용어 (anaphora) 참조해소이다[1].
대용어는 대용의 기능을 담당하는 어휘로서 선행어 (antecedent)보다 간결한 형식을 사용하여 반복되는 성 분을 대신하는 것으로 명확한 진술을 피하거나 정확한 단어를 떠올릴 수 없을 때 사용하는 말이며, 대명사 (pronoun)가 그 대표적인 예이다. 문장의 의미를 정확히 파악하기 위해서는 문장에서 사용된 대용어가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지를 구별하 는 과정을 참조해소(reference resolution)라고 한다[2].
예를 들어 한 문서 안에서 “이명박”이 “Lee Myung Bak”, “Mr. Lee”, “Korea President”, “He” 등으로 표현 되었을 때 이들이 모두 같은 개체임을 찾아내는 것을 말 한다. 대명사 참조해소 특별히 대용어가 대명사일 경우 를 말한다. 앞에서 언급했지만 이러한 대용어 처리는 정 보검색이나 정보추출의 성능에 크게 영향을 미친다 [3,4]. 정보 추출에서 대용어를 그대로 색인하여 검색하 면 정확한 정보를 추출할 수 없으며 검색하고 싶은 내용 들이 대용어의 형태로 출력되면 사용자들 또한 정확한 내용을 확인할 수 없게 된다. 따라서 대용어가 가리키는 개체를 정확히 파악해서 이 정보를 색인하고 검색하면 정보검색, 정보추출, 질의응답 시스템들의 성능을 크게 개선할 수 있다. 대용어 처리에 대한 연구는 꽤 오랜 역
사를 가지고 있으나 실용화된 시스템을 사용하는 경우는 거의 없다고 해도 과언이 아니다. 예전에는 중심화 이론 (centering theory) 등을 중심으로 규칙기반의 연구[5, 6]나 경험규칙의 연구[7]이 주로 진행 되었으나 최근에 와서는 기계학습을 이용한 대용어 처리에 관한 연구 [8, 9]도 활발히 진행되고 있다. 하지만 그러한 연구들의 성 능을 그다지 좋은 편은 아니다.
이 논문에서는 기계학습 방법을 이용하여 대용어 중 대명사를 대상으로 참조해소 시스템을 구현한다 . 2장에 서는 관련연구를 살펴본다. 3장에서 CRF를 이용한 참조 해소 모델을 제안하고, 4장에서는 제안된 모델의 성능을 평가하여 그 유용성을 살펴본다. 끝으로 5장에서는 향후 연구 과제에 대해 생각해 보고 결론을 맺고자 한다 .
2. 관련 연구
2.1 CRF(Conditional Random Field)
HMM은 관찰열의 확률과 정답 태그열의 순서를 이용 한 확률의 결합 확률을 이용한 생성 모델이다(품사 부착 의 경우 입력단어에 대한 확률과 품사열 순서 ). 하지만 이러한 모델의 특성상 두 가지의 큰 문제점이 발생한다 . 첫 번째는 다중의 서로 다른 자질들을 사용하기가 매우 어렵다는 것이다. 다중의 자질을 사용하고자 하면 그 자 질들을 조합하여 하나의 자질로 통합하여야 한다. 하지 만 이렇게 하더라도 자질들의 종류가 늘어날 때마다 통 합된 자질의 클래스가 크게 늘어나게 되고 계산 속도에 큰 문제를 가져오게 된다. 두 번째 문제는 품사열의 순 서를 이용할 때 범위에 대한 제약이다.
이러한 문제를 해결하기 위해 Conditional Model이 적 용된 MEMM(maximum entropy Markov model)이 개발 되었다. MEMM는 기존의 두 가지 문제를 해결하면서 대부분의 경우에 HMM보다 높은 성능을 보장하였지만, 유한 상태 모델을 사용함으로써 Label Bias 문제를 가지
게 되었다. 최근에는 label bais 문제를 해결하면서 MEMM 이상의 성능을 보장하는 CRF 모델이 개발되어 널리 사용되고 있다[5].
CRF는 품사 부착과 같은 연속적인 자료의 라벨(label) 을 결정하는데 매우 유용하게 사용되는 분별 확률 모델 (discriminative probability model)이며(식 (1)), 즉 주 어진 입력 벡터 x에 대해서 조건부 확률 yx를 최대 로 하는 라벨 y를 선택하는 비방향성 그래프 모델이다 [5].
y argmax
ypyx (1) 여기서 yx는 CRF의 종류에 따라 다양하게 정의될 수 있다. 품사 부착의 경우에는 선형연쇄(linear chain) 모델이 적합하며 식 (2)과 같이 구한다.
yx x