한국어 의미역 말뭉치 구축을 위한 반자동 태깅 도구 개발

(1)

한국어 의미역 말뭉치 구축을 위한 반자동 태깅 도구 개발

배장성^O 오준호 박천음 최경호 이창기 강원대학교 컴퓨터과학과

{jseffort, jho, parkce, gangsparkle, leeck}@kangwon.ac.kr

Development of Semi-automatic Tagging tool for Constructing Korean PropBank

JangSeong Bae ^O, JunHo O, CheonEum Park, KyoungHo Choi, ChangKi Lee Dept. of computer science, Kangwon National University

요 약

한국어 의미역 결정(Semantic Role Labeling) 시스템의 성능은 영어 의미역 결정 시스템 성능에 비해 낮다. 이는 한국어 의미역 결정 시스템에서 사용하는 Korean PropBank의 크기가 영어 의미역 결정 시스 템에서 사용하는 PropBank의 크기보다 작기 때문이다. 한국어 의미역 결정 시스템의 성능 향상을 위한 한 방법으로는 동사 격틀 사전을 확장하는 방법이 있다. 이는 많은 언어학적인 지식이 요구되는 작업으 로서 언어학을 전공하지 않은 연구자들이 접근하기 상당히 어려운 일이다. 따라서 본 논문에서는 한국어 의미역 결정 시스템의 성능 향상을 위해 말뭉치를 확장하는 방법에 도움이 되기 위해 이를 사용자가 쉽 게 할 수 있는 반자동 태깅 도구를 개발한다.

1. 서 론

의미역 결정(Semantic Role Labeling)은 문장의 각 술어와 그 논항들의 의미적인 관계를 결정하는 자연 언어 처리의 한 단계로써 현재까지 연구가 활발히 진행되고 있는 분야이다.

일반적인 기계 학습 기반의 의미역 결정 시스템은 그림 1과 같이 문장이 주어졌을 때 해당 문장의 술어들을 식별하고 각 술어에 대한 논항들의 의미역을 결정하여 “누가, 무엇을, 누구에게, 어떻게, 왜” 등의 의미 관계를 찾아내는 시스템이다.

의미역 결정 시스템에서 널리 사용되는 말뭉치로 PropBank[1]가 있다. 이는 영어 의미역 결정을 위한 말뭉치이기 때문에 한국어에 적용할 수 없다는 문제가 있다.

이를 해결하기 위해 Korean PropBank[2]가 만들어졌으나 의미역 부착 말뭉치와 동사 격틀이 영어 PropBank[1] 보다 1/8수준에 불과하여 의미역 결정에 미흡한 결과를 가져올 수 있다. 실제로 최근 영어에 대한 의미역 결정 시스템에서 논항의 인식 및 분류 성능이 79%[3]의 성능을 보인 반면 최근 한국어 의미역 결정 시스템에서 논항의 인식 및 분류 성능은 74.3%[4]로 말뭉치의 크기가 의미역 결정 결과에 영향을 미치는 것을 알 수 있다.

의미역 결정 시스템은 크게 격틀 사전에 기반을 둔 시스템과 말뭉치에 기반을 둔 시스템으로 나눌 수 있다[5].

의미역 결정 시스템의 성능을 높이기 위해서는 격틀 사전을

확장하거나, 말뭉치를 확장해야 하는데 격틀 사전을 확장하는 것은 매우 어려운 일이다. 말뭉치를 이용한 기계 학습 기반의 의미역 결정 시스템은 격틀 사전에 기반을 둔 시스템보다 유연하지만, 의미역 부착 말뭉치를 구축하는 일이 어렵다는 단점을 가지고 있다.

본 논문에서는 의미역 결정을 위한 말뭉치의 크기가 의미 분석 성능에 영향을 미친다고 가정하고, 말뭉치 확장의 어려움을 해결하기 위해 말뭉치 구축을 더 쉽게 할 수 있도록 HTML5와 JavaScript를 사용하여 GUI 기반의 반자동 의미 부착 도구를 개발한다. 본 논문의 구성은 다음과 같다.

2장에서는 관련 연구를 소개하고, 3장에서는 본 논문에서 제안하는 반자동 태깅 도구에 대해 설명한다. 4장에서는 결론에 대해 기술한다.

그림 1. 의미역 결정 시스템

2014년 한국컴퓨터종합학술대회 논문집

(2)

그림 2. 반자동 의미 부착 도구

2. 관련 연구

PropBank는 의미역 결정에 필요한 중요한 자원으로써[1]

수작업으로 만들어진 의미역 부착 말뭉치이다. Korean PropBank는 PropBank를 기반으로 만들어진 한국어 의미역 부착 말뭉치인데 그 양의 부족함 때문에 연구의 진행에 어려움이 따른다. [4]는 한국어 의미역 결정을 위해 Korean PropBank를 학습 말뭉치로 사용하는 의미역 결정 시스템이다.

의미역 부착 말뭉치 구축은 [4]와 같은 시스템들을 위해 필요한 일이다. [6]은 어휘 사전에 기술되어 있는 격틀 정보를 이용하여 자동으로 술어-논항 관계를 추출하는 자동 술어-논항 분석기이다. [6] 도구는 한국어 PropBank의 구축을 쉽게 하여, 한국어 의미역 결정에 도움을 줄 수 있다.

본 논문은 구문 분석 정보, 의미역 정보를 확인하고 수정할 수 있는 도구를 구현한다.

3. 반자동 태깅 도구 개발

반자동 태깅 도구의 개발 목적은 Korean PropBank를 확장하는 것이며, 그림 2와 같은 인터페이스로 구성되어 있다.

이 도구는 JavaScript Object Notation(json) 형식을 따르는 말뭉치 파일을 읽음으로써 미리 자동 태깅한 구문 분석

정보와 의미역 정보를 확인할 수 있다. 또한, 구문 분석 정보와 의미역 정보를 각각 화살표로 표현함으로써 사람이 이해하기 쉽게 만들었으며, XML 형태의 동사 격틀 정보를 직접적인 파일 오픈 없이 확인할 수 있다.

사용자는 그림 2의 상단에 위치한 ‘파일 선택’ 버튼을 클릭하여 읽고자 하는 json파일을 선택할 수 있다. 파일을 선택한 후에 ‘파일 선택’ 버튼 아래 위치한 붉은색 상자로 표시된 Canvas에는 테이블과 화살표 형태로 표현된 의미역 정보가 표시된다. Canvas 안의 내용은 가장 위의 파란색 화살표부터 구문 분석 정보, 원본 문장, 술어 추가 버튼(‘AddVerb’ 버튼), 의미 분석 정보(초록색 화살표)가 있다.

구문 분석 정보는 트리 형태로 표현된다. ‘AddVerb’ 버튼은 인식되지 않은 술어를 직접 추가할 수 있는 버튼이다.

‘AddVerb’ 버튼 아래의 의미 분석 정보는 문장 왼쪽부터 순서대로 인식된 술어들이 각각 한 행씩 추가된다. 즉, 그림 2에서 단어 ‘의하.1’이 문장 왼쪽에서 처음 인식된 술어가 되어 의미 분석 정보 첫 행(‘의하.1’이 있는 행)에 표현된다.

의미 분석 정보의 각 행은 인식된 술어를 루트 노드로 갖는 트리 형태로 표현되며 그 행에 있는 의미역 태그를 하위 노드로 가진다.

Canvas 아래 위치한 Sentence 박스에는 읽어온 json파일

2014년 한국컴퓨터종합학술대회 논문집

(3)

내의 문장 리스트를 나타낸다. 각 문장을 선택하면 Canvas를 통해 해당하는 문장에 대한 정보들을 확인할 수 있다.

사용자는 읽어온 json파일의 정보를 수정한 후 ‘Save’ 버튼을 클릭하여 변경된 json파일을 원하는 이름으로 저장할 수 있다.

도구 하단에 위치한 ‘xml viewer’ 박스에는 Korean PropBank 격틀 정보가 표현된다. Canvas 내의 술어를 클릭하면(예를 들어, 의하.1 클릭) 그림 2의 하단에 나타난 것과 같이 클릭한 술어에 대한 격틀 정보를 확인할 수 있다.

그림 3. 의미역 리스트

사용자는 빈칸 또는 의미역 태그를 마우스로 클릭하여 의미역 정보를 수정할 수 있다. 마우스 클릭 시 그림 3과 같이 팝업창이 나타나는데 입력하고자 하는 태그를 선택하면 원하는 태그가 입력된다.

그림 4. Drag & Drop

반자동 태깅 도구는 HTML5의 Drag & Drop 기술을 적용하여 이미 삽입된 태그의 위치를 변경하고자 하는 경우 간단하게 위치를 변경할 수 있다. 그림 4와 같이 ‘상어는’에 위치하던 ‘ARG2’를 클릭 후 드래그하여 ‘연골어류에’가 있는 위치에 드랍하는 것으로 태그 위치를 변경할 수 있다.

그림 5. 술어 수정 대화창

사용자는 그림 5와 같이 Ctrl 버튼 + 술어를 클릭함으로써 술어를 삭제하거나 수정할 수 있다. 추가로 본 태깅 도구는 JavaScript의 dtree를 이용하여 모든 격틀 사전을 자음 순서로 정리해 원하는 격틀을 쉽게 찾아볼 수 있는 기능을 지원한다.

그림 2 하단에 있는 ‘xml viewer’ 링크를 통해 새로운 페이지에서 격틀 정보를 확인할 수 있다.

본 논문에서 제안한 반자동 태깅 도구가 실제로 얼마나 효율적인지 확인하기 위해 말뭉치 구축 작업 속도를 도구를 사용하지 않을 때와 비교 측정했다. 5문장을 한 작업의 기준으로 하여 말뭉치(WiseQA 889문장) 구축을 하였을 때 도구 없이 40분 걸리던 작업이 도구를 사용했을 때 약 22분 이 소요되 말뭉치 구축 속도가 80%가량 향상되었다.

4. 결 론

본 논문에서는 의미역 부착 말뭉치를 위한 도구 개발을 제안하였다. 그리고 이를 실제 말뭉치 구축 작업에 적용해 80%의 속도 향상이 있었음을 보였다

감사의 글

본 연구는 미래창조과학부 및 한국산업기술평가관리원의 산업융합원천기술 개발사업(정보통신)의 일환으로

수행하였음[10044577, 휴먼 지식증강서비스를 위한 지능진화형 WiseQA 플랫폼 기술개발

참고문헌

[1] Palmer Martha, Daniel Gildea, Paul Kingsbury. "The proposition bank: An annotated corpus of semantic roles", Computational Linguistics 31, 1, 71-106, 2005

[2] Palmer Martha, et al. "Korean Propbank", LDC Catalog No.: LDC2006T03 ISBN : 1-58563, (2006)

[3] Lim Soojong, Changki Lee, and Dongyul Ra.

“Dependency-based semantic role labeling using sequence labeling with a structural SVM”, Pattern Recognition

Letters, 34, 6, 696-702, 2013

[4] 이창기, 임수종, 김현기. Structural SVM 기반의 한국어 의미역 결정. KCC, 2014

[5] 김병수, et al. “비지도 학습을 기반으로 한 한국어 부사격의의미 역 결정”, 정보과학회논문지: 소프트웨어 및 응용, 34.2 , 2007

[6] 조정현, 정현기, 김유섭. “한국어 의미 표지 부착 말뭉치 구축을 위한 자동 술어-논항 분석기

개발”, 정보처리학회논문지 B, 19.1: 43-52, 2012