A Study on Methodology on Building NLI Benchmark Dataset in korean

(1)

한국어 추론 벤치마크 데이터 구축을 위한 방법론 연구

한지윤

^◦

, 김한샘

연세대학교 언어정보학 협동과정 {clinamen35,khss}@yonsei.ac.kr

A Study on Methodology on Building NLI Benchmark Dataset in korean

Jiyoon Han

^◦

, Hansaem Kim Yonsei University

요 약

자연어 추론 모델은 전제와 가설 사이의 의미 관계를 함의와 모순, 중립 세 가지로 판별한다. 영어에서는 RTE(recognizing textual entailment) 데이터셋과 다양한 NLI(Natural Language Inference) 데이터셋이 이러한 모델을 개발하고 평가하기 위한 벤치마크로 공개되어 있다. 본 연구는 국외의 텍스트 추론 데이터 주석 가이드라인 및 함의 데이터를 언어학적으로 분석한 결과와 함의 및 모순 관계에 대한 의미론적 연구의 토대 위에서 한국어 자연어 추론 벤치마크 데이터 구축 방법론을 탐구한다. 함의 및 모순 관계를 주석하기 위하여 각각의 의미 관계와 관련된 언어 현상을 정의하고 가설을 생성하는 방안에 대하여 제시하며 이를 바탕으로 실제 구축될 데이터의 형식과 주석 프로세스에 대해서도 논의한다.

주제어: 한국어 추론, NLI, 텍스트 함의 인식, RTE, 벤치마크 데이터

1. 서론

자연어 텍스트 간의 의미를 추론하는 자연어 추론(NLI, Natural Language Inference)은 자연어 이해(NLU, Natural Language Understanding)의 핵심적인 부분이다. 영어의 경우 2005년 RTE(recognizing textual entailment) Challenges가 시 작된 이후, 자연어 추론 모델의 성능을 평가하기 위한 벤치마크 데이터가 거의 매해 새롭게 공개되고 있다. 그러나 한국어의 경우 이러한 자연어 추론 모델 개발의 필요성에 대하여 논의 하거나[1], 국외의 사례를 바탕으로 한국어 고유의 자연어 추론 말뭉치를 구축하기 위한 기초연구[2]가 진행된 바가 있으나 그 사례를 찾기 드물었다. 그러나 올해 들어 처음으로 영어로 된 자연어 추론 벤치마크를 번역한 KorNLI가 공개되면서 한국어 자연어 추론 모델 개발을 위한 초석이 마련되었다.[3] 그럼에도 불구하고 기계번역된 텍스트를 기반으로 하고 있기 때문에 텍 스트 추론에 대한 국어학적 정의를 바탕으로 한 한국어 고유의 특성에 맞는 한국어 추론 벤치마크 데이터에 대한 필요성은 여 전히 남아있다. 이에 따라 본 연구는 기존의 데이터들과 호환이 되면서 동시에 언어학적 분석이 가능한 데이터 구축 방법론에 대하여 탐구하였다.

2. 관련 연구

자연어 추론 벤치마크 데이터는 크게 전제와 가설 문장 사이 의 함의 관계를 판별하는 유형과 다지선다형 질의응답 데이터 에서 가설을 추출하고 연관 웹 텍스트에서 전제 문장을 추출하 는 유형, 투사 현상을 바탕으로 함의 관계를 파악하는 유형으로

나눌 수 있다. 첫 번째 유형에 해당하는 데이터로 RTE와 NLI 계열의 데이터가 있다. 두 번째 유형에 해당하는 데이터는 과학 텍스트 만든 Scitai 데이터 세트며, 세 번째 유형에 해당하는 것 은 Super Glue 벤치마크의 일부로 제시된 Commitment Bank 이다. [4] [5] 본고에서는 첫 번째 유형의 데이터에 집중하여 해당 유형의 데이터를 만들기 위한 방법론을 다루고자 한다.

첫 번째 유형에서최근 가장 보편적으로 이용되는 벤치마크 로 Stanford University에서 고안한 SNLI(Stanford Natural Language Inference)[6] MNLI(Multi NLI)[7], XNLI(Cross- lingual NLI)[8]가 있다. 이와 동일한 데이터 스킴을 활용하여 Facebook AI가 발표한 ANLI(Adversarial NLI)[9]도 NLI계열 이라 볼 수 있다. 이 벤치마크들과 같이 문장과 문장 간의 함의 관계를 파악하는 데 집중한 벤치마크는 RTE 데이터 세트를 그 시초로 볼 수 있다. RTE Challenges는 2005년 시작되어 2013 년까지 8회가 진행되었으며 RTE-1 7의 데이터가 공개되었다.

기본적으로 영어로 된 데이터이며 RTE-2을 비롯해 일부 데

이터는 일본어 등 다른 언어로 구축되었다. RTE Challenges

에서는 기본적으로 텍스트(T, text)와 가설(H, hypothesis)로

이루어진 한 쌍의 텍스트 간의 의미 관계를 추론하는 과제를

제시되었고 그에 따라 훈련용 데이터와 평가용 데이터로 구성

된 말뭉치를 제공하였다. RTE 데이터는 기본적으로 데이터에

언어학적 분석을 적용하려는 시도를 꾸준히 진행하였으며, 그

일환으로 ARTE(Annotating RTE) 스킴같은 데이터 주석 가

이드가 제안되었다.[10] 그 이후로도 영어를 대상으로 RTE-5

데이터를 분석하여 함의 관계를 유발하는 언어 현상에 대한 연

구가 진행되었고[11], 이를 반영하여 RTE-2 일본어 데이터를

(2)

문장 종류 문장 구분 주석 전제 극중 천재 의사 장석준 역을 맡은 김태훈은 KBS2 수목드라마 추리의 여왕2에 출연 중인 김태우와 친형제 관계다.

가설 김태훈과 김태우는 형제다. 동의어 함의

가설 김태우는 KBS2 수목드라마 추리의 여왕2에 출연하지 않았다. 관형절 모순

가설 극중 천재 의사 장석준 역을 맡은 김태훈은 김태우의 동생이다. 일반 상식 중립

표 1. 데이터 전제-가설과 언어 현상 주석 예시

분석하여 구축 가이드라인을 제시한 연구도 있다. [12]

이후 생성된 SNLI, MNLI, XNLI 등의 자원은 언어 현상을 세밀히 표상하고 자원에 반영하는 것이 아닌 대규모의 자원을 어떻게 생성할 것이냐에 초점을 맞추었다. 이에 따라 크라우드 소싱 기법을 통해 일반 언중의 직관에 따라 가설을 생성하고, 그것을 판단하는 것을 기본으로 하는 구축 방법이 제안되기 시작한 것이다. ANLI에 이르러서는 자원 구축 과정에 기계 학습 방법을 도입하여 작업자가 오류를 수정하는 것을 돕는 순 환적인 방식이 제시되었다. 그러나 일반 언중의 직관에 따라 대규모의 가설을 생성하고 평정하는 방법론을 따른다고 하더 라도, 여전히 언어학적 근거에 따라 전제 문장을 수집하고 가설 문장을 생성하기 위한 연구는 필요하다. 언어학자가 아닌 다수 의 일반 언중에게 텍스트 간의 의미 관계를 평정하는 작업을 맡기더라도, 판단의 근거가 되는 가이드라인을 제시해야 하기 때문이다. 가이드라인을 제시하기 위해서는 대상 텍스트에 대 한 정의와 대상에 대한 의미 관계와 언어 현상에 대한 정의가 필요하다. 또한 세계 지식을 반영한 일반 상식의 차원이 아닌 어휘 및 통사 층위에서 발생 한 의미 관계를 파악하기 위해서는 개별 언어의 고유한 특성에 맞춘 연구가 요구된다.

한국어의 경우 국외의 추론 데이터를 분석하여 한국어에 적 용하려는 기초 연구가 진행되었으나[2] 이를 활용한 실제 데이 터는 공개되지 않았다. 이후 공개된 KorNLI는 SNLI, MNLI, XNLI를 한국어로 기계 번역하여 한국어 추론 모델 개발의 초 석을 닦았다. [3] 만성적인 데이터 기근에 시달리는 한국어 자 연어처리 분야에서 950,354문장 쌍으로 이루어진 데이터를 공 개하여 큰 환영을 받았으나 한국어를 원시 데이터로 한 것이 아니라는 한계점이 있다. 번역의 과정에서 의미의 소실 또는 변형이 일어나 데이터 쌍의 함의, 모순 관계가 그대로 한국어 에서도 유지된다는 것을 담보하기 어려운 부분이 있는 것이다.

또한 한국어 고유의 어휘적, 통사 구조적 특성에 대한 연구를 바탕으로 한 것이 아니라는 점에서 아쉬움을 남긴다. 이에 따 라 본고는 기존의 논의를 확장하여 이러한 한계를 극복하면서 한국어 고유의 특성에 맞춘 한국어 추론 벤치마크 데이터를 구축하기 위한 방법론을 연구하였다.

3. 한국어 추론 데이터

본 연구에서 다루는 한국어 추론 데이터는 전제(premise)와 가설(hypothesis)로 구성된 한 쌍의 텍스트가 기본 단위이다.

이 텍스트 간의 의미 관계는 함의(entailment)와 모순(contra- diction), 중립(neutral)으로 주석된다. 전제는 기사문과 위키피 디아에서 의미 관계를 구성하는 요소를 포함한 문장을 추출한 것이고, 가설은 문장 생성 규칙에 따라 작업자가 생성한 것이 다. 가설 문장 생성 시 문장 쌍의 의미 관계가 정해지며 생성된 문장 쌍의 실제 의미 관계 판별은 크라우드 소싱을 통해 일반 언중의 직관에 따라 확정된다. 표1은 이러한 한국어 추론 데이 터의 예시이다.

3.1 기본 주석 원칙

한국어 추론 데이터를 구축하기 위한 기본 원칙은 아래와 같다. 이는 ARTE[10]에서 소개된 RTE 데이터 구축의 기본 원칙[13]을 기반으로 본 연구의 방향성에 맞게 변형한 것이다.

1. 함의는 일방 관계로 가설은 반드시 전제를 함의해야 하지만 그 반대는 성립하지 않아도 상관없다.

2. 가설은 전제에 완전히 포함되어야 하며 추론할 수 없는 부 분은 포함하지 않아야 한다.

3. 추론(inference)은 완벽하게 확신할 수 없더라도 사실일 가 능성이 높은 경우 사실로 판단한다.

4. 일반적인 배경지식은 함의 판단의 근거가 될 수 있으나 매우 세부적인 지식이 필요한 경우는 판단의 근거가 될 수 없다.

5. 전제 문장은 원문을 훼손하지 않는 것을 원칙으로 하나 의미 관계를 명료하게 하기 위하여 정제할 수 있다.

6. 가설 문장은 가급적 하나의 언어 현상만을 포함한다.

1.과 2.는 가설과 전제 간에 성립하는 함의 관계에 대한 기본

원칙이다. 3.과 4.는 일반적인추론과 의미 관계 판별에 대한 기

준이다. 기본적으로 어휘 또는 어휘 통사적 현상을 기반으로 한

의미 관계는 작업자 간의 차이가 드물지만, 세계 지식의 경우

작업자마다 주관적인 기준에 따라 의미 관계를 판단할 수 있

기 때문이다. 5.와 6.은 실질적으로 전제 문장을 추출하고 가설

문장을 생성하는 기준을 제시한 것이다.

(3)

3.2 데이터의 형식

데이터의 형식은 SNLI에서 파생된 NLI 계열의 형식을 변경 하여 사용한다. JSON 형식으로 아래 표와 같은 총 8개의 필드 로 구성된다. ID는 문장쌍을 식별하기 위한 항목이며, premise 에는 전제 문장, hypothesis에는 가설 문장이 삽입된다. an- notator labels에는 평가자들의 주석 판정 결과가 포함되며, gold label에는 최종적으로 결정된 주석이 위치한다. corpora 는 전제 문장이 포함된 원시 말뭉치 정보가, genre에는 원시 말뭉치의 장르 정보가, semantic feat에는 가설 문장 생성의 근 거가 된 언어 현상 정보가 제시된다.

• ID

• premise

• hypothesis

• annotator labels

• gold label

• corpora

• genre

• semantic feat 3.3 수집 대상 데이터

한국어 추론 말뭉치는 전제 수집, 가설 생성, 전제-가설 쌍 판별의 단계를 거쳐 구축된다. 본 논문에서 전제 수집의 대상 이 되는 데이터는 기사문과 위키피디아로 한정한다. 기사문의 경우 현행 저작권법상 육하원칙에 따라 단순 사실을 전달하는 기사는 저자권법의 적용대상이 아니기 때문에 이에 적합한 문 장만을 수집 대상으로 삼는다. 이는 크리에이티브 커먼즈 저작 자표시-동일조건변경허락 3.0 Unported 라이선스에 따라 오픈 소스 데이터로 전체 데이터를 공개하기 위한 것이다. 기사문은 2020년 1월부터 9월까지 작성된 기사 중 위의 사항에 적합한 문장을 표집하고, 위키피디아는 전체 문서 중 언어 현상을 잘 드러낼 수 있는 문장을 무작위로 표집한다.

3.4 가설 생성 및 의미 관계 판별을 위한 판단 기준

본 연구에서는 함의 및 모순 관계를 판단할 수 있는 언어 현상 과 세계 지식을 정의하고 이를 바탕으로 의미 관계를 주석하기 위한 기준을 제시한다. 다음 중 추론과 일반 상식에 해당하는 세계 지식은 문맥 또는 일반 상식을 통하여 추론해 낼 수 있는 의미 관계이다. 표1은 전제-가설 쌍에 대한 언어 현상을 표로 나타낸 것이다. 본 장에서는 언어 현상에 해당하는 항목을 정의 하여 주석 기준을 제시한다. 아래의 목록은 각각 함의 관계와 모순 관계를 발생시키는 언어 현상이다. 3.4.1에서는 함의 관 계과 관련된 언어 현상 중 일부를 제시하며, 3.4.2에서는 세계 지식의 예시를 제시한다.

언어 현상:

• 어휘적 동의 관계, 상/하의 관계, 부분 관계, 긍부정 관계, 반의어, 양립 불가능 관계, 능동/피동 관계, 주 동/사동 관계(장, 단형) 대립어 교체, 처소 논항 교체, 격 교체, 어순 뒤바꾸기, 수식 관계, 관계절, 분열문 세계 지식 :

• 시간 추론, 공간 추론, 양적 추론

• 일반 상식

3.4.1 언어적 자질

함의 관계는 전제와 가설로 이루어진 한 쌍의 문장 간에 형 성된 의미 관계로 전제의 암시적 결과가 가설이 된다. 달리 말 하면 가설이 논리적으로 전제에서 도출될 때 발생하는 두 명제 (proposition) 간의 관계이다. 명제는 문장보다 더 추상적인 언 어 단위로 문장에서 핵심적인 정보만을 간추린 것이라고 할 수 있다. 하나의 예로 “나를 너를 사랑한다”와 “너는 나에게 사랑받는다”는 각각 능동문, 피동문으로 구분되는 별개의 문 장이지만 동일한 상태를 기술한 하나의 명제라고 볼 수 있다.

이처럼 명제는 문장 의미의 기본적이고 핵심적인 요소이다.[14]

아래의 항목들은 이 중 일반적으로 함의와 관련된 논의에서 자 주 다루어지는 동의, 상/하의, 능/피동, 주/사동, 긍/부정, 반의 관계와 대립어 교체, 처소 논항 교체, 어순 뒤바꾸기 현상에 대 하여 다룬다.

• 동의 관계

동의 관계(synonymy)는 같거나 비슷한 의미인 단어들 간의 의미 관계를 나타내며, 이러한 동의어(synonym)에 의하여 전제와 가설 문장 간 동의 관계가 성립할 때만이 이 항목 에서 다루는 동의 관계에 해당한다. 본 연구에서는 주석의 기초 원칙에서도 밝혔듯 전제에 대한 가설의 관계를 보는 일방향의 의미 관계를 기본으로 하고 있기는 하나 이 경우 상호 함의 관계가 성립하는 경우가 있다.

(1-P)

¹

왼쪽 볼에 볼우물이 깊게 파였다.

(1-H) 왼쪽 볼에 보조개가 깊게 파였다.

• 상/하의 관계

하의 관계(hyponymy)는 단어의 의미적 계층 구조에서 한 쪽이 의미상 다른 쪽을 포함하거나 다른 쪽에 포함되는 비 대칭적 관계이다. 이 관계에서는 일반적인 쪽을 상위어(hy- peronym), 특수한 쪽을 하위어(hyponym)라고 한다. 하위 어는 상위어를 함의하지만, 역으로 상위어는 하위어를 함의

1

이후 예문의 전제는 Premise의 P로, 가설은 Hypothesis의 H로

표기한다.

(4)

하지 않는 일방 함의 관계가 성립한다. 이에 따라 하위어가 포함된 전제에 대하여 상위어를 포함한 가설 문장을 생성 하는 것은 가능하지만 전제에 포함된 상위어의 하위어를 이용한 가설 생성은 함의 관계를 보장하지 않는다. 예를 들 면 (2-P)이 성립하는 경우는 (2-H)이 성립하지만, (2-H)이 성립한다고 해서 (2-P)이 성립하는 것은 아니다. 따라서 (2- P)이 전제가 되고 (2-H)이 함의 관계에 있는 가설 문장이 되는 것은 가능하지만 그 역관계는 성립하지 않는다.

(2-P) 저것은 새이다 (2-H) 저것은 조류이다.

• 능동/피동 관계

능동문은 행위자가 스스로 어떠한 일을 행하거나 어떤 대상 에게 어떤 행위를 가하는 것을 나타내는 문장이다. 문장의 구조를 살펴보면 주어로는 행위자가 오며, 목적어로 행위 를 받는 대상인 피동물이 오고, 서술어로 타동사가 오는 구조이다. 주어는 반드시 유정물이어야 하나 목적어가 되 는 피동물은 유정물이든, 무정물이든 상관없다. 피동문은 동일한 상황을 피동물의 관점에서 기술한 문장이다. 피동 문은 기본적으로 동사 어간에 ‘-이-, -히-, -리-, -기-’와 같 은 피동 접미사를 첨가하여 만들거나 ‘당하다, 되다, 맞다, 받다’ 등 피동 어휘를 사용하여 만들 수 있다. 기본적으로 동일한 상황에 대하여 성립하는 문장 관계이기 때문에 함의 현상으로 구분할 수 있다. 그러나 한국어의 경우 피동문이 사용되는 경우가 제한적이며, 문법상으로 어색하지 않더라 도 일반적으로 사용되지 않는 문장이 생성될 수 있으므로 유의해야한다. 이에 따라 피동문을 전제 문장으로 설정하고 가설 문장으로 능동문을 생성한다.

(3-P) 민영이가 수미에게 맞았다.

(3-H) 수미가 민영이를 때렸다.

• 주동/사동 관계(장, 단형)

주동문은 행위자 자신이 자신에 관한 일을 하는 경우를 드러 내기 때문에 대부분의 문장이 주동문이다. 능동문이 반드시 행위자와 피동물이 존재해야 능-피동쌍이 성립하는 것과는 다르다. 사동문은 사동주가 피사동주가 할 일을 대신하거나 피사동주로 하여금 어떤 일을 하게 하는 것을 나타낸다. 능/

피동 관계에서 피동물은 유/무정 모두 될 수 있었던 것과 달리 피사동주는 무조건 유정물이어야 한다. 사동문은 (4) 처럼 동사 어간에 ‘-이-, -히-, -리-, -기-, -우-, -구-, -추-’와 같은 사동 접미사를 첨가하여 만들거나 (5)차람 연결어미

‘-게’와 보조 용언인 ‘-하다’를 붙여 만들 수 있다. 전자는 단형 사동, 후자는 장형 사동이다. 자동사를 사동문으로 만 드는 경우는 (6)과 같이 주동문의 주어를 목적어로 변경하

고, 타동사를 사동문으로 만드는 경우는 주동문의 주어를 부사어로 만든다.

(4-P) 학생이 잠에서 깼다.

(4-H) 선생님이 학생을 잠에서 깨웠다.

(5-P) 그 사람이 나를 웃겼다.

(5-H) 그 사람이 나를 웃게 했다.

(6-P) 개가 사람을 물었다.

(6-H) 사람이 개에게 물렸다.

• 긍부정 관계

가설과 전제의 관계가 긍부정 관계가 되는 경우는 일반적 으로 모순 관계에 해당한다. 용언의 어간에 ‘-지 않-’ 또는

‘-지 못 하-’, ‘안’ 또는 ‘못’, 등의 장단형 부정소(negative marker)를 삽입하면 부정문이 생성된다. 일반적으로 모든 긍정문에 대하여 이러한 방식으로 부정문을 만들 수 있다.

따라서 전제가 긍정문인 경우 가설을 부정문으로, 전제 문장 이 부정문일 경우 가설을 긍정문으로 생성하여 모순 관계를 만들 수 있다. 다만 논항 및 부가어가 다수 존재하는 문장이 경우 부정의 작용역(scope of negation) 때문에 중의성이 발 생할 수 있으므로 유의해야 한다.[15] (7-P)에 대한 부정문 으로 (7-H)를 생성한 경우, 부정의 범위가 명사구 하나씩인 경우에도 어젯밤, 9시, 진호, 대학 도서관, 공부라는 각 항 목에 대한 부정문으로 이해할 수 있으며, 그 중 두세 요소를 함께 부정하는 것도 가능하다. 이와 같이 다양한 해석의 여 지가 있는 가설 문장은 가급적 생성하지 않도록 주의한다.

이에 따라 기본적으로 긍정문에 대한 부정문을 생성하는 것 이 아니라, 부정문에 대한 긍정문을 생성하는 것이 이러한 문제에 구애받지 않고 명료한 모순 관계의 가설을 생성하는 방편이 될 것이다.

(7-P) 승철이는 어젯밤 9시에 진호와 함께 대학 도서관에서 공부를 하였다.

(7-H) 승철이는 어젯밤 9시에 진호와 함께 대학 도서관에 서 공부를 하지 않았다.

• 상보 반의 관계

반의 관계의 특성을 아래와 같다.[16] 일반적으로 상보적 반

의 관계와 정도적 반의 관계를 구분하고 있다. 상보적 반의

관계는 남자와 여자, 살다와 죽다, 열다와 닫다처럼 둘로

나뉘어 중간 지점이 없는 반의 관계를 뜻한다. 정도적 반의

관계는 길다와 짧다, 좋다와 나쁘다, 춥다와 덥다와 같이

중간 지점이 존재하는 반의 관계를 의미한다. 이와 더불어

상보적 반의 관계 또는 정도적 반의 관계와 방향 또는 관계

의 양상이 다른 다양한 반의 관계를 검토해야 할 필요성과

반의 관계 판단에 맥락을 활용해야 한다는 점을 지적하고

(5)

있다.

첫째, 반의 관계의 어휘들은 상위어를 공유한다는 점에서 의미상 공통성을 지닌다. 둘째, 반의 관계의 어휘들은 양 립할 수 없다. 셋째, 반의 관계의 어휘들은 최소의 차이에 근거하여 대립적이다.

(8)는 상보적 반의 관계를 지닌 문장 쌍으로 (8-H)는 모순인 가설 문장이 된다. (9)는 정도적 반의 관계를 지닌 문장 쌍으 로 (9-P)의 부정이 (9-H)가 되지 않으므로 (9-H)는 모순이 아닌 중립이 된다.

(8-P) 헤밍웨이는 1961년 7월 2일 사망하였다.

(8-H) 헤밍웨이는 1962년에 생존해있었다.

(9-P) 방이 몹시 깨끗하다.

(9-H) 방이 더럽지 않다.

• 대립어 교체 구문

대립어 교체 구문은 사다/팔다, 밀다/당기다와 같이 대립 어로 구성된 문장 쌍 사이에서 형성되는 구문이다. 본 연구 에서 다루는 대립어(opposite)는 이원 대립어로 색채어나 온도 등의 다원 대립어는 해당하지 않는다. (10)은 “X가 Y 에게 Z를 ...하다”라는 통사적 특 속에서 X, Y의 선택이

‘사다/팔다’의 대립어 선택과 상관성을 지니게 되어 진리 조건적 의미가 동일하게 된다.[14]

(10-P) 형이 동생에게 집을 팔았다.

(10-H) 동생이 형에게 집을 샀다.

• 처소 논항 교체 구문

처소 논항 교체 구문 역시 진리 조건적 의미가 동일한 두 문장 간의 관계이다. 이 동의성은 (11)과 같이 처소 논항과 관련한 주어와 부사어가 교체되는 경우에도 동일한 의미 를 유지한다. 이러한 경우는 전경과 배경이 역전된 관계로 진리 조건적 의미가 동일하지만, 강조하는 지점이 다르다.

그럼에도 불구하고 여전히 전제와 가설 문장 사이에 함의 관계는 살아있다고 볼 수 있다.

(11-P) 야구장이 관중들로 가득 차 있다.

(11-H) 관중들이 야구장에 가득 차 있다.

• 어순 뒤바꾸기

어순 뒤바꾸기를 통한 함의 관계를 생성할 때 활용할 수 있는 언어 현상은 부사 이동과 도치이다. 한국어는 어순이 비교적으로 자유로운 언어이기 때문에 (12)와 같이 부사의 위치를 바꾸는 것으로형태의 변화 없이 동일한 의미를 나 타낼 수 있다.

(12-P) 나는 다음주에 제주도로 떠난다.

(12-H) 다음주에 나는 제주도로 떠난다.

3.4.2 세계 지식

세계 지식은 언어학적 자질을 기반으로 하지 않고 일반적 인 상식과 추론 능력을 바탕으로 한 경우를 말한다. 시간, 공간, 양적 추론도 이 범주에 포함된다. (13-P)과 (13-P)은 시간 추론으로 상호 함의가 성립하는 관계이다. AM 05:30 를 새벽으로 대치하는 일반적인 지식을 활용한 것으로 판단 한다. 이처럼 언어학적 자질 이외의 지식을 사용하여 의미 관계를 판단하는 경우를 세계 지식을 이용한 자질로 판단한 다. (14-P)과 (14-P)은 반도라는 지형적 특성에 대한 일반 상식을 이용하여 함의 관계를 판단할 수 있는 예이다. 이와 같이 전제와 가설 간 의미 판단에 각 문장에서 드러나는 어 휘적 자질이 아닌 일반 상식을 이용하는 경우를 이 범주로 분류한다.

(13-P) 기차는 2020. 4. 5 AM 05:30에 출발했다.

(13-P) 기차 출발은 20년 4월 5일 새벽이었다.

(14-P) 한국은 삼면이 바다로 둘러쌓여 있다.

(14-P) 한국은 반도이다.

4. 데이터 구축 프로세스

그림1은 전체적인 데이터 구축 프로세스를 도상화한 것이다.

전제문장추출

전제문장피드백

가설문장생성 의미관계평가

전제-가설쌍구축 데이터완성

IAA를통한 주석확정

그림 1. 데이터 구축 프로세스

먼저 전제 문장 추출은 원시 데이터에 전제 문장을 추출하는 단계이다. 언어 현상의 유형별로 의미 관계에 맞는 가설 문장 을 생성해낼 수 있는 대상 어휘를 포함한 문장을 전제 문장으 로 추출한다. 1차 추출된 전제 문장은 전제 문장 후보가 되며, 가설 문장 생성을 위한 작업으로 넘겨진다. 1차 전제 문장을 대상으로 가설 문장 생성자가 가설 문장을 생성한다. 가설 문 장을 생성하는 단계에서 1차 전제 문장을 수정할 수 있다. 다만 이 경우는 의미 관계를 명료하게 하기 위한 작업에 국한한다.

가설 문장은 앞선 가이드라인에 따라 하나의 언어 현상만을

포함하도록 생성한다. 이 작업이 종료되면 한 쌍의 전제-가설

(6)

문장 쌍이 생겨난다. 이 전제-가설 쌍은 가설 생성자와는 별도 로 구성된 복수의 평가자에게 의미 관계를 평가받는다. 단순히 문장 쌍 간의 의미 관계를 함의, 모순, 중립을 판별하기도 하며 그 정도를 리커드 척도로 표현하여 주석할 수도 있다. 복수의 평가자는 보통 5명에서 8명으로 구성된다. 평가 결과 가설 생 성자와 복수의 평가자 데이터가 모두 일치하는 경우 gold-data 가 되며, 작업자 간 일치도가 낮은 문장 쌍은 최종 데이터에서 제외된다.

5. 결론

본고는 한국어 추론 데이터를 구축하기 위한 기초 연구를 진행하였다. 전제와 가설 사이의 의미 관계를 판단할 수 있는 근거를 언어 현상과 세계 지식으로 나누어 정리하였다. 또한 실제 데이터 구축 프로세스를 정리하여 제시하였다. 이 가이드 라인에 따라 구축된 벤치마크 데이터는 2020년 12월 이후 공개 예정이다. 데이터 공개 시에 본고에서 미처 다루지 못한 언어 현상 전체에 대한 정의와 주석 방안을 함께 공개할 것이다.

본 가이드라인을 작성하면서 담화-화용적 측면에서 발생하 는 함의 관계에 대해서는 다루지 못하였다. 담화-화용적 측면 에서 발생하는 함의 관계는 발화 상황에 따라 그 진리치가 변 경되기 때문에, 기본적으로 문어 텍스트를 기반으로 한 데이터 세트에 적용할 수 없었다. 그러나 open-domain 대화시스템같 은 응용분야에서는 이러한 함의 관계를 추론해내는 능력도 필 요하게 될 것이다. 이는 추후의 과제로 남겨둔다.

또한 자원 생성의 측면에서도 아쉬움이 남는다. ANLI에 서 도입한 human-and-model-in-the-loop enabled training (HAMLET) 방식과 같이 기계 학습 방법론을 가설 생성 단계 에서도 도입하는 구축 방식에 대한 연구도 추가로 진행되어야 할 것이다.

감사의 글

본 논문은 과학기술정보통신부 및 정보통신산업진흥원의

‘고성능 컴퓨팅 지원’ 사업으로부터 지원받아 수행하였음 본 연구는 2020년 연세대학교 대학원 연구장학금 지원에 의 한 것임

참고문헌

[1] 최성필, 송사광, 정한민, and 황미녕, “텍스트 추론 (tex- tual inference) 연구 동향 분석,” 정보과학회지, Vol. 30, No. 11, pp. 68–77, 2012.

[2] 한지윤, “언어 추론 모델 개발을 위한 말뭉치 구축 방법론 연구,” 언어사실과 관점, Vol. 48, pp. 351–384, 2019.

[3] J. Ham, Y. J. Choe, K. Park, I. Choi, and H. Soh,

“Kornli and korsts: New benchmark datasets for ko-

rean natural language understanding,” arXiv preprint arXiv:2004.03289, 2020.

[4] T. Khot, A. Sabharwal, and P. Clark, “Scitail: A tex- tual entailment dataset from science question answer- ing.” 2018.

[5] M.-C. De Marneffe, M. Simons, and J. Tonhauser, “The commitmentbank: Investigating projection in naturally occurring discourse,” proceedings of Sinn und Bedeu- tung, Vol. 23, No. 2, pp. 107–124, 2019.

[6] S. R. Bowman, G. Angeli, C. Potts, and C. D. Manning,

“A large annotated corpus for learning natural language inference,” arXiv preprint arXiv:1508.05326, 2015.

[7] A. Williams, N. Nangia, and S. R. Bowman, “A broad- coverage challenge corpus for sentence understanding through inference,” arXiv preprint arXiv:1704.05426, 2017.

[8] A. Conneau, G. Lample, R. Rinott, A. Williams, S. R.

Bowman, H. Schwenk, and V. Stoyanov, “Xnli: Eval- uating cross-lingual sentence representations,” arXiv preprint arXiv:1809.05053, 2018.

[9] Y. Nie, A. Williams, E. Dinan, M. Bansal, J. Weston, and D. Kiela, “Adversarial NLI: A new benchmark for natural language understanding,” Proceedings of the 58th Annual Meeting of the Association for Computa- tional Linguistics, 2020.

[10] K. Garoufi, “Towards a better understanding of applied textual entailment,” Ph.D. dissertation, Citeseer, 2007.

[11] L. Bentivogli, E. Cabrio, I. Dagan, D. Giampiccolo, M. L. Leggio, and B. Magnini, “Building textual en- tailment specialized data sets: a methodology for isolat- ing linguistic phenomena relevant to inference.” LREC, 2010.

[12] K. Kaneko, Y. Miyao, and D. Bekki, “Building japanese textual entailment specialized data sets for inference of basic sentence relations,” Proceedings of the 51st Annual Meeting of the Association for Computational Linguis- tics (Volume 2: Short Papers), pp. 273–277, 2013.

[13] I. Dagan, O. Glickman, and B. Magnini, “The pascal recognising textual entailment challenge,” pp. 177–190, 01 2005.

[14] 임지룡, “한국어 의미론,” 2018.

[15] 박영순, “한국어 의미론,” 2004.

[16] 최경봉, “어휘의미론,” 2004.