Predicting the Politeness of an Utterance with Deep Learning

(1)

제31회 한글 및 한국어 정보처리 학술대회 논문집 (2019년)

딥러닝 방법을 이용한 발화의 공손함 판단

이찬희^1◦, 황태선¹, 김민정², 임희석¹*

1고려대학교 정보대학 컴퓨터학과

2고려대학교 문과대학 영어영문학과

{chanhee0222, hts920928, mj169, limhseok}@korea.ac.kr

Predicting the Politeness of an Utterance with Deep Learning

Chanhee Lee^1◦, Taesun Whang¹, Minjeong Kim², Heuiseok Lim¹*

1Department of Computer Science and Engineering, Korea University

2Department of English Language and Literature, Korea University 요 약

공손함은 인간 언어의 가장 흥미로운 특징 중 하나이며, 자연어처리 시스템이 인간과 자연스럽게 대화하기 위해 필수 적으로 모델링해야 할 요소이다. 본 연구에서는 인간의 발화가 주어졌을 때, 이의 공손함을 판단할 수 있는 시스템을 구현한다. 이를 위해 딥러닝 방법인 양방향 LSTM 모델과, 최근 자연어처리 분야에서 각광받고 있는 BERT 모델에 대해 성능 비교를 수행하였다. 이 두 기술은 모두 문맥 정보를 반영할 수 있는 모델로서, 같은 단어라도 문맥 정보에 따라 의미가 달라질 수 있는 공손함의 미묘한 차이를 반영할 수 있다. 실험 결과, 여러 설정에 거쳐 BERT 모델이 양 방향 LSTM 모델보다 더 우수함을 확인하였다. 또한, 발화가 구어체보다 문어체에 가까울 수록 딥러닝 모델의 성능이 더 좋은 것으로 나타났다. 제안된 두 가지 방법의 성능을 인간의 판단 능력과 비교해본 결과, 위키피디아 도메인에서 BERT 모델이 91.71%의 성능을 보여 인간의 정확도인 86.72%를 상회함을 확인하였다.

주제어: 공손함, 딥러닝, 기계학습, 분류 모델

1. 서론

공손함은 언어학에서 광범위하게 탐구된 주제 중 하나로, 인 간의 언어를 구성하는 핵심적인 요소 중 하나이다. Brown과 Levinson의 공손함에 관한 연구들 [1, 2]에서, 그들은 공손함을 인간 언어에서 가장 주목할 만한 현상이라고 언급하였다. 이 언어 현상의 가장 흥미로운 특성 중 하나는 비효율성과 광범 위성을 모두 갖추고 있다는 점이다. 공손함을 갖추기 위해서는 언어에 불필요한 요소가 추가되어 언어 전달의 효율이 떨어지 는데, 이는 일반적으로 효율성을 추구하는 언어의 특성과 상 반된다. 그럼에도 불구하고 공손함은 전세계 다양한 문화권에 걸쳐 광범위하게 나타나는, 인간 언어의 공통적인 요소 중 하 나이다.

Danescu 외 [3]는 최근 연구에서 기계학습 접근 방법을 이용 하여 공손함을 판단할 수 있음을 보임으로써 공손함 연구에 대 한 새로운 시각을 제시하였다. 그들은 Wikipedia와 Stack Ex- change에서 수집한 데이터를 기반으로 공손함을 태깅하여 각각 의 도메인에서 4,353건, 6,604건의 데이터를 구축하고, Support Vector Machine(SVM)을 이용한 분류 모델을 훈련시켰다. 또 한, 동일한 데이터에 대하여 사람의 정확도를 함께 제시하여 이 를 기계 학습 모델의 성능과 비교하였다. Bag-of-Words(BOW) 자질을 이용한 모델과 이에 언어학적 정보 자질이 추가된 모델 의 성능을 비교해본 결과, 언어학적 정보가 주어진 모델의 성능 이 더 높았지만 여전히 사람의 수준보다는 떨어짐을 확인하여

∗Corresponding author.

아직 연구의 여지가 많이 남았음을 보여주었다.

Daenscu 외의 연구의 가장 큰 한계는 사용된 기계학습 모 델이 단어의 순서와 문맥 정보를 반영하지 못한다는 점이다.

하지만 공손함은 단어들의 등장하는 형태론적 맥락에 민감한 것으로 알려져 있다. 예를 들어, ”제발”이라는 어절은 ”제발 한 번만 도와주세요.”라는 문장에서는 공손함을 향상시키는 역할 을 하지만, ”제발 조용히 좀 해줄래?”에서는 그 반대의 역할을 한다.

본 논문에서는 Danescu 외의 연구를 확장하여, 최신 딥러 닝 기술을 이용하여 공손함을 판단하는 모델을 구축한다. 앞서 언급된 선행 연구의 단점을 극복하기 위해서는 각 단어와 그 단어의 문맥 정보를 동시에 반영할 수 있는 모델을 선택하는 것이 중요하다. 따라서 본 연구는 양방향 Long Short-Term Memory(LSTM) 모델 [4]과 BERT 모델 [5]을 뼈대로 활용하 였다.

2. 모델

2.1 양방향 RNN을 이용한 문장 분류

문장 혹은 문서 분류와 같이 여러 단어들이 동시에 모델 입 력으로 주어지는 경우, 각 단어를 중심으로 이전 단어들과 이후 단어들이 문맥 정보를 구성하게 된다. 따라서 이러한 주변 단어 및 단어 순서 정보를 반영할 수 있는 모델은 분류를 더 효과적으 로 수행할 수 있을 것으로 기대할 수 있다. 양방향 회귀 신경망 (Recurrent Neural Network, RNN) [6]은 단어를 순차적으로 입력 받아 내부의 기억 구조를 활용하여 문맥 정보가 반영된

- 280 -

(2)

입력

_{t −1}

입력

_{t +1}

공손/불손 입력

_t

그림 1. 공손함 평가 모델 중 심층 양방향 LSTM의 구조도.

단어 표상을 생성한다. 본 연구에서는 RNN의 기억 구조를 보 강하여 장거리 의존성 문제를 해소한 LSTM을 기반으로 모델 을 구성하였다. 양방향성은 순방향 LSTM과 역방향 LSTM의 출력 값을 더하는 방법으로 구현하였다. 이후, 발화를 구성하 는 모든 단어들의 출력 벡터들에 대해 max-over-time pooling 방법을 적용하여 문장에 대한 표상 벡터를 생성한다. 이렇게 만들어진 문장 표상에 softmax 함수를 적용하여 공손함과 불 손함에 대한 확률 분포를 얻는다. 이 모델의 구조도는 그림 1 에 나타나 있다.

사전 학습된 단어 표상 대량의 비지도학습 말뭉치를 이용하 여 사전학습된 단어 벡터를 적용하면 여러 자연어처리 분야에 서 성능 향상을 이끌어낼 수 있는 것으로 다양한 연구에서 확 인되었다 [7, 8]. 본 연구에서는 Common Crawl 말뭉치의 420 억 단어로 사전학습된 300차원의 GloVe 벡터[9]를 단어 표상으 로 사용하였다. 학습 말뭉치에 등장하지 않은 단어는 Out-of- Vocabulary(OOV)로 대체되었으며, 이 벡터의 값도 학습될 수 있도록 훈련 시 단어를 0.01% 확률로 OOV로 대체하였다[10].

문자 단위 자질 문자 단위 자질을 활용하여 단어 표상을 보 강하는 방법은 OOV 단어에 대한 대응 능력을 키워주는 등 의 장점으로 인해 품사 부착, 개체명 인식 등 다양한 자연어처 리 분야에서 활용되고 있다. 최근에는 Convolutional Neural Network(CNN)이나 RNN을 이용하여 자동으로 문자 단위 자 질을 생성하는 방법이 많이 활용되는데, 이는 수작업으로 자 질을 생성할 필요 없이 종단간 학습으로 모델을 구성할 수 있 다는 장점이 있기 때문이다. 본 연구에서는 완전연결 신경망을 이용하여 빠르고 효과적으로 문자 단위 자질을 추출할 수 있 는 Char-Dense[11]를 이용하여 단어 표상을 보강한 후, 양방향 LSTM 모델의 입력으로 사용하였다.

2.2 BERT를 이용한 문장 분류

Bidirectional Encoder Representations from Transformers (BERT)는 사전 훈련된 모델로, 광범위한 자연어처리 시스템 에서 최신 성능을 보이는 매우 효과적인 모델이다. BERT의 가장 큰 특징은 사전 훈련이 비지도학습 방법으로 이루어진다 는 점으로, 방대한 양의 비지도 학습 말뭉치를 활용할 수 있다는 장점이 있다. 이러한 특징 덕분에 BERT는 학습 데이터가 부 족한 상황에서도 잘 작동하는, 데이터 효율성이 좋은 모델로 알려져 있다 [5].

딥러닝 기술이 도입된 이후로, 모델 학습에 필요한 데이터의 양은 기하급수적으로 증가하고 있다. 이에 따라, Danescu 외 (2013)의 연구에서 공손함 말뭉치를 공개할 당시에는 그 양이 충분하다고 여겨졌으나, 양방향 LSTM과 같은 오늘날의 딥러 닝 모델을 훈련시키기에는 그 양이 매우 부족한 것으로 볼 수 있다. 따라서 본 연구에서는 데이터가 부족한 상황에서도 효과 적으로 동작하는 BERT 모델에 대해서도 실험을 수행한다.

2.3 학습 방법

모든 모델들은 그 출력 값과 정답 값 사이의 cross-entropy 손실 함수를 최적화하는 방법으로 훈련시켰다. 파라미터 최 적화는 momentum이 반영된 경사 하강 알고리즘의 일종인 Adam[12]을 이용하였다. 또한, 모든 실험들은 TensorFlow[13]

라이브러리를 이용하여 구현 및 수행되었다.

3. 실험 설계 및 결과 분석

3.1 실험 설계

본 연구는 Danescu 외(2013)의 연구와 직접적으로 비교할 수 있도록 동일한 실험 설계를 사용한다. 따라서 모델의 최종 목표는 각각의 발화를 공손/불손으로 이진 분류하는 것이다.

지도학습 말뭉치는 Wikipedia 도메인의 경우 2,178건, Stack

- 281 -

(3)

exchange 도메인의 경우는 3,302건을 사용하였다. 각 말뭉치 는 데이터 구축 방법의 특성 상 공손한 발화와 불손한 발화가 동일한 비율로 포함되어 있다.

선행 연구에서 공개한 말뭉치에는 공손함이 태깅되어 있지 않은 더 많은 양의 비지도 학습 말뭉치가 포함되어 있다. 하지만 선행 연구와 공평한 성능 비교를 위해 본 연구에서도 해당 비 지도 학습 말뭉치는 활용하지 않았으며, 따라서 양방향 LSTM 모델의 파라미터는 모두 무작위로 초기화되었다. 이에 추가로, 사전 훈련된 단어 표현의 성능 비교를 위해서 GloVe 벡터로 단어 표현을 초기화한 양방향 LSTM 모델도 구현하여 성능 비 교에 사용하였다. 마지막으로, 최신 자연어처리 모델의 성능 평가를 위해 BERT 모델을 공손함 말뭉치로 추가학습 시킨 결 과도 함께 비교하였다.

3.2 결과 및 분석

표 1에 본 논문에서 제안한 모델들의 성능과 기존 연구에 서 제시된 성능이 비교 및 정리되어 있다. 전반적으로, 제안된 모델들은 Wikipedia 도메인에서 평가가 이루어진 경우에 성 능이 가장 좋은 것으로 나타났다. 특히, BERT를 기반으로 한 모델에 대해 해당 도메인에서 학습 및 평가가 모두 이루어졌을 때, 사람의 평가 능력보다 4.99% 더 높은 91.71%의 성능을 보 였다. Stack exchange 도메인에서 학습이 이루어진 경우에도 Wikipedia 도메인에서 평가가 이루어진 경우에는 기존 최신 모델인 Ling. SVM보다 5% 이상의 성능 향상을 보였다.

반면, 평가 도메인이 Stack exchange인 경우 제안된 모델들 모두 기존 연구의 SVM 기반 모델들보다 성능이 낮게 나타났 다. 학습 말뭉치에 대한 정성적 분석 결과, Stack exchange 도 메인에서 문체가 Wikipedia 도메인에서의 것보다 덜 격식을 차렸음을 알 수 있었다. 제안된 모델에서 사용된 GloVe 벡터 나 BERT 모델의 사전 학습에는 대량의 비지도 학습 말뭉치가 사용되는데, 대부분이 신문이나 Wikipedia와 같은 격식 있는 문체가 사용된 것들이다. GloVe나 BERT 기반 모델들이 격식 있는 문체가 평가에 대한 입력으로 주어졌을 때 더 성능이 높은 것으로 나타난 것은 이 때문인 것으로 추정된다. 해당 모델들 을 Stack exchange와 같은 비격식적인 문체의 말뭉치로 추가 학습시키면 이러한 문제를 해소시킬 수 있을 것으로 예상되나, 이는 사후 연구로 남겨둔다.

지도학습 말뭉치 외의 데이터가 전혀 사용되지 않은 순수 LSTM 모델(Char-Bi-LSTM w/o GloVe)은 제안된 모델들 중 가장 성능이 낮을 뿐만 아니라, 기존 연구의 SVM 기반 모델들 보다도 열등한 것으로 나타났다. 학습에 사용할 수 있는 말뭉치 의 양이 매우 적기 때문에, 해당 모델은 다양한 정규화 기법의 적용에도 불구하고 과적합 문제가 심각하게 나타났다. 이는 수 천 건 수준의 지도학습 말뭉치는 오늘날의 딥러닝 모델들을

In-domain Cross-domain 학습 데이터 Wiki SE Wiki SE 평가 데이터 Wiki SE SE Wiki

Danescu 외 (2013)

BOW SVM 79.84 74.47 64.23 72.17 Ling. SVM 83.79 78.19 67.53 75.43 사람 86.72 80.89 80.89 86.72

본 연구

Char-Bi-LSTM

w\o GloVe 79.26 59.70 60.51 64.19 Char-Bi-LSTM

w\GloVe 85.71 64.24 63.29 69.10 BERT 91.71 68.79 66.78 80.49

표 1. 본 논문에서 제안된 모델들의 정확도(%) 및 기존 선행 연구에서 제시된 수치들과의 비교.

훈련시키기에 부족한 양이라는 가정을 뒷받침한다.

본 실험 결과를 바탕으로 얻을 수 있는 결론은 다음과 같이 요약할 수 있다. 첫째, 비지도학습 방법을 결합하는 것은 대부분 성능 향상으로 이어지기 때문에 가능하면 사용하는 것이 좋다.

둘째, 오늘날의 사전 학습 방법은 지도학습 도메인이 사전학습 도메인과 다를 경우 효과가 떨어진다. 마지막으로, 지도학습을 위한 말뭉치의 양이 적을 때는 오늘날의 딥러닝 모델보다 SVM 과 같은 기존의 기계 학습 방법들의 성능이 더 좋을 수 있다.

4. 결론

본 연구에서는 Danescu 외(2013)의 연구에 대한 분석 및 한 계점을 바탕으로 발화의 공손함을 판단할 수 있는 딥러닝 기반 모델을 제안 및 실험하였다. 기존 연구에서 사용된 모델인 SVM 은 단어의 순서 및 문맥 정보를 반영하지 못한다는 한계에 착 안하여, 문장 단위로 단어 벡터를 생성할 수 있는 최신 딥러닝 모델인 양방향 LSTM과 BERT를 이용하여 공손함 판단 모델을 구축하였다. 실험 결과, Wikipedia 도메인에서 평가가 이루어 진 경우에는 딥러닝 모델들이 우수한 성능을 발휘하지만, Stack exchange 도메인에서는 기존의 SVM 기반 모델보다 성능이 낮 음을 확인하였다. 이는 학습 도메인과 평가 도메인의 불일치 및 지도학습 말뭉치의 결핍이 그 원인인 것으로 추정된다.

향후 연구로는, Stack exchange 도메인에서 비지도학습 말 뭉치를 수집하여 BERT 등의 딥러닝 모델을 사전훈련 시킨 후 해당 도메인에서 평가 시 성능 변화를 분석할 것이다. 이는 본 연구에서 확인한 성능의 하락이 도메인 불일치 문제로 인한 것인지 확인하기 위한 절차이다. 도메인 변화에 영향을 덜 받 는 사전훈련 기술의 개발도 흥미로운 연구 주제가 될 것으로 기대한다.

- 282 -

(4)

감사의 글

본 연구는 과학기술정보통신부 및 정보통신기술진흥센터의 대학ICT연구센터지원사업의 연구결과로 수행되었음 (IITP- 2018-0-01405).

이 논문은 2017년도 정부(미래창조과학부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No.NRF- 2017M3C4A7068189).

참고문헌

[1] P. Brown and S. C. Levinson, “Universals in language usage: Politeness phenomena,” Questions and politeness: Strategies in social interaction, pp. 56–311, 1978.

[2] P. Brown, S. C. Levinson, and S. C. Levinson, Polite- ness: Some universals in language usage. Cambridge university press, 1987, Vol. 4.

[3] C. Danescu-Niculescu-Mizil, M. Sudhof, D. Jurafsky, J. Leskovec, and C. Potts, “A computational approach to politeness with application to social factors,” arXiv preprint arXiv:1306.6078, 2013.

[4] M. Schuster and K. K. Paliwal, “Bidirectional recurrent neural networks,” IEEE Transactions on Signal Pro- cessing, Vol. 45, No. 11, pp. 2673–2681, 1997.

[5] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,

“Bert: Pre-training of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.

[6] A. Graves and J. Schmidhuber, “Framewise phoneme classification with bidirectional lstm and other neural network architectures,” Neural networks, Vol. 18, No.

5-6, pp. 602–610, 2005.

[7] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Ef- ficient estimation of word representations in vector space,” arXiv preprint arXiv:1301.3781, 2013.

[8] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” Advances in neural information processing systems, pp. 3111–3119, 2013.

[9] J. Pennington, R. Socher, and C. Manning, “Glove:

Global vectors for word representation,” Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pp. 1532–1543, 2014.

[10] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami, and C. Dyer, “Neural architec-

tures for named entity recognition,” arXiv preprint arXiv:1603.01360, 2016.

[11] C. Lee, Y.-B. Kim, D. Lee, and H. Lim, “Character-level feature extraction with densely connected networks,”

Proceedings of the 27th International Conference on Computational Linguistics, pp. 3228–3239, 2018.

[12] D. P. Kingma and J. Ba, “Adam: A method for stochas- tic optimization,” arXiv preprint arXiv:1412.6980, 2014.

[13] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin et al., “Tensorflow: Large-scale machine learning on heterogeneous distributed systems,” arXiv preprint arXiv:1603.04467, 2016.

Predicting the Politeness of an Utterance with Deep Learning

딥러닝 방법을 이용한 발화의 공손함 판단

Predicting the Politeness of an Utterance with Deep Learning

1. 서론

2. 모델

- 280 -

t −1

t +1

t

3. 실험 설계 및 결과 분석

- 281 -

4. 결론

- 282 -

감사의 글

참고문헌

- 283 -

_{t −1}

_{t +1}

_t