Measuring Similarity of Korean Sentences based on BERT

(1)

BERT 기반 한국어 문장의 유사도 측정 방법

현종환

^◦

, 최호진 한국과학기술원 전산학부

{jonghwanhyeon,hojinc}@kaist.ac.kr

Measuring Similarity of Korean Sentences based on BERT

Jonghwan Hyeon

^◦

, Ho-Jin Choi School of Computing, KAIST

요 약

자연어 문장의 자동 평가는 생성된 문장과 정답 문장을 자동으로 비교 및 평가하여, 두 문장 사이의 의미 유사도를 측정하는 기술이다. 이러한 자연어 문장 자동 평가는 기계 번역, 자연어 요약, 패러프레이징 등의 분야에서 자연어 생성 모델의 성능을 평가하는데 활용될 수 있다. 기존 자연어 문장의 유사도 측정 방법은 n-gram 기반의 문자열 비교를 수행하여 유사도를 산출한다. 이러한 방식은 계산 과정이 매우 간단하지만, 자연어의 다양한 특성을 반영할 수 없다.

본 논문에서는 BERT를 활용한 한국어 문장의 유사도 측정 방법을 제안하며, 이를 위해 ETRI에서 한국어 말뭉치를 대상으로 사전 학습하여 공개한 어절 단위의 KorBERT를 활용한다. 그 결과, 기존 자연어 문장의 유사도 평가 방법과 비교했을 때, 약 13%의 성능 향상을 확인할 수 있었다.

주제어: BERT, KorBERT, 한국어 문장의 유사도 측정

1. 서론

자연어 문장의 자동 평가는 생성된 문장과 정답 문장을 자동 으로 비교 및 평가하여, 두 문장 사이의 의미 유사도를 측정하는 기술이다. 이러한 자연어 문장 자동 평가는 기계 번역, 자연어 요약, 패러프레이징 등의 분야에서 자연어 생성 모델의 성능을 평가하는데 활용될 수 있다.

기존 자연어 문장의 유사도 측정 방법은 n-gram 기반의 문자 열 비교[1, 2, 3]를 수행하여 유사도를 산출한다. 이러한 방식은 계산 과정이 매우 간단하다는 장점이 있지만, 자연어의 다양한 특성을 반영할 수 없다는 단점이 있다. 예를 들어, n-gram 기반 의 문자열 비교는 유의어나, 문장 내 어순의 변화를 유사도에 반영할 수 없다.

한편, 최근 다양한 자연어 처리 분야에서 높은 성능 을 보여준 Bidirectional Encoder Representations from Transformers (BERT)[4]는 Self-attention 기반의 트랜스포머 (Transformer)[5]와 Masked Language Model을 활용하여 기 존 언어 모델의 단점을 개선하였다. Self-attention 기반의 트랜 스포머는 집중 메커니즘(Attention Mechanism)을 활용하여, 기존 순환 신경망이 입력 길이가 길어질 수록 정보를 손실하던 문제를 해결하였으며, 항상 정보가 한 방향으로만 흐르던 기 존의 언어 모델과 달리, Masked Language Model은 문장 내 단어가 양방향의 정보를 활용할 수 있도록 하였다.

본 논문에서는 BERT를 활용한 한국어 문장의 유사도 측정 방법을 제안하며, 이를 위해 ETRI에서 한국어 말뭉치를 대상 으로 사전 학습하여 공개한 어절 단위의 KorBERT를 활용한

다. 그 결과, 기존 자연어 문장의 유사도 평가 방법과 비교했을 때, 약 13%의 성능 향상을 확인할 수 있었다.

2. BERT 기반 한국어 문장의 유사도 측정

주어진 한국어 정답 문장 x와 한국어 생성 문장ˆx에 대하여, 본 논문에서는 BERT를 기반으로 문장의 문맥을 고려한 임베딩 (Contextual Embedding)을 각 단어마다 추출하고, 해당 임베 딩 사이의 코사인 유사도를 계산하여 한국어 문장의 유사도를 측정한다.

2.1 문장의 문맥을 고려한 임베딩

본 논문에서는 BERT를 활용하여, 문장의 문맥을 고려한 임 베딩을 각 단어 조각[6]마다 추출한다. BERT는 문맥을 고려하 여 단어 조각의 임베딩을 계산하기 때문에, 같은 단어라도 입력 문장에 따라 다른 임베딩 벡터가 반환되며, 이를 활용하여 두 문장 사이의 의미적 유사도를 측정할 수 있다.

이를 수행하기 위해, 본 논문에서는 BERT 모델을 사용하여 입력 문장을 단어 조각으로 분리한다. 그 후, 해당 단어 조각을 BERT 모델로 입력한다. BERT 모델은 다수의 트랜스포머 계 층이 쌓인 형태이기 때문에, 각 계층마다 단어 조각을 나타내는 임베딩 벡터의 추출이 가능하다. 본 논문에서는 KorBERT 모 델의 총 12개 계층 중, 8번째 계층에서 반환한 임베딩 벡터를 유사도 계산에 사용한다. 이는 실험 결과, 8번째 계층의 임베딩 벡터가 가장 높은 성능을 보였기 때문이다.

n개의 단어 조각으로 분해된 정답 문장 (x

1

, x

2

, . . . , x

n

)이 주어졌을 때, BERT 모델은 n개의 임베딩 (x

1

, x

2

, . . . , x

n

)을

(2)

번호 정답 문장 후보 문장 평가자 1 평가자 2 303 SK텔레콤은 양자기술연구소인 퀀텀테크랩의

현물출자 등 모든 인수절차를 올해 상반기 내 마무리할 방침이다.

추가로 SK텔레콤 양자기술연구소 (퀀텀테크랩)의 현물출자를 진행하는 등 모든

인수 절차를 상반기 마무리할 예정이다.

6 5

1735 2017년 매출액과 영업이익은 각각 1170억원 84억원이다

2016년 매출액 영업이익 당기순이익은 각각 132억원 243억원 261억원이었다

3 3

4843 갤럭시 S9 S9 는 한번의 셀피 촬영으로 사용자와 꼭 닮은 이모지를 만들어 주는

기능도 제공한다

갤럭시S9은 슈퍼 슬로모션 AR 이모지 저조도 촬영이 개선된 카메라 기능으로

주목을 끌었다

2 2

5551 이 회사는동차용 배터리에서부터 향후 수요 변화에 따라나타날 다양한 배터리를 계획

중이다

배터리 성능도 지속 발전시켜 배터리 걱정이 필요 없는 수준으로 만든다는 목표다

1 1

표 1. 페러프레이징 평가 데이터셋 예시

생성한다. 마찬가지로, m개의 단어 조각으로 분해된 생성 문 장 (ˆx

₁

, ˆx

₂

, . . . , ˆx

_m

) 또한 m개의 임베딩 (ˆx

₁

, ˆx

₂

, . . . , ˆx

_m

)으로 변환된다.

2.2 단어 조각 사이 유사도 계산

단어 조각의 임베딩은 실수 벡터 형태로 표현되기 때문에, 코사인 유사도를 계산하여 각 단어 조각 사이의 유사도 측정 이 가능하다. 그림 1과 같이, 본 논문에서는 정답 문장 내 단어 조각과 생성 문장 내 단어 조각 사이 모든 쌍에 대하여 코사인 유사도를 계산한다. BERT 모델은 문장의 문맥을 고려하여 각 단어 조각의 임베딩을 계산하기 때문에, 해당 유사도는 각 단어 조각 사이의 의미적 유사도를 나타낸다.

그림 1. 단어 조각 사이 유사도 계산

2.3 유사 단어 조각 선택

본 논문에서는 2.2절에서 계산한 각 단어 조각 사이 유사 도로부터, 유사한 두 단어 조각을 선택하기 위해 탐욕적 매칭 (Greedy Matching)을 사용한다. 그 후, 선택된 유사도의 평균 을 계산하여 정밀도 (Precision) 및 재현율 (Recall)을 산출한 다. 이 때, 그림2와 같이 정밀도는 생성 문장을 따라, 재현율은 정답 문장을 따라 탐욕적 매칭을 수행한다.

탐욕적 매칭을 사용하여 정밀도 및 재현율을 계산하는 식은

(a) 정밀도 (b) 재현율

그림 2. 탐욕적 매칭 기반 유사한 두 단어 조각 선택

다음과 같으며, 이 둘의 조화 평균으로 F

1

점수를 산출한다.

Precision = P

ˆ

x

_i

∈ˆ x

max

x

_j

∈x

similarity(ˆx

j

, x

i

)

|ˆx|

Recall = P

x

_j

∈x

max

_ˆ _x

_i

_∈ˆ _x

similarity(x

_i

, ˆx

_j

)

|x|

3. 실험 및 결과

3.1 KorBERT 모델

본 논문에서는 ETRI에서 23GB 분량의 한국어 말뭉치 대 상으로 학습하여 공개한 KorBERT 모델을 사용하여 실험을 수행하였다. 해당 KorBERT 모델은 어절 단위 모델과 형태소 단위 모델로 구성되는데, 본 논문에서는 어절 단위 모델을 사 용하였다.

3.2 패러프레이징 평가 데이터셋

본 논문은 표 1과 같이 패러프레이징 평가를 목적으로 구 축된 한국어 데이터셋을 활용하여 제시한 자연어 유사도 측정 방법을 평가하였다. 해당 데이터셋은 동일한 주제의 두 뉴스

(3)

기사로부터 추출한 두 문장 쌍으로 구성되어 있으며, 0부터 6 점의 리커트 척도를 사용하여 두 명의 평가자가 두 문장 사이 유사도를 평가하였다.

평가 결과에 대한 두 평가자의 일치도를 확인할 수 있는 Kappa 계수[7]는 0.4922를 보였다. 본 논문에서는 평가 결과 내 각 평가자의 편향(Bias)을 제거하기 위해, 평가 점수를 정규 분포 기반의 표준 점수로 변환하여 활용하였다.

본 논문에서는 유사도 측정 방법의 성능 평가 기준으로 사람 의 수동 평가 결과와의 피어슨 상관 계수를 사용하였다. 이를 통해, 유사도 측정 방법과 사람의 수동 평가 방법 사이 일치 여부를 확인하였다.

또한, 제안한 유사도 측정 방법과의 성능을 비교할 수 있도 록, 기존에 자연 언어 처리 분야에서 활용되고 있는 BLEU[1], GLEU[2], TER[8], CHRF[3]를 사용하여 유사도 측정 및 상관 관계 분석을 수행하였다.

표 2. 수동 평가 결과와 측정한 유사도 사이 피어슨 상관 계수 유사도 측정 방법 피어슨 상관 계수

BLEU 0.7201

GLEU 0.7553

TER -0.5274

CHRF 0.7746

BERT - Precision 0.7867 BERT - Recall 0.7888 BERT - F

₁

0.8107

표 2는 사람의 수동 평가 결과와 측정한 유사도 사이 피어슨 상관 계수를 보여준다. 유사도 측정 방법 중, 본 논문에서 제안 한 BERT - F

1

은 다른 유사도 측정 방법과 비교했을 때, 가장 높은 피어슨 상관 계수를 기록하였다. 특히, BERT 기반의 유 사도 측정 방벙은 정밀도와 재현도만 고려한 경우에도 기존의 유사도 측정 방법보다 높은 성능을 보여주었다.

또한, 본 논문에서는 BERT 모델 내 계층에 따른 피어슨 상관 계수의 변화도 분석하였다. 표 3을 참조하면, 8번째 계층에서 출력된 임베딩 벡터를 유사도 측정에 사용할 경우 가장 높은 성능을 확인할 수 있었다.

표 4는 자연어 문장 자동 평가 결과의 예시를 보여준다. 기 존 n-gram 기반 자연어 문장 평가 방법은 정답 문장과 후보 문장 내 사용된 단어나 어순의 변화, 즉 문장의 표층형에 매우 민감함을 확인할 수 있다. 하지만, BERT 기반의 자연어 문장 평가는 문장의 표층형 보다, 문장의 실제 의미를 평가에 반영 함을 확인할 수 있었다.

표 3. BERT 모델 내 계층에 따른 피어슨 상관 계수 계층 Precision Recall F

1

1 0.7697 0.7703 0.7957 2 0.7740 0.7744 0.7992 3 0.7789 0.7798 0.8027 4 0.7812 0.7827 0.8036 5 0.7820 0.7837 0.8046 6 0.7856 0.7875 0.8075 7 0.7867 0.7886 0.8094 8 0.7867 0.7888 0.8107 9 0.7816 0.7821 0.8057 10 0.7633 0.7622 0.7906 11 0.7488 0.7479 0.7793 12 0.7781 0.7770 0.7999

4. 결론

본 논문에서는 두 자연어 문장을 자동으로 비교 평가하기 위 해 BERT 기반의 유사도 측정 방법을 제안하였다. 기존 자연어 문장의 유사도 측정 방법은 n-gram 기반의 문자열 비교를 수 행하여, 자연어의 다양한 특성을 반영할 수 없다는 문제점이 있었다. 본 논문에서는 문장의 문맥을 고려하여 임베딩 벡터 를 산출할 수 있는 BERT를 활용하여 문장 사이 유사도를 측 정하는 방법을 제시하였다. 한국어 말뭉치를 대상으로 학습된 KorBERT를 사용하여 평가를 수행한 결과, 기존 n-gram 기반 유사도 측정 방법과 비교하였을 때, 최소 5%에서 최대 13%의 성능 향상을 확인할 수 있었다.

감사의 글

이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No.2013- 2-00131, 휴먼 지식증강 서비스를 위한 지능진화형 Wise QA 플랫폼 기술 개발). 본 연구는 한국전력공사의 2018년 착수 에너지 거점대학 클러스터 사업에 의해 지원되었음 (과제번 호:R18XA05)

참고문헌

[1] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a method for automatic evaluation of machine translation,”

Proceedings of the 40th annual meeting on association for computational linguistics, pp. 311–318, 2002.

[2] A. Mutton, M. Dras, S. Wan, and R. Dale, “Gleu: Au- tomatic evaluation of sentence-level fluency,” Proceedings

(4)

번호 정답 문장 후보 문장 수동 평가 BLEU GLEU TER CHRF BERT 0 남성은 50%가 블랙

색상을, 여성은 60%가 퍼플 색상을 선택했다.

남성은 50%가 블랙, 여성은 60%가 퍼플 색상을

선택했다.

1.0000 0.7214 0.7317 0.1818 0.8284 0.9319

46 먼저 인터넷 웹서핑과 애플리케이션 스토어를

차단했다.

우선 인터넷 웹서핑과 앱 (응용프로그램) 스토어를

차단했다.

1.0000 0.4661 0.4848 0.4375 0.6062 0.7933

48 이번 약사 국가시험에서는 전체 2017명의 응시자 중 1839명이 합격해 91.2%의

합격률을 보였다.

이번 약사시험 합격률은 91.2%로 전체 응시자 2017

명 가운데 1839명이 합격했다.

1.0000 0.3222 0.3860 0.5667 0.4378 0.7855

55 색상은 블랙과 골드 2 가지다

색상은 블랙과 골드 두 가지다

1.0000 0.6606 0.7000 0.1111 0.7298 0.9761

1048 안개 효과 역시 불편함을 주지 않을 정도로 걷어냈다

시야와 함께 다소 불편함을 유발했던 안개효과 역시 조정됐다

0.6667 0.0000 0.1207 1.0000 0.3102 0.4781

1068 에넥스텔레콤이 12일 알뜰폰 최초 DIY 요금제인 내맘대로 요금제

를 출시한다

에넥스텔레콤은 내맘대로 요금제 를 12일 정식

출시한다

0.6667 0.2869 0.3404 0.5600 0.4623 0.6748

3006 LG전자는 이번 MWC에서 보급형 스마트폰인 2018

년형 K시리즈를 처음 공개했다

LG전자는 이번 MWC에서 프리미엄 스마트폰에 이어 차별화된 카메라 기능의 실속형 스마트폰 2018년형

K시리즈 선보인다

0.4885 0.2809 0.2982 0.9500 0.5788 0.6305

5964 이는 미국 정부가 급부상하는 중국 스마트폰의 영향력에 대해

경계심을 높이고 있기 때문이다.

정부는 미국의 세이프가드 최종조치가 과도한 수준으로 결정된 데 대해

유감을 표명했다.

0.1667 0.0000 0.0233 1.1000 0.1432 0.2777

5965 소니와 파나소닉 두 일본 업체의 점유율이 65%에

달했다.

겉만 봐서는 한국과 중국 업체의 활약이 두드러졌다.

0.1667 0.0000 0.0513 0.8571 0.1526 0.3077

6002 그러면서 “대신 저는 메달을 목에 걸어 봐도 되냐”고 물었고 김아랑은

흔쾌히 승낙했다.

그럼에도 뮤지컬을 고집하는 이유를 묻자 그는

“무대가 애증의 관계가 됐다”고 명쾌하게 답했다.

0.0891 0.0000 0.0526 0.9655 0.1329 0.2887

6096 육지부문

수산자원보호구역을 해제 (2008년)하고 관광단지로 지정(2011년)받는 데만 10

년가량이 걸렸다.

이국종 교수는 지난 2011 년 소말리아 해적의 총격을 받은 석해균 선장을 치료했다.

0.0000 0.0000 0.0154 0.9412 0.1121 0.0978

표 4. 자연어 문장 자동 평가 결과 예시

(5)

of the 45th Annual Meeting of the Association of Com- putational Linguistics, pp. 344–351, 2007.

[3] M. Popovi´c, “chrf: character n-gram f-score for automatic mt evaluation,” Proceedings of the Tenth Workshop on Statistical Machine Translation, pp. 392–395, 2015.

[4] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,

“Bert: Pre-training of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.

[5] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin,

“Attention is all you need,” Advances in neural informa- tion processing systems, pp. 5998–6008, 2017.

[6] Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey et al., “Google’s neural machine translation system:

Bridging the gap between human and machine translation,” arXiv preprint arXiv:1609.08144, 2016.

[7] M. L. McHugh, “Interrater reliability: the kappa statis- tic,” Biochemia medica: Biochemia medica, Vol. 22, No. 3, pp. 276–282, 2012.

[8] M. Snover, B. Dorr, R. Schwartz, L. Micciulla, and J. Makhoul, “A study of translation edit rate with tar- geted human annotation,” Proceedings of association for machine translation in the Americas, Vol. 200, No. 6, 2006.