Calibration of Pre-trained Language Model for Korean

(1)

사전 학습된 한국어 언어 모델의 보정

정소영

^◦

, 양원석, 박채훈, 박종철

^∗

한국과학기술원 전산학부

{syjeong, derrick0511, ddehun, park}@nlp.kaist.ac.kr

Calibration of Pre-trained Language Model for Korean

Soyeong Jeong

^◦

, Wonsuk Yang, ChaeHun Park, Jong C. Park

^∗

KAIST, School of Computing

요 약

인공 신경망을 통한 심층 학습 모델의 발전은 컴퓨터 비전, 자연언어 이해 문제들에서 인간을 뛰어넘는 성능을 보이고 있다. 특히 트랜스포머[1] 기반의 사전 학습 모델은 질의응답, 대화문과 같은 자연언어 이해 문제에서 최근 높은 성능을 보이고 있다. 하지만 트랜스포머 기반의 모델과 같은 심층 학습 모델의 급격한 발전 양상에 비해, 이의 동작 방식은 상대적으로 잘 알려져 있지 않다. 인공 신경망을 통한 심층 학습 모델을 해석하는 방법으로 모델의 예측 값과 실제 값이 얼마나 일치하는지를 측정하는 모델의 보정(Calibration)이 있다. 본 연구는 한국어 기반의 심층학습 모델의 해석을 위해 모델의 보정을 수행하였다. 그리고 사전 학습된 한국어 언어 모델이 문장이 내포하는 애매성을 잘 파악하는지의 여부를 확인하고, 완화 기법들을 적용하여 문장의 애매성을 확신 수준을 통해 정량적으로 출력할 수 있도록 하였다.

또한 한국어의 문법적 특징으로 인한 문장의 의미 변화를 모델 보정 관점에서 평가하여 한국어의 문법적 특징을 심층 학습 언어 모델이 잘 이해하고 있는지를 정량적으로 확인하였다.

주제어: 언어 모델, 애매성, 모델의 보정(Calibration), 보조사, 부사, 매우, 약간

1. 서론

인공 신경망을 이용한 심층 학습 모델의 작동 방식을 이해하 고 모델에 의해 출력된 결과를 해석하는 것은 매우 중요한 문제 이다. 모델의 예측 값이 어떻게, 무엇을 근거로 그러한 결과가 나왔는가에 대한 분석은 인공 신경망이 실생활에서 사용될 때 특히 큰 중요성을 갖는다[2, 3, 4, 5]. 특정 인공 신경망 모델 이 스스로 예측한 결과에 자신하는 정도(Confidence, 이후에는 표현의 자연스러움을 위해 ‘확신의 수준’으로 의역함)를 함께 분석하는 것이 모델의 해석에 도움을 준다. 또한 확신의 수준 이 실제 모델의 예측 정확도와 일치하도록 확신의 수준을 보정 (Calibration)하는 것이 필요하다[3]. 본 연구팀은 사전 학습된 한국어 언어 모델이 예측 문제를 수행할 때 애매한 의미를 내포 하는 문장에 대해 애매성을 잘 파악하는지의 여부를 실험적으 로 확인한 후, 완화 기법들을 적용하여 문장이 가진 애매성을 확신의 수준을 통해 명확하게 나타낼 수 있도록 모델을 보정 한다. 실생활에서 확신 수준을 보정하는 것의 필요성 보여주는 사례에 대한 개념적인 설명은 다음과 같다. 우울증을 진단하는 상황에서, 우울증이 아니라고 진단했지만 실제로 우울증일 경 우도 존재하므로 전적으로 모델의 예측에만 근거하여 치료에 대한 결정을 하기 힘들다. 이때 모델의 확신 수준이 도움이 될 수 있다. 모델의 확신 수준이 특별히 낮은 경우에 많은 전문가가 투입되어 재검토를 수행할 수 있으므로 제한된 전문가 인력이 보다 효율적으로 진단 과정에 투입되는 것이 가능하다.

*Corresponding author

그림 1. 모델의 확신 수준과 예측 정확도에 대한 개념도. 모 델 1과 모델 2의 예측 정확도는 0.75로 같지만 각 모델의 확신 수준의 평균은 각각 0.98과 0.83이다. 특히 모델 2는 의미에 애 매성을 내포하는 두 번째 문장과 세 번째 문장에 대해 모델 1 보다 낮은 확신 수준을 나타내어 애매성을 보다 잘 파악하므로 모델 1보다 합리적인 예측을 한다고 판단할 수 있다.

수학적으로 살펴보면, 모델의 보정은 모델이 ‘X’라는 확률로 긍정 값을 예측한 결과들의 집합을 검토하였을 때 모델의 예측 이 맞을 확률이 실제로 ‘X’가 되도록 하는 것이다. 모델의 확신 수준에 대한 구체적인 설명에 있어, 그림 1은 문장 “특수 효과 몇 개가 훌륭”에 보조사나 부사에 변화를 준 문장들에 대한 모 델 1과 모델 2의 예측을 나타낸 개념도이다. 모델 1과 모델 2 의 정확도는 모두 0.75로 같다. 하지만 두 모델의 확신 수준의 평균은 각각 0.98과 0.83으로 모델 2가 모델 1보다 잘 보정된 모델이다. 특히 모델 2는 “특수 효과 몇 개는 훌륭”이라는 문장 에서 보조사 ‘는’이 가지는 의미의 애매성을 이해하여 인간의 언어학적 직관과 비슷한 보다 합리적인 예측을 한다.

(2)

자연언어가 갖는 본래의 구문적 특징에 따른 모델의 예측 분포와 실제 값의 확률 분포가 가지는 관계의 양상은 모델을 해석하는 데 도움이 된다. 이에 있어, 본 연구는 한국어 데이 터에 대한 예측 모델의 확신의 수준에 따른 보정을 분석한다.

구체적으로, 표지 완화(Label Smoothing) [6]와 온도 규모 지 정(Temperature Scaling) [3]과 같은 완화(Smoothing) 방법을 활용하여 모델의 잘못된 확신의 수준을 보정한다. 또한 한국어 의 문법적 특징인 보조사와 부사로 인한 문장의 의미 변화를 모델의 보정 관점에서 정량적으로 분석한다. 본 연구는 이러한 영향을 분석함에 있어 보편적 대상에 적용 분석하는 것이 추후 활용에 용이할 것으로 보았고, 이에 현재 사전 학습된 언어 모 델로 활발하게 사용되는 SKTBrain 그룹의 KoBERT

¹

모델을 NSMC(Naver Sentiment Movie Corpus)

²

데이터 셋에 대해 보정하는 실험을 수행하였다. 결과적으로 보조사와 특정 부사 (매우 와 약간 )에 따라 보정의 차이를 보였으며 이는 언어학적 직관과 일치한다는 실험 결과를 얻었다. 본 연구팀은 이러한 일치 사례를 KoBERT 모델의 출력 결과가 인간의 언어학적 직관과 일치하는 하나의 경험적 사례라 판단하며, 이는 보조사 및 특정 부사(매우 와 약간 ) 관련한 최초의 사례라고 판단한다.

본 연구의 기여점을 요약하면 다음과 같다:

• 사전 학습된 한국어 언어 모델이 문장이 내포하는 애매성을 잘 파악하는지의 여부를 실험적으로 확인했으며, 완화 기법 들을 적용하여 문장의 애매성을 확신의 수준을 통해 명시할 수 있도록 모델을 보정하였다.

• 사전 학습된 한국어 언어 모델이 한국어의 언어학적 특징 을 잘 반영하는지 알아보기 위해, 관련된 데이터 셋의 생성 방법을 제안, 주석 후 공개하였다.

• 생성한 데이터 셋을 통해, 사전 학습된 한국어 언어 모델이 한국어의 언어학적 특징을 뚜렷이 반영하고 있다는 것을 3 개의 모델과 5개의 실험을 통해 밝혔다.

2. 관련 연구

심층 학습 모델의 보정 Guo 외는 최근 심층 학습 모델은 보정 이 잘되지 않으며 예측 결과에 대해 과신한다는 문제점을 지적 했다[3]. Feng 외는 자율 주행 연구에서 모델의 보정 중요성과 보정 오류를 줄이는 세 가지 방법들을 제안했다[4]. Thiagara- jan 외는 헬스케어 인공지능에서 모델의 보정을 통해 모델의 신뢰성을 보일 수 있다고 제안했다[5]. Desai 외는 사전 학습된 BERT [7] 모델과 RoBERTa [8] 모델의 상식 추론, 자연언어 추론, 의역 감지 문제들에 대한 보정을 측정했다[9]. Wang 외는 번역 문제에 대해 학습과 추론 간의 차이 때문에 모델의 보정이 잘 이루어지지 않는다고 밝혔다[10].

1https://github.com/SKTBrain/KoBERT

2https://github.com/e9t/nsmc

표 1. 표지 완화(Label Smoothing)와 온도 규모 지정(Temper- ature Scaling)을 사용하여 5만 개의 NSMC 원본 평가 데이터 에 대한 ECE를 측정하였다.

Accuracy Confidence ECE Baseline .89 .95 5.60 Temp. Scaling .89 .91 1.33 Label Smoothing .89 .87 4.96

이전의 관련 연구들은 영어 데이터 셋에 대한 보정 방법과 중요성을 연구했다. 하지만, 영어와 다른 특성을 가지고 있는 한국어 데이터 셋에 대해서는 이러한 보정 연구가 매우 부족하 다. 본 연구는 한국어 데이터 셋을 통해 한국어의 특성이 모델의 확신 수준에 미치는 영향을 분석했다.

보조사와 부사 ‘매우’, ‘약간’ 박기덕에 따르면 표면에 드러 나지 않는 내포문을 보조사의 전제라 하며 ‘은/는’은 대조를 이루는 전제, ‘도’는 포괄적으로 포함시키는 전제, ‘만’은 다른 것을 제외하는 배타 의미의 전제를 가진다[11]. 김혜영에 따르 면 보조사는 강조의 의미를 함께 지니기도 하는데, 일반적인 보 조사와 다르게 강조의 의미를 가지는 보조사는 생략됐을 때 비 문법적인 문장을 생성하지는 않지만 문장의 의미가 변한다[12].

최련에 따르면 한국어 구어에서 발화가 긍정적인 의미를 가지 는지 혹은 부정적인 의미를 가지는지에 따라 정도부사가 사용 되는 양상이 다르다[13].

반면 이전 연구들은 한국어에서 특별한 의미를 가지는 문법 적 특징에 대해 정량적으로는 분석하지 않았다. 본 연구는 모 델의 예측을 통해 보조사와 부사가 문장의 의미에 주는 영향을 정량적으로 분석한다.

3. 방법론

3.1 모델의 보정

분류 문제를 푸는 일반적인 모델은 주어진 입력이 각 클래스 에 속할 점수를 예측하며, 이는 소프트맥스(Softmax) 함수를 통해 0에서 1 사이의 확률 값으로 정규화된다. 하지만, 이 예 측 값이 반드시 실제 값과 같을 확률을 나타내는 것은 아니다.

예를 들어, 100개의 예측 값이 있고 각 예측 값의 확신 수준이 0.8일 때, 반드시 100개 중 80개가 실제로 옳은 예측 값이라는 의미는 아니다. 하지만 앞서 서론에서 언급한 것과 같이 이와 같은 의미를 갖는 것은 모델을 해석하는 과정에 중요하다. 이를 위해서는 확신 수준과 정확도 간의 차이가 없어야 하며 이때의 모델은 완벽히 보정된 것이다. 하지만 모델의 예측 값인 ˆp

i

는 연속형 변수이기에 모델을 완벽히 보정하는 것은 사실상 불가 능하므로, 비닝(Binning) 을 통한 근사가 필요하다.

(3)

표 2. 각 범주의 문장들에 있어 새롭게 전문가가 주석한 주석 결과를 기준으로 수행한 실험 결과. KoBERT 모델에 완화 기법 들을 적용하지 않은 경우(Vanilla)와 표지 완화(Label Smoothing)와 온도 규모 지정(Temperature Scaling)을 적용한 경우를 비교하였다. ECE가 낮을수록 보정이 잘 되었다는 것을 의미하며 가장 낮은 ECE를 굵은 글씨로 강조하였다.

Vanilla Label Smoothing (α = 0.1) Temperature Scaling (T = 1.63) Category # Sent. Accuracy Confidence ECE Accuracy Confidence ECE Accuracy Confidence ECE

가/을/이 100 .91 .93 5.25 .90 .86 7.77 .91 .88 3.12

만 100 .84 .96 12.79 .84 .87 6.33 .84 .91 8.90

은/는 100 .63 .87 30.64 .59 .80 22.77 .63 .81 23.88

도 100 .91 .96 8.03 .88 .87 9.92 .91 .91 4.82

가/을/이 매우 100 .90 .96 6.06 .94 .88 8.42 .90 .91 7.48

가/을/이 약간 100 .64 .80 16.44 .64 .76 12.35 .64 .73 8.80

만 매우 100 .75 .94 19.51 .72 .87 14.61 .75 .89 13.78

만 약간 100 .65 .85 20.53 .78 .84 6.35 .65 .78 14.70

Avg. 100 .78 .91 14.91 .79 .84 11.06 .78 .85 10.69

확신의 수준 & 정확도 구체적으로 비닝이란 모델의 예측 값 들을 동일한 크기의 M 개 간격의 빈(Bin)으로 그룹화하는 것이 다. 각 빈의 구간에 속하는 데이터들로 정확도와 확신의 수준을 측정한다.

B

m

을 예측 점수가 m번째 빈에 속하는 샘플 집합이라 할 때, B

m

의 정확도와 확신의 수준은 다음과 같다.

conf (B

m

) = 1

|B

m

| X

i∈B

m

ˆ

p

i

(1)

acc(B

m

) = 1

|B

m

| X

i∈B

m

1( ˆy

i

= y

i

) (2) 즉, 확신의 수준은 출력값의 평균이고, 정확도는 출력값 중 예측이 맞은 비율이다.

보정의 평가 지표, ECE 정확도와 확신의 수준 간의 차이를 측정하는 평가 지표로 Expected Calibration Error(ECE)가 보편적으로 사용된다. ECE는 정확도와 확신의 수준의 차이에 대해 가중 평균을 하여 계산된다.

ECE =

M

X

m=1

|B

_m

|

n |acc(B

_m

) − conf (B

_m

)| (3) 즉 ECE가 작을수록, 모델은 잘 보정된 것으로 간주된다.

3.2 보정을 위한 완화 방법들

모델이 잘 보정될 수 있도록 하는 방법으로 완화 방법들이 존재한다. 본 연구에서는 그중 표지 완화법(Label Smoothing) 과 온도 규모 지정(Temperature Scaling)을 통해 모델이 잘 보정될 수 있는지를 분석한다.

표지 완화법은 학습 과정에서 불확실성을 유지하기 위해 라 벨(Label)을 0 또는 1과 같은 하드 라벨(Hard Label)로 학습하 는 것이 아니라 소프트 라벨(Soft Label)로 학습하는 방법이다.

K 번째 클래스에 대한 표지 완화 벡터의 k 번째 스칼라 값은 다 음과 같다. 여기서 y

_k

는 0 혹은 1이며 α는 하이퍼파라미터이다.

y

_k ^LS

= y

k

(1 − α) + α/K (4) 예를 들어, 기존 하드 라벨이 [1,0,0]인 상황에 하이퍼파라미터 α가 0.1인 표지 완화법을 적용하면 [0.9, 0.05, 0.05]의 소프트 라벨로 학습이 진행된다.

온도 규모 지정(Temperature Scaling)은 모든 클래스들에 대 해 단일 스칼라 파라미터 T (Temperature)를 로짓 벡터(Logit Vector) z

i

에 대해 나누는 방법이다. T 는 하이퍼파라미터로 검 증 데이터 셋에 대해 음의 로그 우도(Negative Log Likelihood) 가 최소화되는 T 를 찾아 사용한다. T 가 1보다 클 때 T 는 소 프트맥스 함수의 결과를 부드럽게 하는 역할을 한다.

T 는 소프트맥스 함수의 최댓값을 바꾸지 않으므로 모델의 정확도에 영향을 주지 않는다. 또한 검증 데이터 셋에 대해 최 적의 T 를 찾기에 사후 학습(Post-training) 방법의 일종이다.

bq

i

= max

k

σ

SM

(z

i

/T )

^(k)

(5) 즉, 표지 완화법은 라벨을 완화하는 것이고, 온도 규모 지정은 로짓 벡터를 완화하는 것이다.

4. 실험

4.1 실험 구성

데이터 셋 한국어 언어 모델의 보정을 분석하기 위해 NSMC 데이터 셋을 이용하여 실험을 진행하였다. NSMC 데이터 셋 은 긍정과 부정 2개의 클래스로 이루어져 있으며 총 15만 개의 학습 문장과 5만 개의 평가 문장으로 이루어져 있다. 추가적으 로 모델의 검증을 위해 15만 개의 학습 문장을 10만 개의 학습 문장과 5만 개의 검증 문장으로 나누어 진행하였다.

(4)

표 3. 모델의 검증을 위해 새롭게 생성한 문장들의 예시.

Category Example Label Pred. Conf.

가/을/이 ‘아... 주인공이 예쁨.’ 1 1 .95

만 ‘아... 주인공만 예쁨.’ 0 0 .99

은/는 ‘아... 주인공은 예쁨.’ 0 1 .79

도 ‘아... 주인공도 예쁨.’ 1 1 .99

가/을/이 매우 ‘아... 주인공이 매우 예쁨.’ 1 1 .99 가/을/이 약간 ‘아... 주인공이 약간 예쁨.’ 1 0 .81 만 매우 ‘아... 주인공만 매우 예쁨.’ 0 0 .99 만 약간 ‘아... 주인공만 약간 예쁨.’ 0 0 .94

가/을/이 ‘특수효과 몇 개가 훌륭’ 1 1 .80

만 ‘특수효과 몇 개만 훌륭’ 0 0 .99

은/는 ‘특수효과 몇 개는 훌륭’ 0 1 .76

도 ‘특수효과 몇 개도 훌륭’ 1 1 .99

가/을/이 매우 ‘특수효과 몇 개가 매우 훌륭’ 1 1 .97 가/을/이 약간 ‘특수효과 몇 개가 약간 훌륭’ 1 0 .51 만 매우 ‘특수효과 몇 개만 매우 훌륭’ 0 0 .99 만 약간 ‘특수효과 몇 개만 약간 훌륭’ 0 0 .92

표 4. ‘은/는’이 포함된 문장 중 모델의 예측이 틀린 문장들과 확 신의 수준이 낮은 문장들의 예시. 5행까지의 문장들은 모델의 예측이 틀린 문장들이며 이후 문장들은 예측은 맞지만 확신의 수준이 낮은 문장들이다.

Label Prediction Confidence

‘영화 ost는 빛나는 영화!!!’ 0 1 .99

‘영상이 주는 분위기는 좋았다’ 0 1 .92

‘노래는 개인적으로 좋았던것 같음’ 1 0 .88

‘음악은 예술’ 0 1 .68

‘생각없이 보기에는 좋다.’ 0 1 .81

‘배우들의 연기는 뛰어났던 작품’ 1 1 .58

‘아이들은 좋아해요’ 0 0 .55

‘장예모감독 영화 좋아하는 분께는 강추’ 0 0 .52

‘소재는 좋았던 영화’ 0 0 .64

‘강동원은 연기는 잘한다!’ 1 1 .50

모델 평가를 위한 데이터 생성 본 연구팀은 형태소 분석기를 통해 원본 평가 데이터 셋을 변형하는 방법은 각 문장에 대해 보조사와 특정 부사에 의한 문장 의미 변화를 종합적으로 분 석하기 어렵다고 판단하여 직접 평가 데이터 셋을 생성했다.

구체적으로, 평가 데이터 셋 내의 한 문장을 추출 후 변형하여 최종적으로 다음과 같은 8개의 문장이 되도록 하였다: 변형 대 상 단어가 (1) ‘가/을/이’로 끝나는 문장, (2) ‘만’으로 끝나는 문장, (3) ‘은/는’으로 끝나는 문장, (4) ‘도’로 끝나는 문장, (5)

‘가/을/이’로 끝나고 부사 ‘매우’가 뒤따르는 문장, (6) ‘가/을/

이’로 끝나고 부사 ‘약간’이 뒤따르는 문장, (7) ‘만’으로 끝나고 부사 ‘매우’가 뒤따르는 문장, (8) ‘만’으로 끝나고 부사 ‘약간’이 뒤따르는 문장. 예를 들어, 평가 데이터 셋 안에 ‘아... 주인공은 예쁨.’이라는 문장이 있었을 때에, 표 3의 두 번째 행과 같이

‘주인공은’을 ‘주인공만’으로 바꾸는 변화를 주었다.

총 100개 문장에 대해 앞서 서술한 변형의 과정을 거쳤으며 총 8개의 경우 중 1개 이상의 경우에 있어 주석 결과의 변화가 생 길 것이라 예상되는 문장들을 무작위로 선정하였다. 해당 100 개 문장은 GitHub 링크로 일반에게 공개되었다

³

.

모델 본 연구팀은 사전 학습된 KoBERT 모델을 사용했으며 모든 모델의 학습은 3 에폭 동안 진행했다. 배치 사이즈는 64, 학습률의 초깃값은 5e-5, 옵티마이저로는 AdamW를 사용했다.

또한 표지 완화법에 쓰이는 α 값으로는 0.1을 사용하였다. 온 도 규모 지정에 쓰이는 T 는 검증 데이터 셋을 통해 최적화한 결과인 1.63을 사용했다.

4.2 실험 결과

완화 기법 표 2에서 온도 규모 지정과 표지 완화를 적용한 경우 대체적으로 ECE가 감소한다. NSMC 데이터 셋의 5만 개 의 원본 평가 문장에 대해 실험한 표 1 역시 표지 완화와 온도 규모 지정을 통해 ECE가 감소할 수 있음을 보여준다. ECE가 감소하는 것은 예측 모델의 확신 수준이 실제로 정확할 확률과 보다 더 일치한다는 것을 의미하며, 보정이 보다 더 잘 되었다는 것을 의미한다.

본 실험들을 통해 사전 학습된 한국어 언어 모델이 특정 보 조사와 부사의 영향으로 문장이 애매함을 내포하는 경우 애 매성을 잘 파악하는지의 여부를 확인했으며, 완화 기법들을 적용하여 문장의 애매성을 확신 수준을 통해 정량적으로 명시 할 수 있도록 모델을 보정하였다.

보조사 표 2가 보이는 것과 같이 모델은 ‘은/는’, ‘만’, ‘도’

순으로 낮은 정확도를 보였다. 이승희 외에 따르면 실제 한국 아동들은 보조사를 ‘은/는’, ‘만’, ‘도’ 순으로 습득하며[14], 윤 나네 외에 따르면 초등학생을 대상으로 실험한 결과 ‘은/는’,

‘만’, ‘도’ 순으로 많은 오류를 보였다[15]. 이를 통해 언어 모델 은 보조사를 이해함에 있어 사람과 비슷하게 어려움을 겪는다 는 해석이 가능하다. 본 연구에서는 추가적으로 모델이 예측한 값에 대한 확신의 수준을 측정한 결과 ‘은/는’, ‘도’, ‘만’ 순으로 예측에 대한 낮은 확신도를 가진다는 점을 확인하였다.

본 연구팀은 ‘은/는’이 포함된 문장들에 대해 다른 보조사나 부사가 포함되었을 때보다 정확도와 확신의 수준이 가장 낮 다는 점과 완화 기법들을 적용했음에도 ECE가 크다는 점에 집중했다. 특히 보조사 ‘은/는’은 ‘강조’의 의미와 함께 ‘대조’

의 의미도 포함하는 경우가 존재한다는 점을 이러한 현상의 원 인으로 보았다. 예를 들어 표 3의 예시 중 “특수효과 몇 개는 훌륭” 문장은 특수효과 몇 개는 훌륭하지만 다른 것은 훌륭하 지 않다는 ‘대조’의 의미를 포함한다. 표 4와 같이 보조사 ‘은/

는’이 ‘대조’의 의미를 가질 때 낮은 정확도와 확신도를 가진다.

3https://github.com/starsuzi/HCLT_dataset

(5)

그림 2. 보조사, 부사, 보조사 ‘만’과 부사가 쓰인 경우들에 대한 모델의 신뢰성 도표들. 신뢰성 도표는 모델이 예상하는 정확도와 실제 관측된 정확도를 각각 x축과 y축으로 하여 그린 그래프로, 잘 보정될수록 y=x 그래프에 가깝다. 그래프가 y=x 그래프보다 아래쪽에 있다면 모델이 예상하는 정확도가 실제 정확도보다 높아 예측 값에 대해 과신한다는 해석이 가능하다. 반대로 y=x 그래프보다 위쪽에 있다면 모델이 예상하는 정확도가 실제 정확도보다 낮아 예측 값에 대해 불신한다는 해석이 가능하다.

본 연구팀은 대조의 의미를 내포하는 ‘은/는’에 대해 언어 모델 이 낮은 확신의 수준을 가지는 점이 사람의 언어학적인 직관과 유사하다고 보았다.

부사 표 2에 따르면 모델이 부사 ‘약간’이 포함된 문장들에 대 해 두 번째로 낮은 정확도와 가장 낮은 확신의 수준을 가지는 양상을 보인다. ‘약간’은 발화 전체의 의미를 약화시키고 부정적 평가를 약화하는 특성을 가지고 있다[16]. 모델 역시 부사 ‘약 간’이 문장의 의미를 약화하는 특징을 이해하여 완화 기법들을 적용했음에도 낮은 확신의 수준을 가진다고 해석할 수 있다.

부사 ‘매우’의 경우 표지 완화를 적용하기 전에도 비교적 높 은 정확도를 보였으며 가장 ECE가 작았다. ‘매우’는 무표적인 강조 부사로 문장에서 강조의 의미만을 실현하므로 ‘매우’를 포함할 경우 문장의 의미 변화가 거의 없으며 모델 역시 이런 점을 이해했다는 해석이 가능하다.

‘만’+부사 본 연구팀은 ‘한정’의 의미를 가지는 보조사 ‘만’과 함께 정도를 나타내는 부사 ‘매우’ 혹은 ‘약간’이 쓰였을 때 문 장이 여러 의미를 가질 수 있어 문장이 지니는 감정을 결정하기 어렵다고 판단한다. 예를 들어 표 5 에서 “2편만 매우 재밌음”

은 다음과 같은 의미들로 해석될 수 있다: 1) 2편을 제외하면 모두 재미없다. 2) 모두 재미있지만 2편이 특별히 더 재미있다.

실험 결과, 표 2가 보이는 것과 같이 보조사 ‘만’과 부사 ‘매 우’가 함께 쓰였을 때가 보조사 ‘만’만 쓰였을 때보다 정확도가 9% 감소했으며 예측값에 대한 확신도는 약 1.8% 감소했다.

또한 부사 ‘매우’만 쓰였을 때보다 정확도가 15% 감소했으며 확신도는 1.7% 감소했다.

보조사 ‘만’만 쓰일 경우나 부사 ‘매우’만 쓰일 경우보다 정확 도와 확신도가 모두 감소한다는 점에서 모델의 예측이 언어학 적 직관을 따른다고 해석 가능하다. 보조사 ‘만’과 부사 ‘약간’

이 함께 쓰인 경우에는 보조사 ‘만’만 쓰였을 때보다 정확도가 19% 감소했으며 예측값에 대한 확신도는 약 10.4% 감소했다.

하지만 부사 ‘약간’만 쓰였을 때보다 정확도가 1% 증가했으며 확신도는 4.8% 증가했다. 이를 통해 앞서 언급한 부사 ‘약간’이 가지는 의미를 약화하는 특징을 문장에 한정의 의미를 나타내 는 보조사 ‘만’을 추가하며 약화하는 의미를 중화할 수 있다는 것을 정량적으로 보였다. 또한 보조사 ‘만’과 부사 ‘매우’가 쓰 인 경우보다 부사 ‘약간’이 쓰인 경우 정확도와 확신도가 모두 낮았다. 표 5와 같이 보조사 ‘만’이 포함된 같은 문장에 부사만 다르게 사용했을 경우 모델의 예측 값이 달랐으며 부사 ‘약간’

이 포함되었을 때 예측 값에 대한 확신도가 더 낮았다.

본 실험들은 사전 학습된 한국어 언어 모델이 한국어의 언어 학적 특징들을 잘 이해할 수 있다는 점을 보이는 사례이다.

신뢰성 도표 ECE가 모델의 보정을 통계적으로 측정하는 방 법이라면 신뢰성 도표(Reliability Diagram)는 모델의 보정을 시각화하여 보이는 방법이다. 그림 2 에서와 같이 보조사나 부 사가 포함되지 않은 문장들이 가장 보정이 잘 된다. 보조사 ‘만’

이 포함된 문장들은 실제 정확도에 비해 높은 예측 값을 가져 과신하는 경향을 보였으며 ‘도’가 포함된 문장들은 실제 정확도 에 비해 낮은 예측 값을 가져 불신하는 경향을 보였다. 부사의 경우 ‘약간’과 ‘매우’가 포함된 문장들 모두 예측 값에 불신하 는 경향이 나타났다. 보조사 ‘만’과 부사 ‘약간’과 ‘매우’가 함께 쓰인 경우에는 모두 예측 값에 대해 과신하는 경향을 보였다.

(6)

표 5. 보조사 ‘만’과 부사 ‘약간’과 ‘매우’를 함께 쓴 문장들과 이들에 대한 모델의 예측과 확신의 수준을 나타낸 표.

Label Prediction Confidence

‘시나리오만 약간 중학생 수준같음’ 1 0 .67

‘2편만 약간 재밌음’ 0 1 .75

‘소재만 약간 좋았던 영화’ 0 0 .55

‘마지막 장면만 약간 소름....’ 0 1 .77

‘아이만 약간 재미있었다고 하네요’ 0 1 .75

‘어렸을때만 약간 즐겨봤던 영화.’ 0 0 .78

‘시나리오만 매우 중학생 수준같음’ 0 0 .99

‘2편만 매우 재밌음’ 1 0 .88

‘소재만 매우 좋았던 영화’ 0 0 .99

‘마지막 장면만 매우 소름....’ 0 0 .98

‘아이만 매우 재미있었다고 하네요’ 0 0 .59

‘어렸을때만 매우 즐겨봤던 영화.’ 0 1 .96

5. 결론 및 향후 연구

본 연구는 사전 학습된 한국어 언어 모델이 문장의 애매성 을 잘 파악하는지의 여부를 실험하여 확인 후, 완화 기법들을 적용하여 문장의 애매성을 확신 수준을 통해 명시할 수 있도록 보정했다. 또한 보정의 관점에서, 새롭게 생성한 데이터 셋을 통해 사전 학습된 한국어 언어 모델이 한국어의 문법적 특징으 로생기는 의미 변화를 해석할 수 있는지를 정량적으로 밝혔다.

윤나네 외에 따르면 경계선 지능 아동들은 일반 아동들에 비해 보조사 ‘은/는’, ‘만’, ‘도’를 이해함에 있어 어려움을 겪어 특수교육에 있어 체계적인 접근이 필요하다고 강조한다[15]. 본 연구는 언어 모델의 예측도 인간의 언어학적 직관과 비슷하게 보조사 ‘은/는’, ‘만’, ‘도’에 따라 변하는 문장의 의미를 파악하 는 데 어려움을 겪는다는 것을 정량적으로 밝혔다. 언어 모델을 통해 밝힌 정량적인 확신의 수준을 이용하면 특수교육 현장에 서 사용 가능한 새로운 접근법이 될 수 있을 것으로 기대한다.

사사의 글

본 연구는 2018년도 정부(과학기술정보통신부)의 재원 으로 정보통신기술진흥센터의 지원을 받아 수행되었다.

(20180005820031001, SW 스타랩: 언어학적 분석 및 증거 문서 자동 수집을 통한 신뢰도 분포 자동 예측 및 자동 증강)

참고문헌

[1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin,

“Attention is all you need,” Proc. of the 31st NIPS, pp.

5998–6008, 2017.

[2] S. Chakraborty, R. Tomsett, Raghavendra et al., “Inter- pretability of deep learning models: a survey of results,”

Proc. of the 3rd IEEE Smart World Congress Workshop DAIS, pp. 1–6, 2017.

[3] C. Guo, G. Pleiss, Y. Sun, and K. Q. Weinberger, “On calibration of modern neural networks,” Proc. of the 34th ICML, pp. 1321–1330, 2017.

[4] D. Feng, L. Rosenbaum, C. Glaeser, F. Timm, and K. Dietmayer, “Can we trust you? on calibration of a probabilistic object detector for autonomous driving,”

Proc. of the 19th IROS, 2019.

[5] J. J. Thiagarajan, P. Sattigeri, D. Rajan, and B. Venkatesh, “Calibrating healthcare ai: Towards re- liable and interpretable deep predictive models,” arXiv preprint arXiv:2004.14480, 2020.

[6] R. M¨uller, S. Kornblith, and G. E. Hinton, “When does label smoothing help?” Proc. of the 33rd NIPS, pp.

4694–4703, 2019.

[7] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,

“BERT: Pre-training of deep bidirectional transformers for language understanding,” Proc. of the 17th NAACL, pp. 4171–4186, 2019.

[8] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov,

“Roberta: A robustly optimized bert pretraining ap- proach,” arXiv preprint arXiv:1907.11692, 2019.

[9] S. Desai and G. Durrett, “Calibration of pre-trained transformers,” arXiv preprint arXiv:2003.07892, 2020.

[10] S. Wang, Z. Tu, S. Shi, and Y. Liu, “On the inference calibration of neural machine translation,” Proc. of the 58th ACL, pp. 3070–3079, Jul. 2020.

[11] 박기덕, “한국어 보조사 사용의 전제,” 언어와 언어학, Vol. 26, pp. 119–135, 2001.

[12] 김혜영, “구어 속 강조적 정도부사의 사용과 의미,” 한국 어학, pp. 101–129, 2010.

[13] 최련, “한국어 강조 보조사 연구,” 서울대학교 국어국문학 과 석사학위 논문, 2015.

[14] 이승희 and 황민아, “3-6세 한국 아동의 보조사 발달에 관 한 연구 : 은/는, 만, 도,” 언어청각장애연구, Vol. 7, pp.

24–45, 2002.

[15] 윤나네, 김승미, and 이은주, “초등학교 저학년 경계선 지 능 아동과 일반 아동의 보조사(은/는, 만, 도) 전제 이해 특성,” 특수교육학연구, Vol. 52, pp. 133–147, 2017.

[16] 공나형, “구어 담화에서 드러나는 정도부사 ‘약간’의 담화 표지로서의 의미와 기능 - 한국어 모어 화자와 학습자 구어 담화의 비교를 통하여 -,” 언어와문화, Vol. 15, pp. 1–28, 2019.

Calibration of Pre-trained Language Model for Korean

◦

∗

Calibration of Pre-trained Language Model for Korean

◦

∗

1. 서론

1

2

2. 관련 연구

3. 방법론

i

m

m

m

m

i∈B

i

m

m

i∈B

i

i

M

m=1

m

m

m

k

k LS

k

i

i

k

SM

i

(k)

4. 실험

Category Example Label Pred. Conf.

가/을/이 ‘아... 주인공이 예쁨.’ 1 1 .95

만 ‘아... 주인공만 예쁨.’ 0 0 .99

은/는 ‘아... 주인공은 예쁨.’ 0 1 .79

도 ‘아... 주인공도 예쁨.’ 1 1 .99

가/을/이 매우 ‘아... 주인공이 매우 예쁨.’ 1 1 .99 가/을/이 약간 ‘아... 주인공이 약간 예쁨.’ 1 0 .81 만 매우 ‘아... 주인공만 매우 예쁨.’ 0 0 .99 만 약간 ‘아... 주인공만 약간 예쁨.’ 0 0 .94

가/을/이 ‘특수효과 몇 개가 훌륭’ 1 1 .80

만 ‘특수효과 몇 개만 훌륭’ 0 0 .99

은/는 ‘특수효과 몇 개는 훌륭’ 0 1 .76

도 ‘특수효과 몇 개도 훌륭’ 1 1 .99

가/을/이 매우 ‘특수효과 몇 개가 매우 훌륭’ 1 1 .97 가/을/이 약간 ‘특수효과 몇 개가 약간 훌륭’ 1 0 .51 만 매우 ‘특수효과 몇 개만 매우 훌륭’ 0 0 .99 만 약간 ‘특수효과 몇 개만 약간 훌륭’ 0 0 .92

Label Prediction Confidence

‘영화 ost는 빛나는 영화!!!’ 0 1 .99

‘영상이 주는 분위기는 좋았다’ 0 1 .92

‘노래는 개인적으로 좋았던것 같음’ 1 0 .88

‘음악은 예술’ 0 1 .68

‘생각없이 보기에는 좋다.’ 0 1 .81

‘배우들의 연기는 뛰어났던 작품’ 1 1 .58

‘아이들은 좋아해요’ 0 0 .55

‘장예모감독 영화 좋아하는 분께는 강추’ 0 0 .52

‘소재는 좋았던 영화’ 0 0 .64

‘강동원은 연기는 잘한다!’ 1 1 .50

3

Label Prediction Confidence

‘시나리오만 약간 중학생 수준같음’ 1 0 .67

‘2편만 약간 재밌음’ 0 1 .75

‘소재만 약간 좋았던 영화’ 0 0 .55

‘마지막 장면만 약간 소름....’ 0 1 .77

‘아이만 약간 재미있었다고 하네요’ 0 1 .75

‘어렸을때만 약간 즐겨봤던 영화.’ 0 0 .78

‘시나리오만 매우 중학생 수준같음’ 0 0 .99

‘2편만 매우 재밌음’ 1 0 .88

‘소재만 매우 좋았던 영화’ 0 0 .99

‘마지막 장면만 매우 소름....’ 0 0 .98

‘아이만 매우 재미있었다고 하네요’ 0 0 .59

‘어렸을때만 매우 즐겨봤던 영화.’ 0 1 .96

5. 결론 및 향후 연구

사사의 글

참고문헌

^◦

^∗

^◦

^∗

¹

²

_m

_m

_m

_k

_k ^LS

^(k)

³