• 검색 결과가 없습니다.

… BERT 와 Multi-level Co-Attention Fusion 을이용한한국어기계독해

N/A
N/A
Protected

Academic year: 2022

Share "… BERT 와 Multi-level Co-Attention Fusion 을이용한한국어기계독해"

Copied!
1
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

BERT와 Multi-level Co-Attention Fusion을 이용한 한국어 기계독해

박광현

1

, 나승훈

1

, 최윤수

2

, 장두성

2

1

전북대학교,

2

KT

khpark231@gmail.com, nash@jbnu.ac.kr, yunsu.choi@kt.com, dschang@kt.com

Cognitive Computing Lab.

Ⅰ. 기계독해

Ⅱ. BERT

Ⅳ. 실험

• 기계독해는 기계가 주어진 문맥을 이해하고 질문에 대한 답을 찾는 것을 목표로 함

Q: 대한민국의 수도는 어디야?

질문 Reader

대한민국은 동아시아의 한반도 남부에 있는 공화국이다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가(비공식), 공용어는 한국어와 한국 수어이다.

• Attention을 이용한 인코더인 Transformer 기반의 사전 학습 언 어모델

• Masking 단어 예측과 다음 문장이 적절한지 판단하는 2가지 문제로 사전 학습을 진행

• “[CLS] A문장 [SEP] B문장 [SEP]” 형태의 입력을 사용

• 시퀀스 길이가 512보다 긴 경우 처리를 할 수 없음

• 기계독해에서 긴 시퀀스를 한번에 처리하기 위해 문장을 여러 segment로 나누어 처리한 뒤 Attention을 적용해 전체 문장에 대한 정보를 활용

입력:[CLS] 질문 [SEP] 지문 문장 1 [SEP]

[CLS] 질문 [SEP] 지문 문장 N [SEP]…

[CLS] 질문 지문 문장 [SEP]

BERT

BERT+MCAF 모델 구조

[SEP]

Attention

Multi-level Co-Attention Fusion 모델

시작 위치 끝 위치

Ⅲ. Multi-level Co-Attention Fusion

• WordPiece 단위인 BERT(Multilingual)모델을 사용

• KorQuAD 데이터를 이용하여 실험을 진행

모델 EM F1

BERT+MCAF 83.01% 91.43%

BERT(Global)+MCAF 84.04% 92.43%

KorQuAD Dev 데이터 셋 성능

• MCAF는 Multi-level Co-Attention Fusion을 나타냄

• BERT(Global)+MCAF는 본 논문에서 제안하는 BERT의 전체 문 장에 대한 정보를 활용하였을 때의 성능임

• N개의 지문 문장에 대해서 각각 인코딩을 한 후 질문 벡터는 N 개의 지문 문장에 대해 동일하게 사용되기 때문에 N개 질문벡 터의 합의 평균을 사용하고 지문 벡터는 N 개의 벡터를 시간축 에 대해서 concat 하여 사용

• BERT의 L개 레이어의 정보를 모두 이용하기 위해 L개의 출력값 의 가중평균을 사용

𝐁ഥ𝒑 = [ഥ𝐁1𝑝; … ; ഥ𝐁N𝑝] 𝐁ഥ𝑞 = 1

N ෍

𝑖 N

𝐁ഥ𝒊𝑞

𝐁𝑞 = 1

L ෍

𝑙 L

𝜶𝒍𝒒 𝐁ഥ𝒍𝑞 𝐁෡𝒑 = 1

L ෍

𝑙 L

𝜶𝒍𝒑 𝐁ഥ𝒍𝑝

• Multi-level Co-Attention Fusion에서는 3 단계로 질문과 지문 에 대한 상호정보를 찾고 정답을 추출

- 인코딩 단계

• 앞에서 얻은 BERT의 출력값을 사용하여 지문(P)과 질문(Q)을 인코딩 하게 됨

• 모델이 깊어질수록 정보가 추상화 되기 때문에 여러 의미 수 준의 정보를 고려하기 위해 여러 단계로 인코딩 하게 됨

전주 전라북도 한국의 도시

- 매칭 단계

• 지문과 질문에 대한 상호정보를 얻는 단계

• 인코딩 단계에서 여러 단계로 얻어진 벡터들에 대해서 각각 어텐션을 수행한 후에 LSTM을 통해 정보를 하나로 결합

- 출력 단계

• 매칭 단계에서 얻은 지문과 질문의 상호정보를 이용해 지문에 서 정답의 시작과 끝 위치를 찾는 단계

𝐁𝑝 = MultiHeadAttention(෡𝐁𝒑)

질문 지문

LSTM LSTM

LSTM LSTM

LSTM

LSTM

LSTM LSTM

LSTM LSTM

LSTM LSTM

인코딩 단계 매칭 단계

시작

출력 단계

Multi-level Co-Attention Fusion 모델 구조

참조

관련 문서

 주어진 표본자료를 일목요연하게 정리하는 것-> 기술통계학의 주된 관심사, 그 중 특히 주어진 자료의 성격을 대표하는 하나의 대표값을 찾는 작업은

5개의 큰 질문을 중심으로 작은 질문을 생산하고 이 모든 질문에 대하여 해답을 찾는 과정이 사업계획수립의 Process 이다.. 이들 질문에

현재 기독교 신학계를 지배하고 있는 신학 의 역사적 배경 및 그 사상적, 철학적 계보 및 배경, 신학적 의미를 연구 분석 비평을 통하여 정확한

제공하는 것을 지원함으로써 농가의 생산자금 부족문제를 완화시키도록 함

심장 CT 는 시간적으로 동일한 스냅샷이 대부분이나 per- fusion CT 와 같이 시간에 따른 데이터를 얻을 수도 있으며, 또한 3 차원 디지털 데이터에 대한 공학적인 계산으로 생리

변별하기에서는 주어진 사물과 같은 것을 찾는 활동 혹은 다른 것을 찾는 활동을 통하여 사물의 물 리적 속성에 따라 특정 사물을 다른 사물과 구별할 수 있는

주어진 여건하에서 원하는 것을 극대화 또는 원하지 않는 것을 극소화하는 것으로 경제주체가 주어진. 여건하에서 목적의 극대화 또는 극소화를 달성하는데 여러 가지 대안

 열공간은 주어진 행렬에 대한 열벡터들의 모든 선형결합의 집합이 다.  행공간은 주어진 행렬에 대한 행벡터들의 모든