Neural collective entity linking using Gated Graph Attention Networks

(1)

제32회 한글 및 한국어 정보처리 학술대회 논문집 (2020년)

Gated Graph Attention Network에 기반한 뉴럴 집합적 개체 연결

홍승연^◦, 나승훈, 김현호, 김선훈, 강인호 전북대학교, 네이버

[email protected], [email protected], [email protected], [email protected], [email protected]

Neural collective entity linking using Gated Graph Attention Networks

Seung-Yean Hong^◦, Seung-Hoon Na, Hyun-Ho Kim, Seon-Hoon Kim, Inho Kang

Jeonbuk National University, Naver 요 약

개체 연결이란 문서에서 등장한 멘션(Mention)들을 지식 기반(Knowledge Base)상의 하나의 개체에 연결하는 문제를 말한다. 개체 연결은 개체를 찾는 멘션 탐지(mention detection)과정과 인식된 멘션에 대해 중의성을 해결하여 하나의 개체를 찾는 개체 중의성 해결(Entity disambiguation)과정으로 구성된다. 본 논문에서는 개체 정보를 강화하기 위해 wikipedia2vec정보를 결합하여 Entity 정보를 강화하고 문장 내에 모든 개체 정보를 활용하기 위해 집합적 개체를 정의하고 그래프 구조를 표현하기 위해 GNN을 활용하여 기존보다 높은 성능을 이끌어내었다.

주제어: GNN, GAT, Entity, Mention

1. 서론

개체 연결은 주어진 문장에서 나타난 인물, 장소 등을 나타 내는 단어의 중의성을 해결하여 하나의 개체로 연결하는 것을 말한다. 개체 연결에서는 지식 베이스 구축 문제와 NIL 개체 인식 문제, 중의성 문제를 해결하기 위해 많은 연구가 이루어 지고 있다 [1]. 본 논문에서는 중의성 문제를 좀 더 잘 해결하기 위해 개체 정보를 강화하고 주변 멘션 정보를 활용하여 성능 향상을 이끌어내었다.

2. 관련 연구

개체 연결 연구는 정보 추출, 지식 기반 확장, 질의응답 등의 여러 자연어 처리 연구에서 자질 등으로 활용되기 때문에 중 요한 연구 분야이다. 개체 연결 연구는 크게 개체명 인식하는 단계와 개체를 연결해주는 단계로 나눌 수 있다. 개체명 인식의 관한 연구는 순차열 학습에 좋은 성능을 보이고 있는 Bi-LSTM CRF의 기반의 모델을 사용하여 이루어졌다 [2, 3]. 개체 연결을 위한 연구로는 초기에는 지식 기반 상에서 추출된 자질을 통해 학습을 진행하는 연구 [4]가 이루어졌고 최근에는 좋은 성능을 보이는 딥러닝 모델을 활용한 연구가 주로 진행되고 있다. 딥러 닝을 활용한 연구는 Attention [5], Neural Tensor Network [6]

의 기법을 사용하여 후보 개체와 멘션으로부터 점수를 추출하 여 중의성을 해결하는 연구가 이루어졌다 [7, 8]. 지식 베이스의 불안전성으로 연결할 개체가 존재하지 않는 경우 문제가 발생 하는데 이러한 문제 해결을 위해 NIL 개체를 두어 NIL 개체를 예측할 수 있도록 하는 연구도 이루어졌다 [1, 9]. 기존의 연 구들은 멘션 탐지 과정과 중의성 해결과정이 분리되어 학습이 진행되기 때문에 멘션 탐지에서 오류가 발생하면 오류가 중

의성 해결 문제까지 전파되는 문제가 존재한다. 이를 해결하기 위해 하나의 통합 모델을 만드는 연구가 이루어졌다 [8, 10, 11].

개체 연결은 지역적 특징과 전역적 특징을 이용하여 지식 기반 상에서 적절한 개체를 찾는데 최근 연구에서는 주로 지역적 특 징인 독립적인 개체 정보만 사용하여 개체를 찾아왔다. 전역적 특징을 반영하기 위해 [12]에서는 문장 내의 개체들의 정보를 함께 사용하도록 집합적 개체 연결을 제안했다. 문장 내에는 다수의 개체가 존재하고 개체들은 하나의 주제로 연결되어 그 래프 구조를 이룬다. 그래프 구조는 기존의 뉴럴 모델로 처리 하기 어렵기 때문에 [13]에서는 그래프 구조를 처리하기 위한 그래프 구조 표현 방법을 제안했다. 추가적인 개체 정보를 사용 하기 위해 wikipedia 정보를 skip-gram 방법을 통해 학습하는 [14]에서 제안한 wikipedia2vec을 사용하였다. BERT [15]는 대 용량의 말뭉치를 이용하여 학습한 Transformer [5] 기반 언어 모델로 다양한 자연어 처리 문제에 적용되어 좋은 성능을 보 이고 있고 최근 자연어 처리 문제 대부분은 사전 학습된 언어 모델을 사용하고 있다. BERT를 개선하기 위한 많은 논문이 나오고 있고 RoBERTa [16]는 기존의 BERT에서 문장 예측을 제거하고 Masking을 dynamic하게 하는 확장된 BERT로 본 논문에서는 RoBERTa를 사용하여 문제를 해결하고자 하였다.

3. Gated Graph Attention Network에 기반한 뉴럴 집합적 개체 연결

실험에 사용된 모델의 기본 구조는 [11]에서 제안된 방법으 로 개체명인식 과정과 개체 연결 과정을 동시에 진행하는 통합 모델을 사용하여 실험을 진행하였다. 전체 구조는 그림 1과 같 고 기존의 개체 정보에 wikipedia2vec을 추가하는 구조와 문장

- 20 -1

(2)

그림 1. Gated Graph Attention Network에 기반한 뉴럴 집합적 개체 연결

에 나타난 모든 개체로부터 GAT [17]를 통해 그래프 구조 표현 을 얻어내는 구조로 구성되어 있다. m은 mention을 나타내며 e는 후보 개체를 나타낸다. 후보 개체는 Entity Description 과 wikipedia2vec정보가 결합되어 있고 후보 개체들은 그래프 구조로 표현되어 GNN을 통해 모델링된다. wikipedia2vec은 중간 단어를 통해 주변 단어를 예측하는 word-based 모델, 하 이퍼링크된 개체를 통해 개체의 주변 단어를 예측하는 Anchor context모델, entity page에 link된 개체들의 이웃 개체를 예 측하는 Link graph model을 결합하여 개체 표현을 얻는 방식 이다. 그래프 구조를 처리하기 위해 GNN을 사용하였는데 본 논문에서는 Convolutional GNN 계열인 GAT를 사용하였다.

GAT는 어텐션을 통해 주변 노드들의 가중치를 계산하여 현재 노드에 반영하는 뉴럴 모델이다.

3.1 Entity 정보 결합

본 연구에서는 [11]을 기본 모델로 사용하였고 위 모 델에서는 개체 표현을 Description 정보를 이용하여 Entity Embedding(e^d)을 얻었다. 추가적인 Entity Embedding을 얻 기 위해 [14]에서 제공하는 api를 이용하여 wikipedia2vec(e^w) 을 얻었다. 데이터로 한국어 위키피디아 문서를 사용하였다.

결합은 다음과 같이 하이퍼 파라미터 α를 두어 하나의 Entity Embedding을 얻었다.

e = (1 − α)e^d+ αe^w (1)

3.2 GNN을 이용한 집합적 개체 연결

모델은 문장(w)을 입력으로 하여 RoBERTa [16]를 적용하여 ht를 얻고 멘션 Span 표상(si)은 멘션 시작점 표상, 끝점 표상 을 결합(Concaternate)하여 얻었다. i는 입력 문장에서 추출한 멘션 집합 중 i번째 멘션을 의미한다. start는 span의 시작점의 인덱스, end는 span의 끝점의 인덱스를 나타낸다.

W_t= [w₁, . . . , w_n]

ht= RoBERT a(Wt) (2) si= [h_start(i); h_end(i)]

각 멘션들은 여러 개의 후보 개체가 존재하고 후보 개체에 대한 개체 표상을 얻기 위해 개체 정보를 결합하여 후보 개체 표상 eij을 얻었다. i는 i번째 멘션을 나타내고 j는 해당 멘션의 후 보 엔터티 중 j번째를 나타낸다. 문장 내의 나타난 개체들은 일관된 주제를 가지는 그룹으로 나타낼 수 있다. 예를 들어

“메시(e₁)는 아르헨티나(e₂)의 축구 선수로 현재 바르셀로나 (e₃) 주장을 맡고 있다.”라는 문장이 있을 때 문장에 나타난 개체 메시, 아르헨티나, 바르셀로나는 축구라는 하나의 주제로 연결되어있다. 이러한 정보를 반영하기 위해 그림과 같이 인접 한 후보 개체들은 연결되도록 그래프를 구성하였다. 그래프는 특수한 형태로 기존의 뉴럴 모델로 처리하기 어렵기 때문에 Graph Attention Network를 통해 집합적 개체를 모델링하였 다. GAT는 다음 수식과 같다. H_i^(l)는 i번째 node 표상으로 주변 노드 N (i)의 결합 정도를 a^(l)_ij를 통해 결정하여 가중합을 통해

- 21 -2

(3)

업데이트하고 어텐션은 멀티-헤드 어텐션을 사용하였다. Layer 가 깊어질수록 더 넓은 범위의 주변 노드 정보를 활용한다.

H_i^(l+1) = g W^(l) X

j∈N (i)

a^(l)_ijH_j^(l)+ BH_i^(l)

!

(3)

추가적으로 Gating을 통해 GNN결과 갱신 여부를 결정하였다.

Gate는 현재 노드 표상과 멘션 span 표상을 사용하여 sigmoid 함수를 통해 업데이트 여부를 결정한다.

gate = sigmoid(W1si+ W2H_i^(l)+ b)

H_i^(l+1) = (1 − gate)H_i^(l)+ gateH_i^(l+1) (4)

얻어진 멘션 Span 표상 s_i과 후보 개체 표상 H_ij와 Biaffine [18]

연산을 하여 최종 점수를 얻어 Softmax 적용 후 개체를 결정 한다. Hij는 eij를 GNN을 적용한 결과를 나타낸다.

scoreij= Biaf f ine(si, Hij)

P (e_ij|s_i) = Sof tmax(score_ij) (5)

4. 실험

멘션-개체 사전 구축을 위해서 한국어 위키피디아 문서 내 용 중 링크(Hyper-Link) 정보를 이용하여 멘션-개체 사전을 구축하였다 [7]. 데이터 셋은 한국어 위키피디아 문장 6만개를 사용하여 구성했고 학습 데이터는 3만 문장, 개발 데이터는 1 만 문장, 평가 데이터는 2만 문장으로 구성 되어 있다. NonNIL 성능은 해당 개체가 NonNIL개체를 잘 예측하였는지 판단하는 지표로 평가하였다. Linking 성능은 후보 개체들 중 정확한 개 체를 예측했는지를 보여주는 성능이다. Joint Entity Linking 은 [11]에서 제안된 모델이다. 실험은 위 모델을 기본 모델로 사용하여 실험을 진행하였다. 실험은 Wiki2vec, GNN, Gating 순으로 추가하여 성능 개선 여부를 확인하고자하였다.

표 1. 실험 성능

모델 NonNIL F1 Linking F1 Joint Entity Linking 89.05% 85.87%

Joint Entity Linking

89.08% 85.94%

+Wiki2vec Joint Entity Linking

89.15% 85.82%

+GNN Joint Entity Linking

89.27% 85.84%

+Wiki2vec+GNN Joint Entity Linking

89.29% 85.98%

+Wiki2vec+GNN+Gating

Wiki2vec, GNN, Gating을 추가하는 여러 실험 중 Wiki2vec, GNN, Gating을 모두 사용한 모델이 가장 좋은 성 능을 보였다.

5. 결론

본 연구에서는 개체 정보 강화를 위해 Wiki2vec을 사용하고 집합적 개체 연결을 위해 GNN을 사용하여 기존보다 향상된 성능을 얻었다. 본 모델은 NIL을 판단하기 위해 NIL을 후보 개체에 포함시키기 때문에 GNN을 적용할 때 방해 요소가 되고 있다. 이를 위해 향후 연구에서는 좀 더 다양한 GNN모델에서 실험을 진행하여 NIL도 잘 처리할 수 있도록 할 예정이다.

참고문헌

[1] 이호경, 안재현, 윤정민, 배경만, and 고영중, “위키피디아 기반의 효과적인 개체 링킹을 위한 nil 개체 인식과 개체 연 결 중의성 해소 방법,” 정보과학회논문지, Vol. 44, No. 8, pp. 813–821, 2017.

[2] Z. Huang, W. Xu, and K. Yu, “Bidirectional lstm- crf models for sequence tagging,” arXiv preprint arXiv:1508.01991, 2015.

[3] 나승훈 and 민진우, “문자 기반 lstm crf 를 이용한 개체 명 인식,” 한국정보과학회 학술발표논문집, pp. 729–731, 2016.

[4] D. Milne and I. H. Witten, “Learning to link with wikipedia,” Proceedings of the 17th ACM conference on Information and knowledge management, pp. 509–518, 2008.

[5] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin,

“Attention is all you need,” Advances in neural information processing systems, pp. 5998–6008, 2017.

[6] R. Socher, D. Chen, C. D. Manning, and A. Ng, “Rea- soning with neural tensor networks for knowledge base completion,” Advances in neural information processing systems, pp. 926–934, 2013.

[7] 이영훈 and 나승훈, “위키피디아 링크 데이터를 이용한 한국어 뉴럴멘션 탐지 및 개체명 연결,” 한국정보과학회 학술발표논문집, pp. 596–598, 2018.

[8] 민진우 and 나승훈, “End-to-end 뉴럴 모렐 기반 한국어 개체명 연결,” 한국정보과학회 학술발표논문집, pp. 572–

574, 2019.

[9] 이영훈, 나승훈, 최윤수, and 장두성, “Nil 을 고려한 graph convolutional network 기반 집합적 개체 연결,” 한국정보 과학회 학술발표논문집, pp. 410–412, 2019.

- 22 -3

(4)

[10] J. Y. Lee, S. V. Mehta, M. Wick, J.-B. Tristan, and J. Carbonell, “Gradient-based inference for networks with output constraints,” Proceedings of the AAAI Con- ference on Artificial Intelligence, Vol. 33, pp. 4147–4154, 2019.

[11] 홍승연, 나승훈, 김현호, 김선훈, and 강인호, “멘션 임베 딩을 이용한 nil 멘션 탐지와 개체 연결의 통합 모델,” 한 국정보과학회 학술발표논문집, pp. 437–439, 2020.

[12] Y. Cao, L. Hou, J. Li, and Z. Liu, “Neural collective entity linking,” arXiv preprint arXiv:1811.08603, 2018.

[13] F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Monfardini, “The graph neural network model,”

IEEE Transactions on Neural Networks, Vol. 20, No. 1, pp. 61–80, 2008.

[14] I. Yamada, A. Asai, H. Shindo, H. Takeda, and Y. Take- fuji, “Wikipedia2vec: an optimized tool for learning em- beddings of words and entities from wikipedia,” arXiv preprint arXiv:1812.06280, 2018.

[15] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,

“Bert: Pre-training of deep bidirectional transform- ers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.

[16] P. Veliˇckovi´c, G. Cucurull, A. Casanova, A. Romero, P. Lio, and Y. Bengio, “Graph attention networks,”

arXiv preprint arXiv:1710.10903, 2017.

[17] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov,

“Roberta: A robustly optimized bert pretraining ap- proach,” arXiv preprint arXiv:1907.11692, 2019.

[18] T. Dozat and C. D. Manning, “Deep biaffine attention for neural dependency parsing,” arXiv preprint arXiv:1611.01734, 2016.

- 23 -4