제32회 한글 및 한국어 정보처리 학술대회 논문집 (2020년)
언어모델에서 엔티티 정보를 이용한 관계 추출 성능 향상 기법
허윤아1◦, 오동석1, 황태선2, 이설화1, 임희석1 *
1고려대학교 컴퓨터학과,2와이즈넛
{yj72722, inow3555, whiteldark, limhseok}@korea.ac.kr, [email protected]
A Technique for Improving Relation Extraction Performance using Entity Information in Language Model
Yuna Hur1◦, Dongsuk Oh1, Taesun Whang2, Seolhwa Lee1, Heuiseok Lim1*
1Computer Science and Engineering, Korea University,2Wisenut Inc.
요 약
관계 추출은 문장에서 두 개의 엔티티가 주어졌을 때 두 개의 엔티티에 대한 의미적 이해를 통해 관계를 분류하는 작업이다. 이와 같이 관계 추출에서 관계를 분류하기 위해서는 두 개의 엔티티에 대한 정보가 필요하다. 본 연구에서는 관계 추출을 하기 위해 문장에서 엔티티들의 표현을 다르게하여 관계 추출의 성능을 비교 실험하였다. 첫번째로는 문장 에서 [CLS] 토큰(Token)으로 관계를 분류하는 Standard 엔티티 정보 표현과 두번째로는 엔티티의 앞과 뒤에 Special Token을 추가하여 관계를 분류하는 Entity-Markers 엔티티 정보 표현했다. 이를 기반으로 문장의 문맥 정보를 학습한 사전 학습(Pre-trained)모델인 BERT-Large와 ALBERT-Large를 적용하여 실험을 진행하였다. 실험 결과 Special Token을 추가한 Entity-Markers의 성능이 높았으며, BERT-Large에서 더 높은 성능 결과를 확인하였다.
주제어: 관계 추출, 정보 추출, 지도 학습, 언어 모델
1. 서론
인터넷이 발전함에 따라 블로그, 뉴스 기사, SNS 등 다양 한 형태의 비정형 문서들이 방대해지고 있다[1]. 수많은 비정형 문서에서 중요한 정보를 정형화된 정보로 자동으로 추출하는 기술을 목표로 정보 추출(Information Extraction) 분야에서 많은 연구들이 진행되고 있다. 정보 추출 중에서도 관계 추출 (Relation Extraction)이 주목받고 있다. 관계 추출이란 문서 에서 추출한 두 개의 엔티티(Entity)가 주어졌을 때 어떤 관계 (Relation)를 갖고 있는지 자동으로 식별하여 트리플 형태인 (엔티티1, 관계, 엔티티2)로 만드는 작업이다[2]. 보통 관계 추 출에서는 엔티티를 추출할 때 Subject와 Object를 추출하여 관계(Predicate)를 분류한다. 관계 추출을 이용하여 질의 응답 시스템이나 정보 검색 등과 같은 자연어처리의 응용 분야에 활용할 수 있으며, 지식 베이스(Knowledge Base)를 자동으로 확장하는데 중요한 기술이다[3].
[4, 5]의 연구에서는 구문 분석 트리(Syntactic Parse Trees) 이나 개체명 인식(Named Entity Recognition)을 통해 각 엔 티티 유형을 파악하였으며 각 관계에 대해 SVM과 같은 분 류기를 통해 학습한 방법을 제안하였다. 최근 [6]은 문장에서 주어진 명사의 lexical level에 따라 벡터로 변환하고 Sentence level feature를 추출하기 위해 심층 신경망을 활용하여 관계를 예측하였다.
이와 같이 관계 추출은 두 엔티티 간의 관계를 분류하는 것이 기 때문에 두 엔티티에 대한 이해가 중요하다. 최근에 주목받고
∗교신저자(Corresponding author).
있는 언어 모델 BERT는 대용량의 코퍼스(corpus)을 기반으로 사전 학습(pre-training)을 진행하여 문장에서 문맥을 이해할 수 있도록 모델을 훈련 시켰다[7]. 이러한 언어 모델인 BERT 를 기반으로 다양한 자연어처리 태스크(task)를 진행하였을 때 분류 태스크(Classification task) 뿐만 아니라 대부분의 태스 크에서 높은 성능을 보였다. 하지만 관계 추출에서 주로 [CLS]
토큰(Token)을 통해 관계를 분류하는데 [CLS] 토큰만으로는 두 엔티티 간의 관계를 이해하기 어렵기 때문에 높은 성능을 낼 수 없는 문제가 있다.
본 논문에서는 두 엔티티 간의 이해를 통한 관계를 예측하는 것을 목표로 문장에서 엔티티 구분 없이 [CLS] 토큰으로 관 계를 예측하는 방법과 엔티티를 표현하기 위해 Special Token 을 추가하여 관계를 예측한 방법 2가지를 비교 분석하였다. 또 한 대표적인 언어모델인 BERT와 ALBERT로 학습하여 [CLS]
토큰보다 Special Token을 적용하였때 더 높은 성능을 보이는 것을 실험을 통해여 증명하였다.
2. Relation Extraction을 위한 언어 모델 fine-tuning
관계 추출을 문장에서 관계를 갖고 있는 엔티티들을 모델 의 입력에서 어떻게 표현하는지에 따라 관계를 분류하는데 더 효과적인 결과를 낼 수 있을 것으로 기대할 수 있다. 본 논문에 서는 엔티티가 포함된 문장이 주어졌을 때 엔티티간의 의미적 으로 이해하고 관계를 분류하는지 확인하기 위해 2가지 엔티티 정보를 포함한 표현 방법을 실험하였다.
- 124 -
1제32회 한글 및 한국어 정보처리 학술대회 논문집 (2020년)
그림 1. Standard 방법
그림 2. Special Token을 적용한 Entity-Markers 방법
2.1 Standard 방법
위 그림 1과 같이 입력 문장의 시작과 끝을 지정하기 위해 [CLS] 토큰과 [SEP] 토큰을 추가하였다. 또한 문장에서 entity1 과 entity2를 주어져도 모델의 입력에서는 entity1, 2에 대해 지정하지 않는다. 이와 같은 입력을 Transformer 모델의 입력 으로 넣어 성능을 확인하였다. 그림 1은 문장 분류(Sentence Classification) 방법처럼 한 문장을 Deep Transformer 모델에 넣었을 때 [CLS] 토큰의 출력(Output)으로 관계를 분류한다.
2.2 Entity-Markers 방법
Standard 방법과 비교하기 위해 엔티티에 대한 정보를 줄 수 있도록 Special Token을 추가한 방식인 Entity-Markers 방법이 다. 그림 2와 같이 문장에서 각 엔티티의 위치 앞과 뒤에 Special Token인 [entity1], [/entity1] 또는 [entity2], [/entity2]를 추가 하였다. 이와 같이Special Token을 적용한 입력(input) 방법 을 Transformer 모델에 적용하고 각 엔티티의 첫번째 Special Token의 출력들을 concat하여 관계 분류를 진행한다.
3. 실험 및 결과
3.1 데이터 셋
본 논문에서는 관계 추출에 사용되는 TACRED 데이 터 셋(Data Set)을 이용하여 실험을 진행하였다. TA- CRED는 LDC(Linguistic Data Consortium)에서 뉴스와이어 (Newswire), 웹 텍스트 및 방송자료에서 수집하여 대용량의 코퍼스(Corpus)를 구축하였다. 수집된 데이터는 문장에서 엔 티티에 대한 새로운 정보를 추출하여 추가 할 수있도록 매년
표 1. 관계 추출을 위해 2가지 방법을 적용한 언어모델에 따른 성능 결과
Model Precision Recall F1-score Standard BERT 30.27% 16.43% 18.33%
ALBERT 28.03% 6.78% 10.77%
Entity- Markers
BERT 66.23% 63.56% 66.34%
ALBERT 64.05% 43.97% 52.13%
TAC KBP(TAC Knowledge Base Population) 챌린지에 사용 되고 있다[8]. 수집된 TACRED 데이터셋은 총 106,262 개의 관계 추출 데이터 셋을 갖고 있으며, 총 41개의 관계 유형이 있고 정의가 되지 않은 관계 유형인 no relation을 포함하여 총 42개의 관계 유형을 갖고 있다.
3.2 실험 구성
문장에서 두 엔티티 간의 의미적으로 이해하고 관계를 분 류하는지 연구하기 위해 엔티티 구분 없이 표현한 Standard 방법과 Special Token을 통해 표현한 Entity-markers 방법에 대해 비교 실험을 하였다. 이를 기반으로 본 논문에서는 문 장에 대한 이해를 높이기 위해 자연어처리 시스템에서 높은 성능을 보이는 사전 학습(pre-training)된 언어모델인 BERT- Large와 ALBERT-Large를 적용하여 학습하였다[9]. BERT와 ALBERT는 비지도학습 방법으로 방대한 양의 데이터를 사전 학습으로 이루어져 있기 때문에 다양한 태스크에서도 효율적 인 성능을 보이는 모델로 알려져있다[7, 10]. 또한 ALBERT는 BERT의 모델이 커짐에 따라 발생되는 OOM(Out-Of Mem- ory)이나 학습 시간의 문제점을 고려하여 모델 크기를 줄인 모델이다. 본 논문에서는 두 가지 모델을 이용하였으며 모든 프레임워크는 PyTorch 기반으로 구현하였다[11]. 본 연구에서 사용된 사전 학습 모델인 BERT-Large와 ALBERT-Large의 경 우 HuggingFace∗[12]에서 구현된 코드 기반으로 Fine-tuning 을 진행하였다. Fine-tuning 방법 기반은 일반적인 설정을 기반 으로 문장 최대 길이는 512, 초기 학습률(learning-rate)를 3e-5 로하여 Adam Optimizer를 적용하여 진행하였다.
3.3 실험 결과
본 논문에서는 TACRED 데이터 셋에 대하여 평가를 진행하 였으며, 두 개의 방법에 따라 BERT-Large와 ALBERT-Large 를 모델에 fine-tuning하여 비교 분석 실험을 진행하였다. 위의 표 1는 관계 추출을 위한 언어 모델에 따른 성능을 비교하여 정리하였다. 전반적으로 문장에서 두 엔티티에 대해 Special Token을 추가하였을 때인 Entity-Markers가 성능이 높은 것
∗https://huggingface.co/bert-large-uncased,https:
//huggingface.co/albert-large-v2
- 125 -
2제32회 한글 및 한국어 정보처리 학술대회 논문집 (2020년)
을 확인할 수 있다. 특히 ALBERT-Large 기반의 모델 보다 BERT-Large 기반의 모델이 F1-score 기준으로 14% 이상 성 능 차이가 나는 것을 확인할 수 있다. 반면, 문장에서 두 엔티티 의 표현을 하지 않고 [CLS] 토큰으로 관계를 분류한 Standard 방법에서는 전반적으로 Entity-Markers 방법 보다 30% 이상 성능 차이가 나는 것을 확인할 수 있다. 이를 통해 관계 추출 을 진행하기 위해서는 문장에 있는 엔티티들의 표현을 정확하 게 파악한다면 엔티티의 의미를 알고 관계를 분류하는데 중요 한 것으로 분석된다. 또한 Entity-Markers의 성능과 비슷하게 ALBERT-Large 기반 모델보다 BERT-Large 기반 모델이 대 체적으로 성능이 높게 나온 것을 확인할 수 있다. 이와 같은 성 능은 ALBERT에서는 BERT보다 효율적으로 학습시키기 위해 모델의 크기를 줄였는데, 본 연구에 적용하였을 때 파라미터의 영향을 받는 것으로 파악된다. 즉, 임베딩 사이즈(Embedding size)가 작아서 엔티티의 단어의 의미 표현을 정확하게 파악하 는데 한계가 있는 것으로 분석된다.
4. 결론
최근 비정형 문서들이 방대해짐에 따라 중요한 정보를 자 동으로 정형화된 정보로 추출하는 분야인 관계 추출(Relation Extraction)분야가 주목되고 있다. 관계 추출은 문장에서 두 개의 엔티티(Entity)가 주어졌을 때 엔티티 간의 의미를 정확 하게 이해함에 따라 관계를 분류할 수 있다. 본 논문에서는 관 계 추출에서 두 개의 엔티티 간의 관계 추출을 위한 언어모델 에 따른 성능을 비교분석 하였다. 관계 추출을 위한 방법은 2 가지로 문장에서 [CLS] 토큰으로 관계를 분류하는 Standard 방법과 두 개의 엔티티에 대해 앞과 뒤로 Special Token을 추 가한 Entity-Markers 방법이 있다. 2가지 관계 추출을 방법을 기반으로 BERT-Large와 ALBERT-Large 모델에 fine-tuning 한 결과 문장에서 두 개의 엔티티에 대한 정확히 표현한 Entity- Markers에서 뛰어난 성능을 보여주었다. 본 결과를 통해 문장 에서 엔티티들을 정확히 잡고 엔티티들에 대한 의미적 해석을 잘 할 수 있다면 관계 추출에서 높은 성능을 보여질 것으로 기대된다. 본 연구는 영어기반의 관계 추출을 실험하였으나, 한국어에서도 관계 추출에 대한 많은 연구가 필요하다. 추후 본 모델을 적용하여 한국어에서 관계 추출 연구를 진행하고자 한다.
감사의 글
본 연구는 과학기술정보통신부 및 정보통신기술기획평 가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음 (IITP-2020-2018-0-01405)과 이 논문은 2020년도 정부(과학기 술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-00368, 뉴럴-심볼릭(neural-
symbolic) 모델의 지식 학습 및 추론 기술 개발).
참고문헌
[1] S. Pawar, G. K. Palshikar, and P. Bhattacharyya,
“Relation extraction: A survey,” arXiv preprint arXiv:1712.05191, 2017.
[2] 임준호 and 김현기, “Self-attention 지배소 인식 모델을 이용한 어절 단위 한국어 의존 구문분석,” 정보과학회논 문지, Vol. 46, No. 1, pp. 22–30, 2019.
[3] 임성우, 한지연, 이교운, and 최재식, “지식베이스 확장을 위한 자동 관계 추출,” 정보과학회지, Vol. 34, No. 9, pp.
39–46, 2016.
[4] Kambhatla and Nanda, “Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations,” Proceedings of the ACL 2004 on Interactive poster and demonstration sessions, 2004.
[5] G. Zhou, J. Su, J. Zhang, and M. Zhang, “Exploring various knowledge in relation extraction,” Proceedings of the 43rd annual meeting of the association for com- putational linguistics (acl’05), pp. 427–434, 2005.
[6] D. Zeng, K. Liu, S. Lai, G. Zhou, and J. Zhao, “Re- lation classification via convolutional deep neural net- work,” Proceedings of COLING 2014, the 25th Interna- tional Conference on Computational Linguistics: Tech- nical Papers, pp. 2335–2344, 2014.
[7] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,
“Bert: Pre-training of deep bidirectional transform- ers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.
[8] Y. Zhang, V. Zhong, D. Chen, G. Angeli, and C. D. Manning, “Position-aware attention and supervised data improve slot filling,” Pro- ceedings of the 2017 Conference on Empir- ical Methods in Natural Language Processing (EMNLP 2017), pp. 35–45, 2017. [Online]. Available:
https://nlp.stanford.edu/pubs/zhang2017tacred.pdf [9] L. Chanhee, W. Taesun, K. Minjeong, and L. Heuiseok,
“Predicting the politeness of an utterance with deep learning,” Proceedings of the 31st Annual Conference on Human and Cognitive Language Technology, pp. 280–
283, 2019.
[10] Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, and R. Soricut, “Albert: A lite bert for self-supervised
- 126 -
3제32회 한글 및 한국어 정보처리 학술대회 논문집 (2020년)
learning of language representations,” arXiv preprint arXiv:1909.11942, 2019.
[11] W. Taesun, L. Chanhee, Y. Kisu, L. Dongyub, K. Youngeun, J. Taehee, and L. Heuiseok, “Metonymy resolution based on neural approach,” Proceedings of the 31st Annual Conference on Human and Cognitive Lan- guage Technology, pp. 375–379, 2019.
[12] T. Wolf, L. Debut, V. Sanh, J. Chaumond, C. De- langue, A. Moi, P. Cistac, T. Rault, R. Louf, M. Fun- towicz, J. Davison, S. Shleifer, P. von Platen, C. Ma, Y. Jernite, J. Plu, C. Xu, T. L. Scao, S. Gugger, M. Drame, Q. Lhoest, and A. M. Rush, “Huggingface’s transformers: State-of-the-art natural language process- ing,” ArXiv, Vol. abs/1910.03771, 2019.