RoBERTa-catseqE: Neural keyphrase Extraction with Entity linking using RoBERTa

(1)

RoBERTa-catSeqE: 개체 연결을 이용한 RoBERTa기반 키워드 추출

이정두

^◦

, 나승훈 전북대학교 인지컴퓨팅연구실 [email protected], [email protected]

RoBERTa-catseqE: Neural keyphrase Extraction with Entity linking using RoBERTa

Jeong-Doo Lee

^◦

, Seung-Hoon Na

Jeonbuk National University, Cognitive Computing Lab 요 약

키워드 구문 추출(Keyphrase extraction)은 각 문서에서 내용과 주제를 포괄하는 핵심 단어 또는 구문을 추출하는 것을 말한다. 이는 뉴스나 논문에서 중요한 정보를 추출하는 데 매우 중요한 역할을 한다. 본 논문에서는 기존 catSeq 모델에 한국어로 학습한 RoBERTa 언어 모델을 적용하고 개체 연결 정보를 활용해 기존 키워드 생성 디코더와 개체 연결된 단어의 키워드 여부 분류 디코더, 즉 듀얼 디코더를 사용하는 모델을 제안하고 직접 구축한 한국어 키워드 추출 데이터에 대한 각 모델의 성능을 비교한다.

주제어: 키워드 구문 추출, 개체 연결, RoBERTa, catSeqE

1. 서론

키워드 구문 추출(Keyphrase Extraction)이란 각 문서에서 내용과 주제를 포괄하는 핵심 단어 또는 구문을 추출하는 것을 말한다. 문서의 키워드 구문을 추출하는 것은 짧은 구를 이용 하여 핵심 내용을 유추할 수 있기 때문에 매우 중요하다. 특히 최근 뉴스, 블로그 등 실시간으로 생성되는 대량의 데이터를 이 용하여 정보를 추출하는 기술이 큰 주목을 받고 있으며, 키워드 구문추출은 뉴스에서 중요한 정보를 추출하는 데 매우 중요한 역할을 한다. 이러한 키워드 구문 추출은 일반적으로 문서 요 약, 문서 분류 등을 위하여 자연어 처리 분야에서도 적용하기 위해 많은 연구가 활발하게 진행되고 있다. 그 중 키워드 구문 생성은 하나의 단어일 수도 있고 여러 단어로 구성될 수도 있다.

따라서 요약과 유사하게 Seq2Seq을 이용하는 연구 [1, 2, 3, 4]

가 많다. 기본적으로 사용되는 Seq2Seq 모델은 한 번에 하나의 구문만 생성하므로 여러 키워드 구문을 생성하기 위해 일반적 으로 빔 서치(Beam search) [5]를 사용한다. 이후 한번에 여러 키워드 구문을 생성하는 모델인 catSeq 모델 [6]이 나왔다.

개체 연결(Entity Linking)은 문장 내 출현한 단어의 중의성 을 해소하여 단 하나의 개념, 사물, 인물, 장소 등으로 연결하는 작업이다. 개체 연결 기술은 단어 의미가 결과물 품질에 영향을 주는 검색 엔진, 대화 시스템 등에서 중요한 구성 요소가 될 수 있다.

RoBERTa [7]는 트랜스포머 기반의 사전 학습 언어 모 델이다. 최근 딥러닝을 이용한 자연어 처리는 BERT [8], RoBERTa [7]와 같은 언어 모델을 사용하여 놀라운 성능향상 을 보이고 있다. RoBERTa [7]는 BERT [8]의 후속 모델로 기존 BERT [8] 모델에서 NSP태스크를 제외하고 Masked LM만을

태스크로 하여 사전 학습을 진행하고 매 학습 때마다 임의의 단어가 동적으로 마스킹이 될 수 있도록 하는 Dynamic Mask LM 방식을 사용한다.

본 논문에서는 catSeq 모델 [6]을 베이스라인으로 정의 한 다. 여기에 한국어로 학습시킨 RoBERTa [9] 을 적용하고 개체 연결 정보를 사용하여 해당 개체가 키워드인지 아닌지 이진 분 류를 통해 키워드를 생성한 후 두 결과를 결합한 성능을 비교한 다. 평가를 위한 데이터 셋은 네이버 뉴스 데이터를 수집하여 자체적으로 구축한 데이터를 사용한다.

2. 관련 연구

키워드 구문 추출은 지난 수십 년 동안 광범위하게 연구되고 있다. 이는 크게 지도 학습(supervised learning) 방법과 비지도 학습(unsupervised learning) 방법 두 가지로 나눌 수 있다.

비지도 방법은 훈련 데이터가 필요하지 않으며 모든 영역에 서 결과를 생성할 수 있다는 장점이 있다. 여기에는 통계 기반, 그래프 기반, 임베딩 기반 및 LM 기반 접근 방식이 포함된 다 [10]. 통계 기반 방법은 TF(Term Frequency), IDF(Inverse Document Frequency)및 cooccurrences [11]과 같은 적절한 점 수를 결합하여 후보 키워드 구문을 선택한다. TextRank [12], LexRank [13], TopicRank [14], SGRank [15] 및 SingleR- ank [16]는 그래프 기반 순위 알고리즘인 PageRank [17]를 활용 하여 후보 키워드 구문을 그래프의 노드로 사용하여 각 노드의 점수를 구해 Top-k개의 키워드 구문을 추출한다.

지도 방법은 학습을 위한 데이터가 필요하다. 키워드 구문 추출을 위한 데이터는 말뭉치와 해당 말뭉치에 대한 키워드 구문으로 구성 된다. 지도 학습 방법 중 최근 딥러닝 방식으

(2)

로 연구가 활발히 진행중이다. [1]은 단어 사전과 원본 문서에 있는 단어 중 선택하여 생성하는 CopyRNN을 처음 제안했다.

[2, 18]은 CopyRNN 모델 구조를 기반으로 중복 키워드 구문 생성을 줄이고 적용 범위를 개선하는 데 어텐션(Attention) 기 법을 활용한다. [6]은 구분자를 사용하여 한번에 여러 키워드 구문을 생성하는 catSeq 모델을 제안한다.

3. RoBERTa catSeqE 모델 구조

본 논문에서는 [6]의 catSeq 모델을 베이스라인으로 정의 한다. 그림 1은 본 논문에서 제안하는 모델 구조의 예시이다.

제안한 모델은 듀얼 디코더를 사용하여 키워드 구문을 예측 한다.

3.1 인코더

주어진 N개의 단어들을 w

_e ¹

, w

² _e

, · · · , w

_e ^N

, 단어 임베딩을 x

¹ _e

, · · · , x

^N _e

, RoBERTa의 아웃풋을 r

¹ _e

, · · · , r

_e ^N

, GRU의 히든 상태를 h

e

= (h

¹ _e

, · · · , h

^N _e

)이라 정의 할 때:

h

^t _{(e,f wd)}

= GRU

_{(e,f wd)}

(t

^t _e

, h

^(t−1) _{(e,f wd)}

), h

^t _(e,bwd)

= GRU

_(e,bwd)

(t

^t _e

, h

^(t+1) _(e,bwd)

),

h

^t _e

= concat(h

^t _{(e,f wd)}

, h

^t _(e,bwd)

), (1) t

^t _e

= concat(r

^t _e

, x

^t _e

)

여기서 h

^t _e

은 t번째 단어의 히든 상태를, f wd는 순방향을, bwd는 역방향을 의미한다. GRU의 각 타임 스탭마다의 아웃풋 을 O

e

= (o

¹ _e

, · · · , o

^N _e

), 개체를 설명하는 문서(description) 임베딩을 q

emb

라 할 때 개체 연결된 단어의 표상 E

i

는 다음과 같다.

E

i

= concat(span, q

emb

)

span = concat(o

w

_s, o

w

_e) (2) 여기서 o

w

_s는 mention span의 시작 인덱스에 해당하는 GRU 의 아웃풋이고 o

w

_e는 mention span의 마지막 인덱스에 해당하 는 GRU의 아웃풋이다.

3.2 디코더

3.2.1 키워드 구문 생성(Keyphrase generator)

키워드 구문 생성 디코더는 단일 방향 GRU를 사용하고 각 타임 스탭마다 단어 임베딩 x

^t _d

와 h

^(t−1) _d

을 받아 새로운 decoder 의 히든 스테이트 h

^t _d

를 생성한다.

h

^t _d

= GRU

d

(x

^t _d

, h

^(t−1) _d

) (3)

여기서 첫 히든 상태 h

⁰ _d

은 인코더의 마지막 히든 상태인 h

^N _e

이다. 이때 두 히든 상태의 차원을 맞춰주기 위해 FFNN(Feed Forward Neural Net)을 적용한다.

h

⁰ _d

= F F N N (h

^N _e

) (4) 이렇게 얻어낸 h

^t _d

를 통해 키워드 구문을 생성한다.

3.2.2 개체 이진 분류(Entity classification)

개체 이진 분류 디코더는 개체가 키워드인지 아닌지 이진 분류한다. 개체 연결된 단어의 표상(E

i

)을 2개의 FFNN(Feed Forward Neural Net)에 통과시킨 후 소프트맥스를 취해 분류 한다.

c

_i

= Sof tmax(F F N N

²

(E

_i

)) (5) 여기서 F F N N

²

는 FFNN이 2개의 층이라는 것을 의미한다.

3.3 훈련 시 손실 함수

본 논문은 negative log-likelihood loss를 사용한다.

L = L

KG

+ L

EC

(6) 여기서 L

KG

는 기존 키워드 생성에 대한 loss이고, L

EC

는 개 체의 키워드 여부 분류에 대한 loss이다.

3.4 키워드 구문 예측

키워드 구문 생성 디코더는 구분자 ‘[SEP]’를 사용하여 한번 에 여러 키워드 구문을 생성한다. 또한 더욱 정확한 예측을 위해 빔 서치(Beam search) [5]를 사용한다. 표 1은 생성된 키워드 구문의 예시이다.

표 1. 키워드 구문 생성 디코더 예시 원문 키워드 구문

키워드 구문 1 키워드 구문 2 생성된 키워드 구문

키워드 구문 1 [SEP] 키워드 구문 2 [EOS]

개체 이진 분류 디코더는 키워드라고 예측한 개체를 생성한 다. 이후 두 디코더가 생성한 키워드 구문을 결합하여 평가를 진행한다.

4. 실험

4.1 뉴스 데이터 구축

본 논문의 평가 데이터는 네이버 뉴스를 수집하여 ADAMS 의 오픈 API [19]와 TextRank [12]를 사용하여 반자동으로 키 워드 구문을 레이블링 하였다. 데이터 셋 통계는 표 2와 같다.

(3)

그림 1. RoBERTa catSeqE

표 2. 네이버 뉴스 데이터 셋 통계

문서 수 평균 키워드 수 Train set 5,391 6.09

valid set 770 6.15 Test set 1,541 6.11 Total 7,702 -

4.2 개체 연결 데이터

개체 연결은 RoBERTa 기반의 훈련된 딥러닝 모델 [20]로 뉴스 문서 내의 개체의 span과 해당 개체의 description 임베딩 값을 얻는다. 표 3은 개체 연결된 단어가 키워드인 비율이다.

표 3. 개체 연결 데이터 통계

개체 중 키워드 비율 Train set 19.78%

valid set 19.12%

Test set 19.50%

4.3 모델 실험 및 성능

기본 baseline 모델인 catSeq와 RoBERTa 기반 catSeq 모델, 그리고 개체 이진 분류 결과를 후처리로 한 것과 통합 모델의 실험을 진행하였다. 이때 개체 이진 분류 시 한 문서 내에 같 은 개체를 갖는 단어라도 mention span에 따라 각각 분류한다.

표 4는 각 모델에 따른 실험 결과이다. RoBERTa-catSeqE 모 델 실험 시 하이퍼파라미터 설정은 다음과 같다. beam size 는 10, GRU

e

의 hidden size는 512, word embedding size는 256, optimizer는 Adam과 BERTAdam을 사용하고. Adam의 learning rate은 0.05, BERTAdam은 2e-5를 사용한다.

표 4. 개체 연결 데이터 통계

Model Precision Recall F1 catSeq 41.22% 34.69% 37.67%

RoBERTa-catSeq 59.65% 49.89% 54.34%

RoBERTa-catSeq

59.60% 54.09% 56.71%

+ Entity classification

RoBERTa-catSeqE 60.06% 53.94% 56.83%

표 4의 성능은 Top-k개의 키워드를 뽑아 평가한 것이 아니라 생성된 모든 키워드 구문의 스코어이다. 각 모델의 실험 방법을 요약하면 다음과 같다.

1. catSeq: [6]의 모델로 CopyRNN [1] 모델에 구분자를 사용 하여 여러 키워드 구문을 한번에 생성한다. 그 외에 [6]에 제시된 구분자에 대한 직교 정규화와 시멘틱 보전은 사용 하지 않는다.

2. RoBERTa-catSeq: 언어 모델 RoBERTa [9]를 사용하여 임 베딩을 추가적으로 적용하고 키워드 구문 추출에 맞도록 미세 조정한다.

3. RoBERTa-catSeq + Entity classification: 문서 내 개체

(4)

의 키워드 여부를 분류하여 키워드라고 예측된 개체와 RoBERTa-catSeq를 통해 생성된 키워드를 통합한다. 즉 두 모델(RoBERTa-catSeq, Entity classification)의 결과를 합 친 것이다. 이때 분류 모델은 RoBERTa-catSeqE 모델에서 키워드 구문 생성 디코더(Keyphrase Generator)만 제거한 것과 동일하다.

4. RoBERTa-catSeqE: RoBERTa-catSeq 모델과 Entity clas- sification을 통합한 모델로 이는 3절과 같다.

평가 결과 베이스라인의 catSeq보다 RoBERTa를 추가했을 경우 큰 성능향상이 있었다. 이후 개체 이진 분류 결과를 후처 리로 더해준 결과 2.37%의 성능향상이 있었고 듀얼 디코더를 사용하여 모델을 통합한 결과 앞선 후처리 결과보다 0.12%의 성능향상이 있었다.

5. 결론

기존 catSeq 모델에 언어 모델인 RoBERTa를 적용한 모델 에서 큰 성능향상을 보였고 거기에 개체 연결 정보를 이용한 모델은 기존보다 더욱 향상된 성능을 보였다.

향후 개체 연결 정보를 활용하여 그래프를 형성하고 이를 통 해 더욱 정교한 분류를 수행할 수 있도록 연구할 것이다. 이후 각 문서의 문장마다 트리플 구조를 얻어 지식 그래프를 형성하 고 그래프 인코더와 문서 인코더, 즉 듀얼 인코더를 사용하여 더욱 정교하게 키워드 구문을 생성하는 모델이 될 수 있도록 연구할 예정이다.

참고문헌

[1] R. Meng, S. Zhao, S. Han, D. He, P. Brusilovsky, and Y. Chi, “Deep keyphrase generation,” arXiv preprint arXiv:1704.06879, 2017.

[2] J. Chen, X. Zhang, Y. Wu, Z. Yan, and Z. Li,

“Keyphrase generation with correlation constraints,”

arXiv preprint arXiv:1808.07185, 2018.

[3] H. Ye and L. Wang, “Semi-supervised learning for neural keyphrase generation,” arXiv preprint arXiv:1808.06773, 2018.

[4] W. Chen, Y. Gao, J. Zhang, I. King, and M. R. Lyu,

“Title-guided encoding for keyphrase generation,” Pro- ceedings of the AAAI Conference on Artificial Intelli- gence, Vol. 33, pp. 6268–6275, 2019.

[5] D. R. Reddy et al., “Speech understanding systems: A summary of results of the five-year research effort,” De- partment of Computer Science. Camegie-Mell Univer- sity, Pittsburgh, PA, Vol. 17, 1977.

[6] X. Yuan, T. Wang, R. Meng, K. Thaker, P. Brusilovsky, D. He, and A. Trischler, “One size does not fit all: Gen- erating and evaluating variable number of keyphrases,”

arXiv preprint arXiv:1810.05241, 2018.

[7] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov,

“Roberta: A robustly optimized bert pretraining ap- proach,” arXiv preprint arXiv:1907.11692, 2019.

[8] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,

“Bert: Pre-training of deep bidirectional transform- ers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.

[9] 민진우, 나승훈, 신종훈, and 김영길, “Roberta 를 이용한 한국어 자연어처리: 개체명 인식, 감성분석, 의존파싱,” 한 국정보과학회 학술발표논문집, pp. 407–409, 2019.

[10] E. Papagiannopoulou and G. Tsoumakas, “A review of keyphrase extraction,” Wiley Interdisciplinary Reviews:

Data Mining and Knowledge Discovery, Vol. 10, No. 2, p. e1339, 2020.

[11] K. S. Jones, “A statistical interpretation of term speci- ficity and its application in retrieval,” Journal of docu- mentation, 1972.

[12] R. Mihalcea and P. Tarau, “Textrank: Bringing order into text,” Proceedings of the 2004 conference on em- pirical methods in natural language processing, pp. 404–

411, 2004.

[13] G. Erkan and D. R. Radev, “Lexrank: Graph-based lexical centrality as salience in text summarization,” Jour- nal of artificial intelligence research, Vol. 22, pp. 457–

479, 2004.

[14] A. Bougouin, F. Boudin, and B. Daille, “Topicrank:

Graph-based topic ranking for keyphrase extraction,”

2013.

[15] S. Danesh, T. Sumner, and J. H. Martin, “Sgrank: Com- bining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction,”

Proceedings of the fourth joint conference on lexical and computational semantics, pp. 117–126, 2015.

[16] X. Wan and J. Xiao, “Single document keyphrase extraction using neighborhood knowledge.” AAAI, Vol. 8, pp. 855–860, 2008.

[17] L. Page, S. Brin, R. Motwani, and T. Winograd, “The pagerank citation ranking: Bringing order to the web.”

(5)

Stanford InfoLab, Tech. Rep., 1999.

[18] J. Zhao and Y. Zhang, “Incorporating linguistic constraints into keyphrase generation,” Proceedings of the 57th Annual Meeting of the Association for Computa- tional Linguistics, pp. 5224–5233, 2019.

[19] (2020) Adamsai. [Online]. Available: https://www.

adams.ai/apiPage?keywordextract

[20] 홍승연, 나승훈, 김현호, 김선훈, and 강인호, “멘션 임베 딩을 이용한 nil 멘션 탐지와 개체 연결의 통합 모델,” 한 국정보과학회 학술발표논문집, pp. 437–439, 2020.

RoBERTa-catseqE: Neural keyphrase Extraction with Entity linking using RoBERTa

RoBERTa-catSeqE: 개체 연결을 이용한 RoBERTa기반 키워드 추출

◦

RoBERTa-catseqE: Neural keyphrase Extraction with Entity linking using RoBERTa

◦

1. 서론

2. 관련 연구

3. RoBERTa catSeqE 모델 구조

e 1

2 e

e N

1 e

N e

1 e

e N

e

1 e

N e

t (e,f wd)

(e,f wd)

t e

(t−1) (e,f wd)

t (e,bwd)

(e,bwd)

t e

(t+1) (e,bwd)

t e

t (e,f wd)

t (e,bwd)

t e

t e

t e

t e

e

1 e

N e

emb

i

i

emb

w

w

w

w

t d

(t−1) d

t d

t d

d

t d

(t−1) d

0 d

N e

0 d

N e

t d

i

i

2

i

2

KG

EC

KG

EC

4. 실험

e

5. 결론

참고문헌

^◦

^◦

_e ¹

² _e

_e ^N

¹ _e

^N _e

¹ _e

_e ^N

¹ _e

^N _e

^t _{(e,f wd)}

_{(e,f wd)}

^t _e

^(t−1) _{(e,f wd)}

^t _(e,bwd)

_(e,bwd)

^t _e

^(t+1) _(e,bwd)

^t _e

^t _{(e,f wd)}

^t _(e,bwd)

^t _e

^t _e

^t _e

^t _e

¹ _e

^N _e

^t _d

^(t−1) _d

^t _d

^t _d

^t _d

^(t−1) _d

⁰ _d

^N _e

⁰ _d

^N _e

^t _d

_i

²

_i

²