Building Specialized Language Model for National R&D through Knowledge Transfer Based on Further Pre-training

논문접수일 2021년 08월 22일 | 1차 수정 2021년 09월 04일 | 게재확정일 2021년 09월 05일

추가 사전학습 기반 지식 전이를 통한 국가 R&D 전문 언어모델 구축

Building Specialized Language Model for National R&D through Knowledge Transfer Based on Further Pre-training

유은지 (Eunji Yu)

서수민 (Sumin Seo)

김남규 (Namgyu Kim)

2.1. 딥러닝 기반 텍스트 임베딩

2.2. 사전학습 언어모델

2.3. 국가 R&D 정보 분류 체계

3.2. 전문 용어 식별 및 전문어 확장 토크나이저 구축

3.3. MLM 기반 추가 사전학습

4.2. 전문 용어 선정 및 전문어 토크나이저 구축 결과

4.3. MLM 기반 추가 사전학습 결과

4.4. 미세 조정 및 성능 평가

유 은 지 (Eunji Yu)

서 수 민 (Sumin Seo)

김 남 규 (Namgyu Kim)

< Abstract >

Building Specialized Language Model for National R&D through Knowledge Transfer Based on

Further Pre-training

, Namgyu Kim

* Graduate School of Business IT, Kookmin University ** Graduate School of Business IT, Kookmin University

*** Graduate School of Business IT, Kookmin University

Building Specialized Language Model for National R&D through Knowledge Transfer Based on Further Pre-training

추가 사전학습 기반 지식 전이를 통한 국가 R&D 전문 언어모델 구축

Building Specialized Language Model for National R&D through Knowledge Transfer Based on Further Pre-training

국민대학교 비즈니스IT 전문대학원 1)

국민대학교 비즈니스IT 전문대학원 2)

국민대학교 비즈니스IT 전문대학원 3)

주제어: 국가 R&D, 지식 전이, 사전학습 모델, BERT, 추가 사전학습

대표적인 사전학습 언어모델인 BERT(Bidirectional Encoder Representations from Transformers)(Devlin et al., 2018)는 MLM(Masked Language Model) 기법을 통

국가 R&D 분야에서도 위와 같은 문제가 동일하게

발생하며 , 이는 <그림 1>을 통해 확인할 수 있다. <그

림 1>은 “치매 바이오마커 개발 및 유용성 평가”라는

국가 R&D 과제가 어떤 분류에 속하는지 예측하는 분

본 논문의 이후 구성은 다음과 같다. 2장에서는 딥 러닝 기반 텍스트 임베딩 , 사전학습 언어모델 그리고 국가 R&D 정보 분류 체계에 대한 관련 연구를 소개하 고, 3장에서는 본 연구에서 제안한 모델의 전체 프로

세스에 대해 설명한다. 4장에서는 제안한 모델의 검증 을 위해 수행한 성능 평가 실험에 대한 결과를 요약하 고 , 마지막 장인 5장에서는 본 연구의 기여와 앞으로 의 연구 계획을 제시한다 .

<그림 1> 전문어 학습 부족으로 인한 분석 과제의 성능 저하

하지만 LSTM, Seq2Seq와 같은 모델은 문장의 길이 가 길어질수록 과거의 정보들을 잊어버리는 문제와 함 께, 모든 정보를 하나의 고정된 벡터 공간에 압축하는 과정에서 정보의 손실이 발생한다는 한계를 갖는다.

사전학습 언어모델은 대규모의 텍스트 데이터에서 일반적인 의미의 텍스트 정보와 특징들을 사전에 학 습한 후, 학습된 지식을 여러 자연어 처리 분야의 하 위 분석 과제 (Downstream Task)에 적용하는 방법이다.

BERT는 트랜스포머 모델의 인코더 부분을 기반으로

하여 구축된 모델로, 기존 사전학습 모델의 한계인 단방

향 학습 방식을 양방향으로 개선하여 더욱 풍부한 텍스

또한 분류 체계에 대해 설명된 텍스트 데이터를 대상

으로 분류 체계 간 유사도를 계산하여 서로 다른 분류

체계를 매핑하려는 하는 연구가 수행되었으며 (이재성 외, 2018), 특허청 등 관련 기관에서도 과학기술표준 분류 체계, 표준산업분류, 그리고 특허청 IPC 분류 간 연계 표를 구축하여 공개하고 있다 .

<그림 2>는 본 연구에서 제안하는 언어모델, 즉 추 가 사전학습 기반 국가 R&D 전문 언어모델을 구축하 는 전체 과정을 나타낸다 .

먼저, 전문어를 국가 R&D 과제 문서에서 추출하고 (단계 1), 이를 사전학습된 BERT 말뭉치와 비교하여 BERT에 존재하지 않는 전문어를 식별해 토크나이저

<그림 2> 추가 사전학습 기반 국가 R&D 전문 언어모델 구축 개요

<그림 3>은 이러한 과정을 통해 “줄기세포”와 “염증 반응”을 R&D 용어 확장을 위한 전문어로 식별한 예 시를 보여준다.

<그림 3> R&D 용어 확장을 위한 전문어 식별 예

<그림 4> 확장 토크나이저 기반 전문어 보존 분절

식별해 냄을 확인할 수 있다 .

BERT의 MLM 학습 기법은 무작위로 단어를 선정 하여 [MASK] 토큰으로 대체하고 마스킹된 단어를 예 측하는 학습을 수행하는데, 본 예에서는 “의료기기”

가 [MASK] 토큰으로 대체된 경우를 보이고 있다. 추 가 사전학습은 일반 사전학습과 동일한 방식으로 수 행되며, 질의, 키 그리고 값에 대한 가중치인 W

, W

, W

행렬을 임의의 값이 아닌 BERT를 통해 사전학습 된 값을 사용한다는 점 , 방대한 양의 일반 문서가 아 닌 상대적으로 소량의 R&D 과제 문서를 학습에 사용 한다는 점에서 차이가 있다. 이처럼 R&D 과제 문서에

대한 추가 사전학습을 통해 최종적으로 전문어의 의 미 정보와 국가 R&D 분야에 대한 지식을 충분히 정확 하게 표현할 수 있다.

<그림 5> R&D 문장 추가 사전학습 예

사용하였다 . 보건의료, 정보통신 분야 모두 15개의 하 위분류를 분류 타겟(Target)으로 하였으며, 입력 데이 터로는 “과제명”과 “연구목표”를 연결(Concatenate)하 여 사용하였다.

<표 1> 추가 전문어 선정 결과 (일부) 보건의료

분야

뇌, 미세먼지, 바이오마커, 암, 예방, 줄기세포, 파킨슨병, 프로그램, ...

정보통신 분야

네트워크, 머신러닝, 블록체인, 스마트, 스마트센서, 안드로이드, 증강현실, 클라우드, ...

사전학습된 BERT는 SKTBrain에서 개발한 한국어 BERT 언어모델인 KoBERT-base를 사용하였다.

는 확장된 전문어 토크나이저를 통해 각 과제 데이터 를 분절한 결과의 일부를 보여준다 .

<표 2> 확장된 토크나이저를 통한 과제 데이터 분절 (일부)

본 절에서는 확장된 전문어 토크나이저를 통해 분

절된 과제 데이터에 대해 MLM 기반 추가 사전학습을

수행한 결과를 소개한다. 추가 사전학습을 위한 모델

은 트랜스포머 블록 12개, 어텐션 헤드 12개, 그리고

은닉층 768개로 구성되어 있으며, 문장의 최대 길이는

512로 설정하였다. 또한 추가 사전학습을 위한 모델의

가중치 초기값은 KoBERT-base 모델의 가중치를 사용

하였다. 이후 전문어 토크나이저를 통해 분절된 과제

데이터에 대해 전체 토큰의 15%를 무작위로 선정하

고 , 그중 80%를 [MASK] 토큰으로 대체하는 마스킹을

수행하여 최종적으로 MLM 기반의 추가 사전학습을

수행한 R&D KoBERT를 구축하였다. <그림 6>은

R&D KoBERT를 통해 주어진 문장에 대한 학습을 수

행하는 과정을 나타내며 , 실제 데이터의 동일 문장에

대해 KoBERT-base에 의한 학습과 R&D KoBERT에

의한 학습 결과가 다르게 나타남은 <표 3>을 통해 확

인할 수 있다 . <표 3>은 <그림 6>에서 나타난 문장 표

현 벡터 , 즉 첫 토큰인 CLS의 표현 벡터인 R

를 나

타낸다.

<그림 7>의 좌측은 제안 모델인 R&D KoBERT를 활용하여 R&D 과제 데이터에 대한 다중 분류 학습과

<그림 6> R&D KoBERT를 통한 학습 (일부)

<표 3> KoBERT-base와 R&D KoBERT의 문장 표현 학습 결과 비교

추론을 수행하였으며, 그 결과는 <그림 9>와 같다.

<그림 7> 성능 평가 실험 개요

<그림 8> 에폭별 손실 값 비교

<그림 9> R&D KoBERT와 KoBERT-base 모델의 분류 성능 비교

1. 고영만, 서태설, 조순영 (2006). 국가지식정보 자원 분류 체계 표준화 연구. 한국문헌정보학회지, 40(3), 151-173.

2. 김선우, 고건우, 최원준, 정희석, 윤화묵, 최성필 (2018). 기술 과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구. 정보관리학회지, 35(4), 141-164.

3. 김재수 (2008). 국가과학기술종합정보서비스(NTIS)-NTIS 구축사업 개요. 지식정보인프라, 30, 31-34.

4. 김창식, 곽기영 (2015). 조직구성원의 네트워크 위치가 지식공 유에 미치는 영향. 지식경영연구, 16(2), 67-89.

5. 김태현, 양명석, 최광남 (2019). 국가R&D정보 활용을 위한 전문용어사전 구축. 한국콘텐츠학회 논문지, 19(10), 217-225.

6. 김현종, 이강배, 류승우, 홍순구 (2020). A study on classification scheme generation for automatic classification of unlabeled documents. 디지털콘텐츠학회 논문지, 21(12), 2211-2219.

7. 백윤정, 김은실 (2008). 실행공동체(CoP)내 지식공유의 영향 요인: 구조적 특성과 관계적 특성의 조절효과를 중심으로.

국민대학교 비즈니스IT 전문대학원 ¹⁾

국민대학교 비즈니스IT 전문대학원 ²⁾

국민대학교 비즈니스IT 전문대학원 ³⁾