Cross-Lingual Transfer of Pretrained Transformers to Resource-Scarce Languages

(1)

사전 학습된 Transformer 언어 모델의

이종 언어 간 전이 학습을 통한 자원 희소성 문제 극복

이찬희^◦, 박찬준, 김경민, 오동석, 임희석*

고려대학교 정보대학 컴퓨터학과

{chanhee0222, bcj1210, totoro4007, inow3555, limhseok}@korea.ac.kr

Cross-Lingual Transfer of Pretrained Transformers to Resource-Scarce Languages

Chanhee Lee^◦, Chanjun Park, Gyeongmin Kim, Dongsuk Oh, Heuiseok Lim*

Department of Computer Science and Engineering, Korea University 요 약

사전 학습된 Transformer 기반 언어 모델은 자연어처리 시스템에 적용되었을 시 광범위한 사례에서 큰 폭의 성능 향상을 보여준다. 여기서 사전 학습에 사용되는 언어 모델링 태스크는 비지도 학습에 속하는 기술이기 때문에 상대 적으로 데이터의 확보가 쉬운 편이다. 하지만 몇 종의 주류 언어를 제외한 대부분 언어는 활용할 수 있는 언어 자원 자체가 희소하며, 따라서 이러한 사전 학습 기술의 혜택도 누리기 어렵다. 본 연구에서는 이와 같은 상황에서 발생할 수 있는 자원 희소성 문제를 극복하기 위해 이종 언어 간 전이 학습을 이용하는 방법을 제안한다. 본 방법은 언어 자원이 풍부한 언어에서 학습된 Transformer 기반 언어 모델에서 얻은 파라미터 중 재활용 가능한 부분을 이용하여 목표 언어의 모델을 초기화한 후 학습을 진행한다. 또한, 기존 언어와 목표 언어의 차이를 학습하는 역할을 하는 적응 층들을 추가하여 이종 언어 간 전이 학습을 돕는다. 제안된 방법을 언어 자원이 희귀한 상황에 대하여 실험해본 결과, 전이 학습을 사용하지 않은 기준 모델 대비 perplexity와 단어 예측의 정확도가 큰 폭으로 향상됨을 확인하였다.

주제어: 사전 학습, 전이 학습, 언어 모델링, 자원 희소성 문제, Transformer

1. 서론

방대한 양의 말뭉치와 언어 모델링 태스크를 통해 사전 학습 된 Transformer 모델[1]은 자연어처리 시스템의 뼈대로 활용될 시 광범위한 도메인 및 태스크에 걸쳐 큰 폭의 성능 향상을 보 인다. 이에 따라 Transformer 모델의 사전 학습 기술은 근래 가장 영향력 있고 활발한 자연어처리 연구 분야 중 하나이며, BERT[2]를 시작으로 RoBERTa[3], ALBERT[4], BART[5], ELECTRA[6] 등 수많은 접근 방법이 제시되어 다양한 자연 어처리 시스템들의 성능을 향상시켰다. 여기에 사용되는 핵심 기술인 언어 모델링 태스크는 비지도 학습에 속하며, 원시 말 뭉치만으로도 모델의 학습이 가능하기 때문에 데이터 확보가 용이한 것으로 간주된다. 하지만 이는 수많은 언어 중 디지털화 된 언어자원이 많은 언어들, 그중에서도 특히 영어에 해당되는 사항이며, 대다수 언어는 원시 말뭉치의 확보도 쉽지 않다.

Wikipedia는 정형화된 문어로 구성되어 있고 활발히 정보가 추가되기 때문에 원시 말뭉치를 구하기 위한 첫 단계로 자주 사 용되며, 따라서 이로부터 언어별 언어 자원의 양을 가늠할 수 있다. 그림 1은 2020년 9월을 기준으로 Wikipedia 내 언어별 문 서의 수를 나타낸 것이며, 최소 100개 이상의 문서가 존재하는 언어 303종을 대상으로 자료를 수집하였다. 그림 1a에서 확인 할 수 있듯이, 문서의 수는 상위 소수의 언어에 대다수 문서가 집중되어 있는 멱법칙을 대체로 따르고 있다. 또한, 가장 문서가

∗교신저자(Corresponding author).

많은 언어인 영어에는 6백만 건 이상의 문서가 존재하는 반면, 절반 이상에 해당하는 154종의 언어에는 1만 건의 문서도 존재 하지 않는다. 문서 수를 기준으로 상위 10개 언어가 차지하는 비율을 나타낸 그림 1b에서는 이러한 자원의 불균형을 더 쉽게 확인할 수 있는데, 상위 10개 언어에 속한 문서의 수가 나머지 모든 언어로 작성된 문서의 수보다 많다. 한국어에는 총 약 52 만 건의 문서가 속해있으며, 이는 전체 303개의 언어 중 24위에 해당한다. 하지만 이는 여전히 영어의 문서 수 대비 약 8.5%에 불과하다.

동일한 모델을 사용했을 때, 학습 데이터의 양은 언어 모델 및 하위 자연어처리 시스템의 성능에 가장 큰 영향을 미치는 요소이므로 [7, 8, 9, 10] 언어 자원의 불균형은 이러한 최신 자연어처리 기술이 다양한 언어로 확대되는 과정에 있어 큰 걸림돌이다. 여러 언어를 동시에 학습하는 방법으로 자원이 희 소한 언어에서의 성능을 올릴 수 있지만[11, 12, 13, 14], 이는 학습에 필요한 자원을 기하급수적으로 증가 시켜 실효성이 떨 어진다. 본 연구에서는 이러한 한계점들을 극복하기 위해 언어 모델의 학습 시 이종 언어 간 전이 학습을 사용하는 방법을 제안한다. 제안하는 방법은 언어 자원이 풍부한 언어에서 학습 된 Transformer 기반 언어 모델에서 얻은 파라미터 중 재활용 가능한 부분을 이용하여 목표 언어의 모델을 초기화한 후 학습 을 진행한다. 또한, 기존 언어와 신규 언어의 차이를 학습하는 역할을 하는 적응 층들을 추가하여 이종 언어 간 전이 학습

(2)

(a) 언어별 문서 수의 분포.

(b) 문서 수에서 전체 언어 대비 상위 10개 언어가 차지하는 비율.

그림 1. Wikipedia 내 언어별 문서 수 통계 (2020년 9월 현재).

을 돕는다. RoBERTa 모델에 제안된 방법을 적용하고 언어 자원이 희귀한 상황을 가정하여 영어로부터 한국어로의 전이 학습을 실험해본 결과, 전이 학습을 사용하지 않은 기준 모델 대비 perplexity는 47.6% 감소하고, 단어 예측 정확도는 18.0%

향상됨을 확인하였다.

2. 제안하는 방법

2.1 원시 언어 사전 학습

제안하는 방법은 이종 언어 간 전이 학습을 목표로 하므로 전이를 위한 원시 언어에서의 모델이 요구된다. 본 방법은 대 부분 모델 구조에 적용할 수 있는 범용적인 것으로, 그림 2a 에서와 같이 단어 임베딩(입력 계층)과 인코딩 계층, 출력 계 층으로 구성되어 있어야 한다는 기본적인 것 외에는 모델 선택 시 제약 조건이 없다. 또한, 원시 언어에서의 모델 사전 학습 시 추가로 요구되는 모델 구성 요소나 알고리즘, 손실 함수 등이 없기 때문에 사전에 학습되어 공개된 모델 파일을 사용하는 것 에도 문제가 없다. 이는 원시 언어에서의 사전 학습에 소요되는 시간적, 금전적 자원을 절약할 수 있다는 면에서 매우 강력한 장점이다.

어떠한 언어를 사전 학습에 활용할 것인가도 전이 학습 후의 성능에 큰 영향을 미칠 것으로 에상되며, 따라서 매우 중요한 향후 연구 과제이다. 특히, 각 언어의 특성 및 언어학적 유사 성 등은 매우 흥미로우면서도 많은 실험이 필요한 주요 변수가 될것으로 기대된다. 일반적으로는 원시 언어에서의 성능이 우 수할수록 전이 학습에도 유리하다고 가정할 수 있으며, 이를 바탕으로 볼 때 학습을 위한 데이터가 풍부한지 여부가 목표 언어에서의 성능에 많은 영향을 미칠 것이다. 본 연구에서는 데이터의 양도 가장 풍부하고 학습된 모델도 공개되어 있는 영어를 원시 언어로 선택하여 실험을 진행하였다.

2.2 전이를 위한 파라미터 선택

원시 언어에서 학습된 모델의 파라미터 중 목표 언어에서의 학습에 도움이 되는 것들과 되지 않는 것들을 구분하는 것이 전이 학습을 위한 다음 단계이다. 앞서 설명했듯 본 방법을 적 용하기 위한 모델의 최소 구성 요소는 단어 임베딩, 인코딩 계 층, 그리고 출력 계층이다. 이 중 가장 중요한 것은 의미 공간에 투사된 단어 벡터들을 문맥을 바탕으로 맥락화(contextualize) 하는 인코딩 계층들이다. 본 연구에서도 인코딩 계층에 속한 파라미터만 재활용하고, 나머지 파라미터는 무작위 값으로 초 기화한 후 학습을 진행한다.

단어 임베딩 혹은 입력 계층은 각 언어를 의미 공간에 투사시 키는 역할을 하므로 목표 언어에서의 직접적인 활용은 어렵다.

하지만 이를 재활용하여 목표 언어에서의 단어 임베딩을 학습 시키는 것은 복수 언어 단어 임베딩 기술을 응용하여 구현할 수 있다. [15]의 연구에서는 두 언어의 문서들을 이어붙이고 이를 이용하여 단어 임베딩을 학습하는 방법으로 성공적으로 이중 언어 임베딩을 학습시켰다. 또한, 개별적으로 학습된 두 단 어 임베딩 공간을 적대적 학습을 이용하여 정렬시키는 방법도 존재한다[16]. 하지만 이러한 방법들은 전이 학습 시 추가적인 단계를 도입하여 학습 비용을 상승시킨다. 또한, 본 연구에서 제 안하는 전이 학습 역시 비지도 학습으로 복수 언어 단어 임베딩 학습 시 활용할 수 있는 말뭉치와 사실상 동일하므로 이로부터 얻을 수 있는 이익은 한정적일 것으로 예상된다. 따라서 본 연 구에서는 원시 언어에서의 단어 임베딩은 재사용하지 않는다.

2.3 적응 계층

원시 언어 모델의 인코딩 계층을 재사용하고 단어 임베딩과 출력 계층을 학습하는 것은 원시 언어의 각 단어에 해당하는 목표 언어에서의 단어 임베딩을 학습하는 것으로 볼 수 있다.

하지만 이는 두 가지 문제를 동반한다. 첫째, 이는 원시 언어와 목표 언어의 단어들 사이에 1:1 대응 관계가 존재한다는 것을 전제로 하는데, 이는 사실이 아닐 가능성이 매우 높다. 둘째, 두 언어사이의 문법적 차이에 따라 어순 등이 다를 수 있는데, 단어 임베딩만을 새로이 학습하는 방법으로는 어순의 차이를

(3)

그림 2. 본 논문에서 제안하는 Transferred Language Model (TLM)과 TLM+의 구조도.

모델에 반영시키기 어렵다.

이러한 한계들을 극복하고자, 본 연구에서는 적응 계층들을 추가하여 언어 간의 차이를 학습하는 방법을 제안한다. 적응 계층은 입력 계층과 인코딩 계층 사이, 그리고 인코딩 계층과 출력 계층 사이에 추가되며, 전자를 입력 적응 계층, 후자를 출 력 적응 계층으로 칭하기로 한다. 적응 계층의 구조는 인코딩 계층과 동일한 것을 사용하되, 입력과 출력에 각각 하나의 계 층만을 추가하여 계산 및 공간 복잡도의 상승을 최소화한다.

적응 계층이 추가된 모델의 구조는 그림 2b와 2c에 나타나 있 다. 적응 계층들의 도입은 모델 학습 시 언어 간 차이를 극복할 수 있는 단어 간의 조합 및 어순 변경 등을 학습할 수 있도록 한 다. 이는 원시 언어와 목표 언어 간 최소한의 번역을 수행하는 것으로도 이해할 수 있다.

2.4 전이 학습

본 연구에서 제안하는 전이 학습은 두 단계로 진행된다. 첫 번째 단계는 적응 계층들과 단어 임베딩을 학습하는 것이다.

이를 위해서 인코딩 계층들의 파라미터는 고정하여 학습에서 배제시킨다. 이는 학습되지 않은 파라미터로부터 발생하는 잡 음으로 인해 인코딩 계층들의 파라미터에 학습되어 있던 지 식이 손상되는 것을 방지하기 위함이다. 이렇게 학습된 모델 은 Transferred Language Model (TLM, 그림 2b)로 칭하기로 한다.

TLM의 학습이 완료되면 두 번째 단계로 모든 파라미터를 함께 학습하는 과정을 진행한다. 이는 목표 언어와 부합되지 않으나 파라미터의 고정으로 인해 남아있던 원시 언어의 특성 들을 제거하거나 감소시키는 역할을 한다. 현 단계에서는 적응 계층 및 단어 임베딩의 파라미터가 학습되어 잡음이 최소화

되었음을 가정하며, 역으로 이들로부터 발생하는 목표 언어의 특성과 관련된 학습 신호들로 인코딩 계층들의 파라미터를 수 정한다. 두 번째 단계의 결과로 만들어진 모델은 TLM+(그림 2c)로 칭한다.

3. 실험 및 분석

3.1 실험 설계 3.1.1 모델 및 언어

앞선 장에서 언급하였듯이 제안하는 방법은 매우 범용적이 며 다양한 모델 구조에 적용할 수 있다. 정량적 평가를 위해 본 논문에서는 RoBERTa[3] 모델을 사용한다. 해당 모델은 가장 널리 사용되는 Transformer 기반 사전 학습 언어 모델인 BERT 와 거의 동일한 구조를 사용하면서도, BERT의 단점으로 제기 되었던 정적 단어 마스킹 등을 수정한 것이다. 모델의 하이퍼 파라미터는 768차원의 단어 임베딩과 12개의 인코딩 계층 등 을 사용하는 base 설정을 바탕으로 하였으며, 적응 계층들의 추가로 인해 총 계층의 수는 14개이다.

원시 언어의 경우 2.1장에서 나열한 이유를 바탕으로 영어를 선택하였다. 원시 언어 모델은 새로이 학습하는 대신 Facebook AI Research에서 학습 후 Fairseq 프레임워크[17]를 통해 공개 한 모델을 활용하였다. 목표 언어는 본 학회 및 관련 연구자들 에게 가장 관련이 높은 한글을 이용하여 정량적 평가를 진행하 였다.

3.1.2 기준 모델

TLM과 TLM+에는 2개의 적응 계층이 추가되었기 때문에 RoBERTa base 모델 대비 파라미터의 수가 더 많다. 단순히 파라미터 수의 증가로 인해 성능이 변화하는 것을 방지하기

(4)

Perplexity 단어 예측 정확도 (%)

기준 모델 40.3 42.8

TLM 23.5 48.4

TLM+ 21.1 50.5

표 1. 이종 언어 간 전이 학습 실험의 정량적 성능 비교.

위해 기준 모델(baseline)에도 2개의 계층을 추가하여 파라미 터의 수를 동일하게 유지하였다. 모델의 구조 또한 기준 모델과 TLM, 그리고 TLM+가 모두 동일하며, 기준 모델의 경우에는 모든 파라미터를 RoBERTa 논문에서 사용된 방법으로 무작 위 값으로 초기화한 후 고정되는 파라미터 없이 학습 데이터로 최적화하였다.

3.1.3 학습 데이터

한글 모델의 학습을 위한 데이터로는 2020년 9월 기준의 한 국어 Wikipedia^∗를 사용하였으며, [18]을 이용하여 문서 본문만 을 추출하였다. 추출된 본문으로부터 NLTK의 Punkt Sentence Tokenizer[19]를 학습시킨 후 이를 이용하여 문장 단위로 분리 하고, SentencePiece[20] 알고리즘을 통해 50,000개의 토큰을 가진 단어집을 기준으로 토큰화하였다. 언어 자원이 희소한 상 황을 가정하여 10만 개의 문장을 무작위로 추출하여 학습 데 이터로 활용하였으며, 검증 데이터와 평가 데이터 또한 각 1만 개의 문장을 추출하여 사용하였다.

3.1.4 구현 및 학습

구현 및 실험은 PyTorch[21] 및 Fairseq[17] 프레임워크로 이 루어졌다. 모든 모델은 검증 데이터에서의 손실 함수 값이 30 epoch 동안 감소하지 않을때까지 진행되었으며, TLM+ 모델 의 경우 TLM 모델의 학습 중 검증 데이터에서의 손실 함수 값 이 가장 낮았을 때의 파라미터로부터 추가 학습을 진행하였다.

하이퍼 파라미터는 RoBERTa base 모델의 것을 적용하였다.

3.2 실험 결과

정량적 비교를 위한 지표로는 perplexity와 단어 수준 예측 정확도를 사용하였다. Perplexity는 언어 모델링 태스크에서 널리 사용되는 지표로, 언어의 단어들이 나타내는 확률 분포를 모델이 얼마나 정확하게 학습하였는지를 보여주며 값이 낮을 수록 학습이 잘 되었다고 판단한다. 단어 수준 예측 정확도는 입력에서 가려진(masked) 단어들에 대한 모델의 예측이 정답 단어와 일치하는 비율을 나타내며, 값이 높을수록 모델의 성능 이 우수하다고 볼 수 있다.

이러한 지표들을 바탕으로 기준 모델과 본 논문에서 제안한 방법을 적용한 모델들의 성능이 표 1에 정리되어 있다. 원시 언

∗https://dumps.wikimedia.org/kowiki/20200901/

어인 영어에서 학습된 인코딩 계층들의 파라미터를 고정시킨 TLM 모델의 성능은 기준 모델 대비 perplexity는 41.7% 감소 하고, 단어 예측 정확도는 13.1% 증가하였다. 이로부터 영어에 서 학습된 지식이 한국어를 모델링하는데 크게 도움이 됨을 알 수 있다. TLM에서 인코딩 계층들까지 함께 추가 학습을 진행 한 TLM+ 모델의 경우 추가적인 성능 향상이 나타남을 확인하 였다. 최종적으로 TLM+ 모델은 기준 모델 대비 perplexity와 단어 예측 정확도가 각각 47.6%와 18.0% 향상되었다. 이로 볼 때, 영어에서 학습된 지식 중 한국어를 모델링하는 데에는 부 정적인 영향을 미치는 요소들이 있었으며, TLM+ 모델의 추가 학습 과정이 이를 효과적으로 제거하였음을 알 수 있다.

4. 결론

본 연구에서는 학습을 위한 데이터가 부족한 상황에서 사 전 학습된 Transformer 언어 모델의 성능을 향상시킬 수 있는 방법으로 이종 언어 간 전이 학습을 활용하는 방법을 제안하 였다. 제안하는 방법은 자원이 풍족한 언어에서 학습된 모델의 파라미터를 선택적으로 재사용하고, 언어 간 차이를 학습 및 극복할 수 있도록 설계된 적응 계층들을 도입하여 효과적으로 전이 학습을 수행할 수 있다. 본 방법을 RoBERTa 모델에 적 용하고 영어에서 한국어로의 전이 학습 상황에 대하여 실험한 결과, 언어 모델링의 주요 지표인 perplexity와 단어 수준 예측 정확도가 큰 폭으로 향상됨을 확인하였다.

다양한 자연어처리 시스템에 본 방법을 사용하여 전이 학습 된 언어모델을 적용하였을 때에도 동일한 수준의 성능 향상이 관찰되는지를 확인하는 것이 가장 중요한 향후 연구이다. 데 이터의 양과 언어적 특성이 다른 다양한 언어들에 대해서 본 방법이 범용적으로 적용되는지를 확인하는 과정도 진행되어야 한다. 영어의 특성들 중 어떠한 것들이 TLM+ 학습 후에도 남 아있고 어떠한 것들이 사라졌는지와 그 이유를 분석하는 것도 언어학적 측면에서 흥미로운 연구가 될 것으로 기대된다.

감사의 글

본 연구는 과학기술정보통신부 및 정보통신기술기획평 가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음 (IITP-2020-2018-0-01405). 또한, 이 논문은 2020년도 정부 (과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-00368, 뉴럴-심볼릭 (neural-symbolic) 모델의 지식 학습 및 추론 기술 개발).

참고문헌

[1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin,

“Attention is all you need,” Advances in neural information processing systems, pp. 5998–6008, 2017.

(5)

[2] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,

“Bert: Pre-training of deep bidirectional transformers for language understanding,” Proceedings of the 2019 Conference of the North American Chapter of the As- sociation for Computational Linguistics: Human Lan- guage Technologies, Volume 1 (Long and Short Papers), pp. 4171–4186, 2019.

[3] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov,

“Roberta: A robustly optimized bert pretraining ap- proach,” arXiv preprint arXiv:1907.11692, 2019.

[4] Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, and R. Soricut, “Albert: A lite bert for self-supervised learning of language representations,” International Conference on Learning Representations, 2019.

[5] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mo- hamed, O. Levy, V. Stoyanov, and L. Zettlemoyer,

“BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and com- prehension,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp.

7871–7880, Jul. 2020.

[6] K. Clark, M.-T. Luong, Q. V. Le, and C. D. Manning,

“Electra: Pre-training text encoders as discriminators rather than generators,” International Conference on Learning Representations, 2019.

[7] Z. Yang, Z. Dai, Y. Yang, J. Carbonell, R. R. Salakhut- dinov, and Q. V. Le, “Xlnet: Generalized autoregressive pretraining for language understanding,” Advances in neural information processing systems, pp. 5753–5763, 2019.

[8] R. Zellers, A. Holtzman, H. Rashkin, Y. Bisk, A. Farhadi, F. Roesner, and Y. Choi, “Defending against neural fake news,” Advances in Neural Infor- mation Processing Systems, pp. 9054–9065, 2019.

[9] A. Baevski, S. Edunov, Y. Liu, L. Zettlemoyer, and M. Auli, “Cloze-driven pretraining of self-attention net- works,” Proceedings of the 2019 Conference on Empir- ical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pp. 5363–5372, 2019.

[10] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever, “Language models are unsupervised mul- titask learners,” Technical report, OpenAI., 2019.

[11] M. Johnson, M. Schuster, Q. V. Le, M. Krikun, Y. Wu, Z. Chen, N. Thorat, F. Vi´egas, M. Wattenberg, G. Cor- rado et al., “Google’s multilingual neural machine translation system: Enabling zero-shot translation,” Transac- tions of the Association for Computational Linguistics, Vol. 5, pp. 339–351, 2017.

[12] A. Conneau and G. Lample, “Cross-lingual language model pretraining,” Advances in Neural Information Processing Systems, pp. 7059–7069, 2019.

[13] A. Conneau, K. Khandelwal, N. Goyal, V. Chaud- hary, G. Wenzek, F. Guzm´an, E. Grave, M. Ott, L. Zettlemoyer, and V. Stoyanov, “Unsupervised cross- lingual representation learning at scale,” arXiv preprint arXiv:1911.02116, 2019.

[14] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li, and P. J. Liu, “Exploring the limits of transfer learning with a unified text-to-text transformer,” arXiv preprint arXiv:1910.10683, 2019.

[15] G. Lample, A. Conneau, L. Denoyer, and M. Ranzato,

“Unsupervised machine translation using monolingual corpora only,” International Conference on Learning Representations, 2018.

[16] G. Lample, A. Conneau, M. Ranzato, L. Denoyer, and H. J´egou, “Word translation without parallel data,”

International Conference on Learning Representations, 2018.

[17] M. Ott, S. Edunov, A. Baevski, A. Fan, S. Gross, N. Ng, D. Grangier, and M. Auli, “fairseq: A fast, extensible toolkit for sequence modeling,” Proceedings of NAACL- HLT 2019: Demonstrations, 2019.

[18] G. Attardi, “Wikiextractor,” https://github.com/

attardi/wikiextractor, 2015.

[19] T. Kiss and J. Strunk, “Unsupervised multilingual sentence boundary detection,” Computational linguistics, Vol. 32, No. 4, pp. 485–525, 2006.

[20] T. Kudo and J. Richardson, “Sentencepiece: A simple and language independent subword tokenizer and deto- kenizer for neural text processing,” Proceedings of the 2018 Conference on Empirical Methods in Natural Lan- guage Processing: System Demonstrations, pp. 66–71, 2018.

[21] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, N. Gimelshein, L. Antiga,

(6)

A. Desmaison, A. Kopf, E. Yang, Z. DeVito, M. Raison, A. Tejani, S. Chilamkurthy, B. Steiner, L. Fang, J. Bai, and S. Chintala, “Pytorch: An imperative style, high- performance deep learning library,” Advances in Neu- ral Information Processing Systems 32, pp. 8024–8035, 2019.