Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL

(1)

한국어 오픈 도메인 대화 모델의 CTRL을 활용한 혐오 표현 생성 완화

좌승연

^◦†*

, 차영록

^‡*

, 한문수

^‡

, 신동훈

^‡

서울대학교

^†

, ㈜엔씨소프트

^‡

[email protected], {jaycha, mshan92, dhshin}@ncsoft.com

Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL

Seung Yeon Jwa

^◦†*

, Young-rok Cha

^‡*

, Moonsu Han

^‡

, Donghoon Shin

^‡

Seoul National University

^†

, NCSOFT Corp.

^‡

요 약

대형 코퍼스로 학습한 언어 모델은 코퍼스 안의 사회적 편견이나 혐오 표현까지 학습한다. 본 연구에서는 한국어 오픈 도메인 대화 모델에서 혐오 표현 생성을 완화하는 방법을 제시한다. Seq2seq 구조인 BART [1]를 기반으로 하여 컨트롤 코드을 추가해 혐오 표현 생성 조절을 수행하였다. 컨트롤 코드를 사용하지 않은 기준 모델(Baseline)¹과 비교한 결과, 컨트롤 코드를 추가해 학습한 모델에서 혐오 표현 생성이 완화되었고 대화 품질에도 변화가 없음을 확인하였다.

주제어: 대화 모델, 혐오 표현, 자연어 생성 조절

1. 서론

오픈 도메인 대화 모델은 정해진 주제나 특정한 응답 목적 없이 자유 주제에 관해 대화 가능한 모델이다. 최근에는 대형 코퍼스로사전 학습된 end-to-end 신경망으로 대화 모델을 학습 하는 접근 방법이 많이 연구되고 있고 유창함이나 대화의 자연 스러움에서 비약적인 향상을 보였다. 하지만 혐오 표현, 편향된 표현, 개인 정보 등이 충분히 정제되지 않은 대형 코퍼스로 학습 한다면 대화 모델이 유해한 표현을 생성하는 문제가 발생할 수 있다. 최근에는 대화 모델이 유해한 표현을 생성하지 못하도록 제한하는 연구가 이루어지고 있다. Meena [2], BlenderBot [3]

에서는 혐오 표현 분류기를 사용하여 혐오 표현이 생성되면 안전한 문장으로 대체한다. 하지만 안전한 문장으로 대체하는 경우 응답이 문맥에 맞지 않거나 자연스럽지 않을 수 있다.

본 논문에서는 BART [1] 사전 학습 모델을 기반한 한국어 오픈 도메인 대화 모델에서 컨트롤 코드로 모델의 응답을 조절 하는 방법 [4]을 사용해 혐오 표현 생성을 완화하는 방법을 제 안한다. 혐오 표현이 포함된 문장과 혐오 표현이 포함되지 않은 문장을 두 가지 컨트롤 코드(비혐오, 혐오)로 구분해 학습함으 로써 코드에 따라 모델의 혐오 표현 생성을 조절할 수 있도록 유도했다. 추론 시 비혐오 코드를 사용하는 방법으로 혐오 표 현 생성을 제한할 수 있다. 제안된 방법의 유효성을 입증하기 위해 혐오 표현 분류기로 대화 모델이 혐오 표현을 생성하는 정도를 측정했고 Spot the Bot [5] 평가 방법으로 대화의 품질 을 검증했다. 제안한 대화 모델은 Baseline에 비해 혐오 표현 생성이 91%만큼 감소하였고 대화 품질 측면에서도 Baseline과

∗동일 기여도 저자

1대화 데이터셋으로 BART를 파인 튜닝한 모델로 혐오 표현을 조절하지 않았다.

유의미한 차이가 나지 않았다.

2. 관련 연구

본 연구에서는 안전한 응답을 생성하기 위해 모델의 생성을 조절하는 접근법을 취한다.

2.1 안전한 응답 생성

안전한 응답을 생성하기 위해 안전하지 않은 발화를 분류 하는 별개의 분류기를 학습해 활용할 수 있다. Meena [2], BlenderBot [3]에서는 분류기를 학습하고 모델이 생성한 응답 이 안전하지 않은 것으로 분류되는 경우 출력되지 않도록 한다.

Dinan et al. [6]에서는 악의적인 공격에 강건한 모델을 학습하 는 방법을 제안한다. 사람이 분류기에 악의적인 문장을 입력하 고 분류기가 해당 문장에 대해 잘못된 판단을 내리는 경우 해당 문장을 포함해 다시 학습하는 humans-in-the-loop 형태의 절차 다. 일반적으로 분류기를 사용하는 것은 혐오 표현을 줄이는 데 효과적인 것으로 알려졌지만 [7] 추론 시 추가 연산이 필요하 고 혐오 표현으로 분류된 응답을 안전한 문장으로 대체하는 경우 응답이 자연스럽지 않을 수 있다. Xu et al. [7]에서는 학 습 데이터에 존재하는 혐오 표현을 안전한 문장으로 대체하여 학습함으로써 추론 시 추가 연산의 필요성을 제거했다.

대형 코퍼스에서 사전 학습한 모델은 코퍼스에 포함된 사회 적 편견이나 유해한 표현을 그대로 학습하기 때문에 사전 학습 단계에서부터 안전한 데이터를 구성해 학습하는 방법도 연구 되었다. RealToxicityPrompts [8]에서는 분류기로 코퍼스에서 유해한 표현을 제거한 후, 해당 코퍼스로 추가 사전 학습을 진행 해 안전하지 않은 텍스트 생성을 완화한다. 혐오 표현을 제거한 코퍼스로학습을 진행하면 혐오 표현 생성이 완화되는 효과는

(2)

있지만, 사용자가 혐오 표현을 입력했을 때 혐오 표현을 인지 하지 못하고 적절히 대응하지 못하는 한계가 있다.

디코딩 단계에서 안전한 텍스트를 생성하도록 조절하는 방법 도 있다. 모든 토큰에 대해 2차원 표현 (유해, 유해하지 않음)을 학습하고 유해하지 않은 토큰들의 우도를 높이거나, 금지 단어 목록을 만들어 유해한 토큰들이 생성되지 않도록 하는 연구도 있다 [8]. 하지만 이는 문맥에 따라 유해하지 않은 단어의 생성 까지 막을 수도 있고 유해하지 않은 단어로만 구성되었음에도 문맥에 따라 여전히 안전하지 않은 응답을 막지는 못한다.

2.2 조절 가능한 생성

생성되는 텍스트의 특성을 조절하기 위한 연구로 CTRL [4]

이 있다. 일반적으로 언어 모델이 앞선 토큰들에만 의존해 다음 토큰을 생성하는 것과 달리, CTRL은 각 문서의 특성에 따라 컨트롤 코드를 부여해 모델이 앞선 토큰들뿐만 아니라 컨트 롤 코드에도의존하도록 한다. 모델이 컨트롤 코드에 의존하기 때문에 컨트롤 코드는 생성되는 텍스트의 스타일, 내용 혹은 태스크를 조절하는데 기여할 수 있다.

PPLM [9]에서는 특성 모델을 도입해 원하는 특성을 반영 하는 기울기를 계산하고 계산된 기울기로 은닉 뉴런을 조정해 모델의 생성을 조절한다. 이 방법은 추가 학습이 필요 없지만 연산 비용이 많이 든다는 단점이 있다.

3. 제안 방법

3.1 CTRL을 활용한 혐오 표현 생성 완화

본 연구에서는 BART 사전 학습 모델에 CTRL을 적용하여 혐오 표현 생성을 완화한다. 대화 데이터로 파인 튜닝 시 인코더 의 입력은 선행된 문맥 발화이고 디코더의 입력은 대화 모델이 생성해야 하는 응답 발화이다. 이때 생성되는 응답을 조절하기 위해 인코더 혹은 디코더에 컨트롤 코드를 추가로 입력한다.

발화마다 레이블 된 컨트롤 코드를 함께 학습하기 때문에 추 론 시에컨트롤 코드를 부여하면 원하는 특성이 반영된 발화를 생성할 수 있다.

• 손실 함수: 대화 데이터 셋 D = {(x

¹

, y

¹

), ..., (x

^|D|

, y

^|D|

)}

에서 각 대화는 문맥 x

^k

와 응답 y

^k

로 구성된다. 대화 모 델에서는 응답 생성 학습을 목표로 하므로 손실 함수에서 응답의 토큰들인 y

^k

에 대해서만 음의 로그 우도를 계산한 다. y

_i ^k

는 y

^k

의 i번째 토큰을 가리킨다.

L

^k _{M LE}

(p

θ

, x

^k

, y

^k

) = −

|y

^k

|

X

i=1

log p

θ

(y

_i ^k

|x

^k

, y

_<i ^k

, c

^k

) (1)

학습데이터에 컨트롤 코드 c

^k

를 레이블하는 방법은 Section 3.2에서 설명한다.

• 디코딩: Greedy search를 사용했고 같은 토큰을 반복해 생 성하는 경향을 줄이기 위해 1.5의 repetition penalty를 주 었다.

3.2 컨트롤 코드 생성을 위한 혐오 표현 분류기

CTRL 모델을 학습하기 위해서는 대화 데이터에 혐오 표 현과 비혐오 표현 레이블이 필요하다. 사람이 직접 레이블을 생성하는 경우 시간과 비용이 많이 들기 때문에 아래의 과정 을 통해 학습한 ELECTRA [10] 혐오 표현 분류기를 활용하여 자동으로 레이블을 생성했다.

그림 1. 컨트롤 코드 생성 과정

사전 기반 분류기를 그대로 사용하는 대신 ELECTRA 기반 분류기를 학습함으로써 분류기가 단순히 혐오 표현 단어에 기 반해 분류하는 것을 넘어 문장 내 문맥을 반영하기를 기대했다.

4. 실험 결과 및 분석

CTRL 모델에서 혐오 표현 생성이 완화됨을 확인하기 위하 여 혐오 표현 생성 비율을 측정하고 대화 품질을 Baseline과 비교하였다.

4.1 데이터 출처 및 통계

대화 모델 학습에는 AIHub에서 공개한 한국어 SNS 데이 터 [11]를 사용하였다. 혐오 표현이 한 번 정제된 데이터이기는 하나, “ㅈㄹ하네”와 같은 약한 혐오 표현이 일부 포함되어있 다. 전체 대화 중 혐오 표현 분류기가 응답을 혐오 표현으로 분류한 비율은 3.67%이다. 전체 데이터는 train, valid, test set 의 비율을 98: 1: 1로 하여 사용하였다.

혐오 표현 분류기 학습에는 온라인 커뮤니티에서 수집한 댓 글과 Korean Hate Speech 데이터 [12]를 사용하였다. 수집한 문장의 약 20%는 사전 기반 분류기가 혐오 표현으로 분류했 고 혐오 표현으로 분류된 문장을 oversampling하여 혐오 표현 으로 분류되지 않은 문장과 같은 수가 되도록 하였다. 학습한 ELECTRA 기반 분류기는 98.35%의 정확도를 나타냈다.

(3)

표 1. 컨트롤 코드에 따른 혐오 표현 생성 비율

code=비혐오 code=혐오 CTRL-dec 29 (0.18%) 15364 (96.03%) CTRL-enc 26 (0.16%) 15396 (96.23%)

4.2 실험 환경

모델은 HuggingFace의 BART 구현을 기반으로 6 인코더 레 이어, 6 디코더 레이어, 768 임베딩 차원, 12 어텐션 헤드로 구 성했고 파라미터 수는 123M이다. 사전 학습 데이터로 학습된 BPE tokenizer를 사용했고 최대 5개의 대화 이력을 사용해 응 답을 생성한다. 8개의 A100 GPU에서 Adam optimizer [13]로 25 epochs 동안 학습했고, batch size=1024, learning rate=5e- 5를 사용했다. 실험에는 validation perplexity가 가장 낮은 모 델을 사용했다.

4.3 컨트롤 코드에 따른 혐오 표현 생성 조절 효과

컨트롤 코드를 통해 혐오 표현의 정도를 조절할 수 있는지 확인해보자. 표 1은 CTRL 모델이 각 컨트롤 코드에 의존해 생성한 문장에 존재하는 혐오 표현의 개수와 비율을 나타낸 것 이다. 기대한 대로 비혐오 코드의 경우 혐오 표현 생성 비율이 낮고 혐오 코드의 경우 혐오 표현 생성 비율이 높은 것을 알 수 있다. 표 5는 컨트롤 코드에 따른 CTRL-enc

²

의 응답 예시이 다. 컨트롤 코드를 혐오로 주었을 때에 비해 비혐오로 주었을 때 생성되는 응답에서 비속어의 사용이 줄어든 것을 확인할 수 있다.

4.4 혐오 표현 생성 비율

혐오 표현이 완화되었는지 확인하기 위해 Xu et al. [7]에서 사용한 여러 자동 평가 방법의 하나와 유사하게 혐오 표현 생성 비율을 측정했다. 대화 모델이 생성한 응답을 Section 3.2에서 언급한 혐오 표현 분류기를 사용해 분류했다.

제안한 방법이 혐오 표현을 완화하는 정도를 평가하기 위해 다음 4가지 모델을 비교했다.

• Baseline: 혐오 표현을 조절하지 않은 모델로 생성

• CTRL-dec: 디코더에 컨트롤 코드를 학습한 모델에 비혐오 코드를 주고 생성

• CTRL-enc: 인코더에 컨트롤 코드를 학습한 모델에 비혐오 코드를 주고 생성

• w/o hate: Baseline과 모델 구조는 같으나 학습 데이터에서 혐오 표현을 모두 제거. 대화마다 응답에 혐오 표현이 포함 된경우를 안전하지 않은 학습 데이터로 보고 제거하였다.

2컨트롤 코드로 혐오 표현을 조절하는 모델 중 하나이다. 자세한 내용은 Section 4.4에서 설명한다.

표 2. 혐오 표현 생성 비율

혐오 표현으로 분류된 응답 수 Baseline 대비 비율 Baseline 286 (1.79%) 100%

CTRL-dec 29 (0.18%) 10.14%

CTRL-enc 26 (0.16%) 9.09%

w/o hate 19 (0.12%) 6.64%

표 3. 혐오 표현 입력 1: 직전 발화가 혐오 표현을 포함하는 경우, 혐오 표현 입력 2: 대화 이력에 혐오 표현이 한 번 이상 포함된 경우

혐오 표현 입력 1 (556개) 혐오 표현 입력 2 (1861개) Baseline 80 (14.39%) 107 (5.75%)

CTRL-dec 19 (3.42%) 22 (1.18%)

CTRL-enc 17 (3.06%) 21 (1.13%)

w/o hate 13 (2.34%) 14 (0.75%)

위 4개 모델에 16,000개의 멀티턴 테스트 데이터를 입력으로 주어 응답을 생성하게 했다. 표 2는 모델이 생성한 16,000개의 응답 중 혐오 표현 분류기가 혐오 표현으로 분류한 응답의 개수 와 비율을 보여준다. 두 CTRL 모델 모두 Baseline에 비하여 약 10% 정도로 혐오 표현 생성이 완화되었음을 알 수 있다. 혐오 표현을 학습 데이터에서 제거한 모델의 혐오 표현 생성 비율이 0.12%로 가장 낮지만, 이 방법은 학습 데이터 양이 줄어들고 혐 오 표현을 유발하는 문맥을 모델이 학습하지 못하게 되는 등의 단점이 있다.

표 3은 대화 이력에 혐오 표현이 포함되었을 때 각 모델이 혐오 표현을 완화하는 정도를 보여준다. 대화 이력에 혐오 표 현이 포함되었을 때 그렇지 않았을 때에 비해 대화 모델이 혐오 표현을 더 많이 출력하는 경향이 있고, 특히 직전 발화에 혐오 표현이 포함되었을 때 그 정도가 더 심했다. 각 모델의 경향은 표 2와 같게 나타났다.

표 4. Baseline을 기준으로 측정한 perplexity

Perplexity Perplexity(비혐오) Baseline 6.949 6.910 CTRL-dec 7.752 7.752 CTRL-enc 7.421 7.416 w/o hate 7.998 7.998

(4)

표 5. 컨트롤 코드에 따른 CTRL-enc의 응답 예시. [혐오/비혐오 ]는 혐오 표현 분류기에 의한 레이블을 나타낸다.

CTRL-enc

Test input code=혐오 code=비혐오

A: ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 오늘 내일

B: 피피티 만드는거 정말 어이없네 A: 야간있나

B: ㅋㅋㅋㅋ없다 안하꼬다 싯파 A: 칼퇴 기기 니 거제에있으면서 스트레스를 없애라

B: 아미친 진짜 개빡친다 B: 아근데 나 진짜 스트레스 너무 많이 받아ㅠㅠ

[혐오 ] [비혐오 ]

A: 걍 종인데 ?? 위에 코팅 되어있어 B: 그럼 다른술집도 갈 수 이써 ? A: 되는 곳 있고 안 되는 곳 있오 B: 신기 ... 사진 잘 나왔다 ! A: 배고파

B: 나두 배고파 뒤져버릴거같아 B: 나도 배고파서 죽겠다

A: 인형들 처분할까 그냥 B: 인형들?? ㅋㅋㅋㅁㅊ B: 인형들?? 왠 인형들이야 ㅋㅋ

표 6. Baseline과 컨트롤 코드 비혐오를 준 CTRL-enc의 응답 예시. #@기타#는 AIHub 한국어 SNS 데이터의 비식별화 표시다.

Test input Baseline CTRL-enc

A: 안그래도 8월인데 술자리두번째인가 밖에안되는건데 #@기타#싸웟어 B: 믿음이 너무 없느느거아니야ㅠ A: 연락하지말라함 #@기타#빡쳐 B: 헐 ㅠ

A: 나는 지 술 마시는거 다 보내줫더키

B: 미친놈아녀? B: 아진짜?

B: 짐은 다 쌌어?

A: 아니 ㅎㅎ 그래서 그런가 n...

B: ㅋㅋ ㅋ ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 에이틴 봐 ㅎㅎ A: 그럼 바른연애길잡이 봐줘 ㅎㅎ

B: ㅋㄱㅋㄲㄱㅅㅂ B: 아 근데 그거 재밌대?

A: 아 미친 모기있어 B: #@기타#

A: 모기 잡으러 갈게 #@기타#

B: 모기새끼들.. B: 모기잡았어?!

B: 오 너 뿌리 자랐었어?!?!?!?!

A: 아무도 모르지만 혼자 지르고 왔즤

B: ㅋㅋㅌㅌㅌ앜ㅋ미친 개웃곀 B: ㅋㅋㅌㅌㅌ앜ㅋ 잘했엉

(5)

표 7. Spot the Bot 결과. 괄호 안은 bootstrap sampling으로 계산한 ranking range를 가리킨다.

Win rate SSA Fluency Specificity Sensibleness

draws 0.04 0.885 0.925 0.765 0.7125

Baseline 0.5156 (1, 2) 0.5435 (1, 2) 0.6667 (1, 2) 0.5106 (1, 2) 0.5652 (1, 2) CTRL-enc 0.4844 (1, 2) 0.4565 (1, 2) 0.3333 (1, 2) 0.4894 (1, 2) 0.4348 (1, 2)

4.5 대화 품질

혐오 표현 생성이 완화됨과 동시에 생성된 대화 품질을 유지 하는 것도 중요하다. 혐오 표현을 완화하는 방법들은 데이터를 조작하거나 모델의 특정한 속성을 강제하기 때문에 Baseline 모델보다 대화의 품질이 떨어질 수 있다. 대화 품질에 손실이 없는지를 확인하기 위하여 1) 모델이 생성한 문장의 perplexity 를 측정하고 2) Baseline과 CTRL-enc의 대화 품질을 Spot the Bot [5] 평가 방법을 통해 비교하였다.

4.5.1 자동 평가

Baseline은 혐오 표현을 완화하기 위한 아무런 조작이 가해 지지 않았기 때문에 대화의 품질이 가장 높을 것으로 기대할 수 있다. Baseline을 기준으로 측정한 perplexity가 낮다면 Base- line과 비슷한 분포로 학습되었다는 것을 의미하므로 대화의 품질이 적게 손상되었다고 볼 수 있다. 표 4은 앞서 Section 4.4 에서 각 모델이 생성한 응답에 대해 Baseline으로 측정한 per- plexity를 보여준다. 혐오 표현을 완화하는 모델의 경우 혐오 표현을 유발하는 문맥으로부터 생성된 문장의 perplexity가 높 게 측정될 것이기 때문에 혐오 표현을 유발하는 문맥을 제외한 perplexity(비혐오)도 함께 측정했다.

두 CTRL 모델이 혐오 표현을 제거해 학습한 모델보다 더 낮은 perplexity를 보였다. 혐오 표현을 제거해 학습한 모델의 perplexity가 높은 이유는 앞서 언급한 대로 데이터 양의 감소 로 대화 품질이 낮아졌기 때문일 수 있다.

4.5.2 수동 평가

Spot the Bot [5]은 사람이 직접 모델과 대화하고 평가하는 방법 대신 비교하고자 하는 모델들이 서로 대화한 내용을 보고 사람이 평가하는 방법을 제안한다. Spot the Bot의 평가 방법 은 사람이 대화에 참여하지 않으므로 빠른 시간 안에 평가가 가능하고 각 지표를 상대적으로 평가하므로 평가자 간 불일치 에 대한 영향이 적다.

본 연구의 평가에는 두 CTRL 모델 중 더 뛰어난 혐오 표현 생성 비율과 perplexity를 보인 CTRL-enc를 Baseline과 비교 했다. 두 대화 모델이 생성한 400개의 대화에 사람 간 대화 100 개를 더한 500개의 대화를 5개의 set으로 나눈 뒤, 10명의 평 가자가 무작위로 1개 set을 평가해 1,000개의 평가 데이터를 얻었다. 각 대화의 최대 턴 수는 14이다.

Spot the Bot에서와 같이 평가 결과의 통계적 유의성을 bootstrap sampling으로 측정한 결과 두 모델의 대화 품질에 유의미한 차이가 없는 것으로 나타났다. (표 7)

4.6 생성 응답 예시

Baseline과 CTRL-enc가 생성하는 응답이 정성적으로 어떻 게 다른지 이해하기 위해 표 6에 생성 응답 예시를 담았다.

Baseline이 여러 테스트 인풋에 대해 혐오 표현을 포함하여 대 답한 것에 비해 CTRL-enc는 혐오 표현을 포함하지 않고 적절 히 응답하는 것을 확인할 수 있다. 예를 들어 첫 번째 테스트 인풋에 대해서 “아진짜?”와 같이 맥락에 적절히 대응하면서도 Baseline과 달리 혐오 표현이 완화된 표현을 생성한다. 두 번째 테스트 인풋의 경우 “아 근데 그거 재밌대?”로 대화를 이끌어 가는 응답을 생성하기도 한다.

5. 결론

본 연구에서는 CTRL을 활용해 한국어 오픈 도메인 대화 모델의 혐오 표현 생성을 완화하고자 하였다. 제안한 모델을 혐오 표현 분류기로 평가한 결과 Baseline에 비해 약 91%의 혐 오 표현을 억제하는 것으로 나타났다. 또한 Spot the Bot 평가 방법을 통해 제안한 모델의 대화 품질이 기존 모델과 큰 차이가 없음을 보였다.

학습에 사용한 컨트롤 코드는 혐오 표현 분류기에 의존하기 때문에 분류기의 오류가 대화 모델에 반영된다. 따라서 사람 이 직접 레이블링한 혐오 표현 데이터로 분류기를 학습한다면 분류기의 성능이 개선됨에 따라 제안한 CTRL 모델의 성능도 나아질 것이다. 또한 분류기의 출력값을 소프트 레이블로 활용 해 혐오 표현일 가능성을 학습하는 방향도 고려해볼 수 있다.

참고문헌

[1] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mo- hamed, O. Levy, V. Stoyanov, and L. Zettlemoyer,

“Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and compre- hension,” 2019.

[2] D. Adiwardana, M.-T. Luong, D. R. So, J. Hall, N. Fiedel, R. Thoppilan, Z. Yang, A. Kulshreshtha,

(6)

G. Nemade, Y. Lu, and Q. V. Le, “Towards a human- like open-domain chatbot,” 2020.

[3] S. Roller, E. Dinan, N. Goyal, D. Ju, M. Williamson, Y. Liu, J. Xu, M. Ott, K. Shuster, E. M. Smith, Y.-L.

Boureau, and J. Weston, “Recipes for building an open- domain chatbot,” 2020.

[4] N. S. Keskar, B. McCann, L. R. Varshney, C. Xiong, and R. Socher, “Ctrl: A conditional transformer language model for controllable generation,” 2019.

[5] J. Deriu, D. Tuggener, P. von D¨aniken, J. A. Campos, A. Rodrigo, T. Belkacem, A. Soroa, E. Agirre, and M. Cieliebak, “Spot the bot: A robust and efficient framework for the evaluation of conversational dialogue systems,” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 3971–3984, Nov. 2020. [Online]. Avail- able: https://aclanthology.org/2020.emnlp-main.326 [6] E. Dinan, S. Humeau, B. Chintagunta, and J. Weston,

“Build it break it fix it for dialogue safety: Robustness from adversarial human attack,” Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pp. 4537–4546, Nov. 2019. [Online]. Available: https:

//aclanthology.org/D19-1461

[7] J. Xu, D. Ju, M. Li, Y.-L. Boureau, J. Weston, and E. Dinan, “Recipes for safety in open-domain chatbots,”

2021.

[8] S. Gehman, S. Gururangan, M. Sap, Y. Choi, and N. A.

Smith, “Realtoxicityprompts: Evaluating neural toxic degeneration in language models,” 2020.

[9] S. Dathathri, A. Madotto, J. Lan, J. Hung, E. Frank, P. Molino, J. Yosinski, and R. Liu, “Plug and play language models: A simple approach to controlled text generation,” International Conference on Learning Representations, 2020. [Online]. Available: https://

openreview.net/forum?id=H1edEyBKDS

[10] K. Clark, M.-T. Luong, Q. V. Le, and C. D. Manning,

“Electra: Pre-training text encoders as discriminators rather than generators,” International Conference on Learning Representations, 2020. [Online]. Available:

https://openreview.net/forum?id=r1xMH1BtvB [11] “한국어 SNS,” https://aihub.or.kr/aidata/30718, ac-

cessed: 2021-09-24.

[12] J. Moon, W. I. Cho, and J. Lee, “BEEP! Korean corpus of online news comments for toxic speech detection,” Proceedings of the Eighth International Workshop on Natural Language Processing for Social Media, pp. 25–31, Jul. 2020. [Online]. Available:

https://aclanthology.org/2020.socialnlp-1.4

[13] D. P. Kingma and J. Ba, “Adam: A method for stochas- tic optimization,” 2017.

Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL

한국어 오픈 도메인 대화 모델의 CTRL을 활용한 혐오 표현 생성 완화

◦†*

‡*

‡

‡

†

‡

Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL

◦†*

‡*

‡

‡

†

‡

1. 서론

2. 관련 연구

3. 제안 방법

1

1

|D|

|D|

k

k

k

i k

k

k M LE

θ

k

k

|y

|

i=1

θ

i k

k

<i k

k

k

4. 실험 결과 및 분석

2

5. 결론

참고문헌

^◦†*

^‡*

^‡

^‡

^†

^‡

^◦†*

^‡*

^‡

^‡

^†

^‡

¹

¹

^|D|

^|D|

^k

^k

^k

_i ^k

^k

^k _{M LE}

^k

^k

_i ^k

^k

_<i ^k

^k

^k

²