A Study on the Construction of Korean Hate Speech Corpus: Based on the Attributes of Online Toxic Comments

(1)

한국어 혐오 표현 코퍼스 구축 방법론 연구:

온라인 악성 댓글에 나타나는 특성을 중심으로

조원익^◦1, 문지형²

서울대학교 전기정보공학부¹, 업스테이지² [email protected], [email protected]

A Study on the Construction of Korean Hate Speech Corpus:

Based on the Attributes of Online Toxic Comments

Won Ik Cho^◦1, Jihyung Moon²

Department of Electrical and Computer Engineering, Seoul National University¹, Upstage² 요 약

온라인 공간에서 특정인, 혹은 특정 집단의 사람들을 대상으로 한 혐오 표현은 당사자에게 정신적 고통을 미칠 뿐 아니라 이를 보는 이에게도 간접적인 불쾌함을 유발한다. 이에 관한 문제의식은 사회적으로 공감대가 형성된 바 있지만, 아직 한국어에서는 많은 연구들이 혐오 표현 자체의 논의에 집중하고 있으며, 이는 실제로 관찰되는 혐오 표현들의 자동 탐지및 예방에는 효과적인 정보를 제공하지 못하는 것이 사실이다. 이에 우리는 실제 온라인 댓글들을 탐구하여 혐오, 모욕 및 사회적 편견을 탐지할 수 있는 모델 학습에 필요한 코퍼스 구축 가이드라인을 제작하였다. 구체적인 사례를 동반한 가이드라인과 크라우드소싱을 바탕으로 약 9천 3백 문장 가량의 코퍼스를 구축하였으며, 해당 데이터에 관한 개요와 함께 우리의 접근 방식이 어떤 점에서 기존의 담론과 연관되어 있는지에 대한 분석을 제시한다.

주제어: 악성 댓글, 혐오 표현, 주석 코퍼스, 어노테이션 가이드라인, 크라우드소싱

1. 서론

혐오 표현(hate speech)은 저널리즘에서 많이 다루어지는 주 제이지만, 동시에 우리의 삶에 깊게 스며든 이슈이기도 하다.

혐오의 개념은 종종 모욕적 표현과 함께 등장하여 표면적으로 표출되기도 하고, 어떤 문구들은 사회적 편견을 포함하고 있 는 것만으로도 혐오를 담고 있거나 모욕적이라고 일컬어진다.

이는 온라인 공간에서는 더욱 심각한 문제로, 유명 인사 혹은 사회적 소수자(underrepresented group)에 해당하는 사람들이 정신적으로 많은 피해를 받고 있으며, 일부는 그로 인한 우울을 경험하거나 삶을 마감하기도 한다.

온라인 공간의 혐오 표현에 관한 논의는 크게 정의(defini- tion)와 탐지(detection)의 문제로 구분된다. 한국어의 혐오 표 현에 대한 정의는 주로 사회언어학적 관점에서 진행되고 있으 며, 이들 연구는 혐오라는 표현의 적절성에 대한 논의 [1], 혐오 표현의 범위 [2], 그리고 혐오 표현과 현행법 상의 관계 [3] 등을 포괄한다. 한국어 혐오 표현에 관한 포괄적인 연구를 진행한 [1] 에서 혐오표현은 ‘어떤 개인/집단에 대하여 그들이 사회적 소수자로서의 속성을 가졌다는 이유로 그들을 차별/혐오하거 나 차별/적의/폭력을 선동하는 표현’으로 규정되며, 각 집단의 소수자성에 대한 심층적인 논의 역시 활발히 이루어지고 있다 [4]. 하지만, 활발한 논의와 별개로, 학문적으로 정의되는 혐오 표현와 일상에서 사용되는 ‘혐오’가 어느 정도 괴리를 가지고 있는 것 역시 사실이다. 예컨대, 탐지의 관점에서 어떤 표현을 볼 때, ‘누군가 같은 표현에 대해서 적의나 모욕을 느끼지 않는

다면 이것은 혐오라 할 수 있는가?’ 라는 질문에는 답을 하기 어렵다. 온라인 플랫폼들의 입장에서, 이에 대해 어느 정도 타 당한 답이 있어야 범용적인 혐오 표현 탐지를 위한 데이터를 수집할 수 있고 그에 따른 모델을 개발할 수 있다. 따라서 현재 누군가는 피해를 입고 있는 혐오 표현이라는 실체를 파악하고 방지하기 위해서는 탐지 관점의 접근이 필요하다.

현재까지 한국어 혐오 표현 및 온라인 악성 댓글 탐지에 관 한 접근들은 대부분 용어 단위에서 수행되었으며¹[5, 6], 단어 존재 여부만으로 판단하기 어려운 혐오 표현 탐지에 관한 다 른 문화권의 선행 연구들을 [7, 8] 참고하여 코퍼스를 구축하는 사례는 찾아보기 쉽지 않았다. 대부분의 언어 현상이 그렇듯, 나라마다, 문화권마다, 또 도메인마다 혐오 표현에 대해 해석 의 다양성이 존재하는 관계로 해당 기준들을 그대로 참조하기 어렵기 때문이다. 즉, 우리의 언어 내에서 현상을 파악하고 방 법을 강구하기 위해서는 실제로 데이터를 관찰하여 혐오라는 추상적이고 포괄적인 개념이 어떠한 방식으로 나타나는지를 살펴보아야 한다.

우리는 이러한 시각에서, 범언어성을 최대한 보존하면서도 한국어의 표현 방식도 함께 고려한 혐오 표현 코퍼스 구축 기 준 수립에 대해 논하고자 한다. 다른 언어에 대해 진행된 혐오 표현 코퍼스 연구들은 사회적 편견을 혐오 표현을 구성하는 하 나의 요소로 고려했지만 [9, 10], 이를 별도로 기재하는 경우는 찾기 어려웠다. 우리는 편견과 혐오²가 밀접하게 연관되어 있다

1https://github.com/doublems/korean-bad-words

2본 논문에서 ‘혐오’는 ‘혐오 표현’이라는 포괄적인 개념보다는 조

(2)

는 가설에 근거하여 [11] 해당 요소들(attributes)을 개별적으로 레이블링하였으며, 이를 통해 실제로 편견의 여부가 어느 정도 혐오 혹은 모욕적인 언사와 연관이 있음을 관찰하였다. 구체적 으로는 최근 몇 년간 혐오 표현의 문제가 만연했던 한국어 연예 뉴스 기사 댓글을 대상으로 어노테이션 가이드라인(annotation guideline)을 만들고 크라우드소싱(crowd-sourcing)을 통해 주 석 코퍼스를 구축하였으며, 사회적 편견의 유무가 혐오 표현 여부의 판단에 영향을 줄 수 있다는 것을 데이터를 통해 확인 하였다.

본 논문에서는 혐오 표현 코퍼스 구축에 활용된 상세한 어노 테이션 가이드라인 및 크라우드소싱 매니징 방법을 서술한다.

이를 통해 구축된 코퍼스의 특징에 대해 간단히 요약하며, 한 국어뉴스 댓글에서 관찰되는 혐오 표현의 유형 분류가 기존의 한국어 혐오 표현 연구들을 참고했을 때 적법하게 받아들여질 수 있는지 확인하고자 한다.

2. 데이터

2.1 언어 및 도메인

본 논문의 대상 언어는 한국어이며, 그 중에서도 세종 코퍼스 [12] 혹은 위키피디아(Wikipedia)에서 접하기 어려운 비정형 표현을 많이 포함하고 있는 온라인 댓글을 대상으로 한다.

특히, 우리는 한국에서 최근에 다양한 사회적 논의들을 유발 했던 연예 뉴스 댓글의 폭력성에 주목하였다. 연예 기사는 대 상이 특정되어 있을 뿐 아니라 그 대상이 특정 그룹을 대변하는 것으로 인식되어 편견을 포함한 발언들이 댓글로 많이 등장할 수 있다. 또한, 그들에 대한 혐오 표현을 규제할 법적 근거가 미미하며 무엇보다도 발언의 대상이 되는 당사자들의 정신적 고통이 극심하다는 점에서 이를 도메인으로 설정하였다.

2.2 크롤링 및 샘플링

기사는 온라인 포털 뉴스 플랫폼의 일간 많이 본 뉴스 30 건을 대상으로 2018년 1월부터 2020년 2월까지 약 2년의 기간 에 걸쳐 크롤링되었으며 총 23,700개의 기사와 10,403,368개의 댓글이 수집되었다.

이 중 어노테이션을 위한 댓글을 수집하기 위해 다음과 같은 전처리 및 샘플링 과정을 수행하였다.

1. 특정 시기에 편중되지 않게 날짜 별 두 개의 기사를 샘플링 2. 기사에 적힌 댓글 중에서 “싫어요” 에 대한 Wilson score

[13] 정렬 순 상위 20개의 댓글을 선택 3. 중복 댓글 제거

4. 레이블링이 모호할 수 있는 한 단어짜리 댓글과 100 단어 이상의 긴 문장 제외

금 더 좁은 의미로 활용되며, 특정 언어 표현을 지칭하거나 ‘유해성’

의 한 요소로 보는 것으로 한다.

그림 1. 혐오 표현의 판단을 위해 가이드라인에 활용된 요소

이 과정에서 총 10,000개의 댓글이 수집되었으며, 댓글과 함 께 기사 제목, 기사, 좋아요 및 싫어요 수, 그리고 작성일시가 기록되었다.

3. 가이드라인

대규모 휴먼 어노테이션을 위한 가이드라인을 만드는 목적 으로, 온라인 공간의 표현에 익숙한 세 명의 한국어 화자가 함께 약 1,000개의 댓글을 읽으며 함께 레이블링을 진행하였다. 연 예 뉴스 댓글에 등장하는 혐오 표현은 크게 “편견”와 “유해성”

의 관점에서 판단할 수 있었다. 편견의 경우, 성 관련, 나이, 외모, 출신 지역 및 국가, 정치색 등 다양한 종류가 존재했으 나 연예라는 도메인 내에서는 성 관련 편견이 가장 빈번하게 관찰되었다. 유해성은 무례한 언사를 통해 간접적으로 표현되 거나, 혐오 혹은 모욕적 표현이 직설적으로 담긴 언사를 통해 드러났다. 해당 개념들은 그림 1에서 확인할 수 있다.

편견과 유해성의 가장 큰 차이가 있다면, 유해성은 일정 부분

‘정도의 문제’로써 보는 이가 이를 어떻게 받아들이냐에 따른 주관성이 많이 반영되지만 [3], 편견은 그 존재 여부가 비교적 분명하다는 것이다. 우리는 편견와 유해성 각 요소에 대해 어 떤 내용들이 유관한 것으로 판단되었는지, 예시 댓글들과 함께 제시하고자 한다.

3.1 사회적 편견

혐오 표현을 구성하는 첫 번째 성질인 사회적 편견은 ‘어떠한 사회적 아이덴티티를 가진 개인/집단이 어떤 특성을 보이거나 편향된 방식으로 행동할 것’이라는 성급한 일반화나 선입견을 의미한다 [14]. 어노테이터가 모든 편견의 종류를 레이블링하게 되면 어노테이션의 정확도가 감소할 우려가 있기 때문에 우리 는 사회적 편견을 다음의 세 가지 종류로 압축하였다.

(3)

3.1.1 성 관련 편견(Gender)

성 관련 편견에 해당하는 발화는 성역할, 성적 지향성 및 성 정체성, 성과 관련된 사상에 대한 편견을 말한다 [1, 2]. 또한, 텍스트에 성 관련과 기타 편견이 함께 존재하는 경우도 본 카테 고리에 속하는 것으로 판단되었다. 각각에 대한 간략한 예시는 다음과 같다.

• 성별에 따른 역할이나 능력에 대한 편견: 남자는 능력이고 여자는 외모지 / 가정을 지키고싶으면 요리배우고 살빼야 할듯 / 여자는 집에서 살림하는게 최고, 남자가 부잔가?

• 성별과 나이에 대한 편견: 여자는 어린 여자가 갑이지 / 남자가 나이많은 여자를 만날 이유가있나..? 1. 돈줄 2. 성 욕해소 말고는.. 글쎄 결혼은 어린여자랑 하는게 맞지

• 특정 성별, 성적 지향성, 성 정체성, 성에 관련된 사상을 가 진 집단에 대한 편견: 성전환자가 여자냐? / 오래도살았네 게이가 / 페미는 레즈비언이 선동한다던데?

3.1.2 기타 편견(Others)

기타 편견에 해당하는 발화는 성 관련 편견은 포함하지 않지 만 다른 사회적 편견의 요소로 생각되는 특성들에 대한 편견을 포함하게 된다. 구체적으로는, 개인의 특성을 성급하게 집단의 특성으로 확장시키고 그 집단의 특성에 대한 편견이 드러난 경 우들이 이에 해당한다. 이러한 요소들은 인종, 민족, 출신 배경, 국적, 정치색, 피부색, 종교, 장애 여부, 나이, 외모, 빈부, 직업 군, 학력, 군복무 여부 등을 포함한다 [1]. 각각에 대한 간략한 예시는 다음과 같다.

• 나이에 대한 편견: 나이에 걸맞게 쳐 놀아라. 이제 마흔이 넘었는데 언제까지나 귀여운 척 할래 ㅉ

• 출신 지역 및 국가에 대한 편견: 스테이크에 와인한잔하면 서 가족끼리 회의했겠지 상도랑 라도는 인생살면서 걸러야 한다

• 외모에 대한 편견: 돼지같은 것들은...다 이유가 있다 * / 이 외모면 퇴사해도된다

• 직업에 대한 편견: 한효주가 뭐가 아쉬워서 사람 많은 클 럽에서 침까지 질질 흘리며 콧물까지흘리며 마약을 했을 까. 아니면 빨리 법적대응 해야지 이미지 너무 하락하겠다.

한효주같은A급 연예인이 진짜 사람 많은곳에서 그랬다면 충격인데.

• 정치색에 대한 편견: 또 자한당 짓이냐?ㅋ / 역시 대깨문 답네

• 집단에 대한 편견이 개인을 판단하는 데 개입되는 경우:

무도에서 조금 얻은 인기로 여자 만나고, 그러다 점점 일은 생겼고, 이제는 숨길수 없고, 바닥부터 올라가는척? 아닐 까?

3.1.3 편견이 존재하지 않음(None)

상기의 두 카테고리에 해당하지 않는 댓글들을 의미한다. 해 당 텍스트에서는 어떤 특성을 가진 집단에 대한 편견이 해당 집단, 혹은 그에 속하는 개인을 판단하는 방식으로 개입되지 않는다.

3.2 표현의 유해성

두 번째 성질은 해당 댓글이 댓글에서 다루는 대상이나 이 를 접하는 대중에게 얼마나 유해한가에 대한 것이다. 여기서 유해한 정도는 주관적인 척도로써, 레이블링의 결과가 어노테 이터의 언어 직관에 영향받는 것을 피하기 어렵다. 따라서 최대 한 보편적인 경계를 정하기 위해 다음과 같이 유해성의 정도를 유형화하였다.

3.2.1 혐오 또는 모욕(Hate or Insult)

해당 카테고리에서 혐오는 앞서 말했던 사회적 편견의 특 성들에 대한 적대적인 관점이 관찰되는 언어 표현들로 볼 수 있으며 [1, 3], 모욕은 특정 인물이나 집단의 사회적 체면을 심 각하게 손상할 수 있는 표현들을 포괄한다 [15]. 따라서 단순히 욕설이 존재한다고 해서 본 발화로 분류할 수는 없다. 해당 발 화들은 다음과 같이 유형화할 수 있다.

• 대상을 심하게 비난하거나 깎아내려서 정신적인 고통과 같 은 감정상태를 야기할 수 있는 표현: 노래실력 제일 거품인 색기 / 무식한 놈 / 돼지새끼

• 대상을 성적인 표현으로 모욕하거나 희롱하고, 성적 대상 화하는 경우: 겨드랑이도 빨겠다 / 보팔 / 스타킹 벗겨서 발가락빨구시퍼용.

• 개인/집단의 변화시키기 어려운 특성에 근거하여 개인이 나 집단에 대해 적대적인 감정을 함유한 댓글: 성 정체성을 잃어가는 병자들이 많은 시대네...병은 고쳐야지 자랑이라 고 떠들어 대나? / ㅈㄹ도 가지가지...관심없거든 너희 돈지랄 / 여기 성별에 댓글만봐도 한남 믿거할수있겠다

• 특정 개인/집단을 부정적으로 낙인찍거나 규정하기 위한 의도로 사용하는 표현들: 홍윤화메갈 ? / 역시 대깨문답네 / 애국보수 산이의 음악행보룰 전폭 지지하는 바입니다. / 참 대단하다 탑게이

• 사실 적시를 통한 모욕: ㅋ 접대와 조작의 아이콘 아이즈원 엑스원

• 댓글을 단 다른 사람들에 대한 적대감이 보이는 댓글: ㅁㅊ 것들아 차라리 임창정 나오지말라고해라!!임창정이 마약을 했냐?별거도 안니구마!!악플달고 ㅈㄹ들이야!!

• 기사를 작성한 기자에 대한 적대감이 보이는 댓글: 기레기 새끼.의식불명될때까지 쇠파이프로 대가리 깨야됨

(4)

3.2.2 무례한 언사(Offensive)

해당 발화들은 혐오 혹은 모욕보다는 그 정도가 덜하지만 여 전히 청자가 불쾌감을 느낄 수 있는 무례한 언사들로, 다음과 같은 성질을 지니고 있는 것으로 유형화할 수 있다.

• 반어적 표현: 짠내투어 멤버로 랩퍼 도끼를 추천합니다. 근 검절약의 아이콘 이시더라고요 / 마치 박보검과 이초석목 사님을 보는듯 하고 훈훈하네요

• 비인륜적인 표현: ? 정말 좋아하는 배우 였는다... 가셔서 행복 하시길 바라고 갈때가더라도 돈좀 주구가..그게 아니 면 로또1등좀.

• 냉소적이거나 넘겨짚는 어투의 표현: 이분 빚투나오는거 아닌지.. 다갚으시고 집자랑 하신거겠죠.. / 송사끝나서 후 련한 마음에 동남아 좀 갔다고 뭐 문제라도 있음?

• 당사자의 기분을 나쁘게 할 수 있거나 당사자를 폄훼할 수 있는 표현: 몰라서그랬는데 봐주자. 사회성이떨어지잖 아 / 결혼했으니까 아줌마는 맞지. 근데 나이는 왜붙이고 왜욕하지?ㅎㅎ

• 혐오는 없지만 욕설이 포함된 댓글: 한채아를 감히... ㅅㅂ 3.2.3 유해성이 존재하지 않음(None)

상기의 유해성에 미치지 않는 댓글들을 의미한다. 설령 비판 이 있더라도 그것은 충분히 가능한 수준의 의견으로 판단되고, 서술한 문체에 공격적이거나 무례한 내용이 없는 경우, 부정적 인 정서가 없는 경우가 이에 해당할 수 있다.

4. 어노테이션

어노테이션 가이드라인은 초기 관찰된 1,000여개의 댓글에 대한 분석을 통해 제작되었지만, 이를 다수의 어노테이터들이 참고하며 대규모의 코퍼스를 태깅할 수 있게 하기 위해서는 크 라우드소싱 플랫폼의 활용이 필수적이다. 이 과정에서 고려한 두가지 사항은 1) 작업자의 수가 충분히 많으면서도 가이드라 인이 잘 반영될 수 있는 플랫폼을 갖추었는지, 2) 가이드라인을 적절하다고 판단할 정도의 윤리관을 보여주는 작업자들 위주로 어노테이션을 맡길 시스템을 가지고 있는지의 여부이다. 이러 한 사항들을 바탕으로 우리는 어노테이터 풀이 충분히 보장되 면서도, 일부 데이터를 활용한 파일럿 스터디를 통해 태깅에 대한 피드백을 줄 수 있고, 그 피드백의 반영 여부를 확인할 수 있는 자연어 크라우드소싱 플랫폼³을 활용하였다.

크라우드소싱을 통한 어노테이션에서의 레이블 결정은 다수 결(majority voting)로 진행되었다. 이를 위해 각 문항 당 세 건의 태깅이 보장되도록 하였으며, 세 작업자가 모두 다르게 태깅한 문항, 혹은 답변이 극단적으로 나뉘어진 경우(유해성 에 관한 태깅에서 ‘혐오 또는 모욕’와 ‘해당 없음’이 나왔지만

3https://www.deepnatural.ai

‘무례한 언사’의 선택지가 없을 때)들에 대해서는 진행자들의 추가적인 토론(adjudication)이 진행되었다.

4.1 파일럿 스터디

크라우드소싱 플랫폼의 작업자를 대량의 코퍼스 구축에 활 용하기 위해서는 라벨의 정확도를 보장받을 수 있도록 파일럿 스터디를 진행해야 한다. 우리는 가이드라인 작성에 활용되지 않은 댓글 데이터 중 일부를 활용하여, 작성된 가이드라인을 잘 이해한 작업자를 선별하였다. 이 과정에서 고려된 조건들은 다음과 같다.

• 수행한 작업 수량이 일정 기준 이상인가?

• 어려운 작업에 대해 지속적으로 좋은 라벨을 태깅했는가?

• 반려된 작업물에 대한 피드백을 잘 적용하여 재제출했는가?

• 성 혹은 다른 요소들에 대해 기대되는 정도와 현저한 차이가 있는 윤리적 기준을 보유하고 있는 것은 아닌가?

• 태깅의 누락이 너무 잦지 않은가?

4.2 크라우드소싱

파일럿 스터디로 선별된 8인의 작업자들을 통해 남은 8,000 여개의 댓글에 대한 크라우드소싱 기반의 어노테이션을 진행 하였다.

5. 코퍼스

최종적으로 우리가 얻은 데이터셋은 가이드라인을 제작하고 크라우드소싱을 진행한 화자 3인이 직접 어노테이션을 수행한 1,000여 개의 댓글들, 파일럿 스터디를 통해 리뷰 및 승인한 댓글들, 그리고 선발된 참가자들의 어노테이션을 달아 얻은 약 8,000개의 댓글들로 구성된다. 이 과정에서 판단이 일치되지 않거나 pass로 누락된 총 659개의 댓글이 제외되었다.

5.1 주석자 간 일치도 (IAA)

최종 코퍼스에 대한 주석자 간 일치도(IAA)는 Krippen- dorff’s alpha로 계산되었다 [16]. 편견에 관한 일치도는 성 관련 편견의 존재성만을 보는 이진 케이스(binary case)와 기타 편견 들의 존재 여부를 별도로 확인하는 삼진 케이스(ternary case) 로 구분하였다. 성 관련 편견의 존재를 탐지하는 태스크는 다른 두경우에 비해 상대적으로 높은 일치도(0.765)를 보여주었고, 편견의 삼진 케이스와 유해성에서 도출된 일치도는 온건한 정 도를 보여주었다 (각각 0.492, 0.496).

5.2 구성

최종 데이터셋은 학습, 검증, 및 테스트 셋으로 구분되었으며 각각은 7,896개, 471개, 그리고 974개의 댓글로 구성되었다. 코 퍼스는 배포 목적으로 깃헙(github)⁴에 공개하였고, 컴피티션

4https://github.com/kocohub/korean-hate-speech

(5)

(%) 혐오 또는 모욕 무례한 언사 해당 없음 합계 성 관련 편견 10.15 4.58 0.98 15.71

기타 편견 7.48 8.94 1.74 18.16 해당 없음 7.48 19.13 39.08 65.70 합계 25.11 32.66 41.80 100.00

표 1. 구축된 코퍼스의 편견/유해성 레이블 별 구성

장려를 위해 캐글(Kaggle) 플랫폼을 활용해 리더보드 시스템을 도입하였다⁵.

표 1에 정리된 데이터에 대해 좀 더 살펴보면 유해성이 있는 경우가 없는 경우에 비해 많으나, 편견의 관점에서는 편견이 존재하는 경우가 없는 경우에 비해 적은 편이다. 하지만 이 결 과를 바탕으로 ‘연예 도메인의 댓글에는 혐오 표현이 많다’고 해석하는 것은 주의해야 한다. 2.2장에서 언급한 ‘싫어요’ 정 보를 고려했다는 점에서 실세계의 데이터에 비해 악성 댓글이 많을 확률이 높기 때문이다.

주목할 만한 점 중 하나는 성 관련이나 기타 편견이 함유된 댓글들은 대부분 유해성이 관찰된다는 것이다(성 관련 편견이 존재하는 경우, 유해한 댓글의 비율은 93.76%, 기타 편견이 존 재하는 경우, 유해한 댓글의 비율은 90.42%). 반면에 유해한 댓글들에는 반드시 사회적 편견이 관찰된다고 보기 어려웠다.

하지만 유해한 댓글을 혐오/모욕 댓글과 불쾌한 댓글로 구 분해서 살펴보면 편견과의 관계성이 드러난다. 직접적으로 유 해성이 드러나는 혐오/모욕 댓글에는 성 관련 편견이 드러나는 경우가 기타 편견이 드러나는 경우 대비 1.4배 정도 많았던 반 면 불쾌한 정도에 그치는 악성 댓글 중에서는 성 관련 편견이 드러나는 댓글의 비율이 기타 편견이 드러나는 댓글의 절반 정도였다. 이는 가이드라인 상에서 모욕의 범위에 성희롱이나 성적 모욕이 직접적으로 포함되었던 것과 무관하지 않으나 연 예 도메인에서 성적인 모욕이 다른 특성(정치, 종교, 인종 등)과 결부된 모욕보다 유해성의 정도가 심각하다는 점에서 유의미한 혐오 표현의 특징으로 판단된다.

6. 논의

본 연구의 가이드라인은 실제 사람이 생성한 문장들을 바탕 으로 혐오 표현의 경계를 조금 더 명확하게 만들었지만, 이러한 구분짓기가 혐오 표현에 대한 기존의 연구와 어느 정도 연관을 가지는지 파악할 필요가 있다. 기존 연구로는 [1], [2], 그리고 [3] 을 참고하였으며, 각각은 주로 혐오 표현의 정의, 혐오 표현 의 대상 및 범위, 그리고 혐오 표현과 표현의 자유 및 현행법에 대한 내용을 담고 있다.

5www.kaggle.com/c/korean-gender-bias-detection www.kaggle.com/c/korean-bias-detection

www.kaggle.com/c/korean-hate-speech-detection

[1] 에서는 혐오표현을 ‘어떤 개인/집단에 대하여 그들이 사 회적 소수자로서의 속성을 가졌다는 이유로 그들을 차별/혐 오하거나 차별/적의/폭력을 선동하는 표현’으로 규정하였다.

이에 따라 혐오표현의 유형을 1) 차별적 괴롭힘, 2) 차별표시, 3) 공개적인 멸시/모욕/위협, 그리고 4) 증오선동의 네 가지로 구분하여 제시하였으며, 여기서 1-2)는 본 연구에서 기준으로 세운 ‘편견’의 속성과, 3-4)는 본 연구에서의 ‘혐오 또는 모욕’과 관련있는 것으로 판단되었다. 해당 연구 역시 본 연구와 마찬 가지로 ‘혐오 표현이란 이런 것이다’는 것을 연역적으로 정의하 기보다는 혐오 표현에 해당하는 내용들을 파악하고자 했으며, 본 연구는 그러한 과정을 코퍼스 구축의 단계로 확장하였다.

[2] 에서는 [1] 과 유사한 정의를 활용하여 혐오 표현을 이야 기하며, 이 과정에서 ‘소수자’로서의 대상성을 바탕으로 혐오 표현이 피해자에게 미치는 심리적 해악을 설명하였다. 여기서 중점적으로 살펴볼 부분은 혐오 표현을 통해 발화자가 피해자 의 정체성(identity)를 부정한다는 점이다. 또한, 온라인 공간의 익명성 및 보편성 등, 소셜 미디어에 혐오 표현이 다수 노출하게 된배경을 언급하며, 피해자가 이러한 폭력을 마주하고 열린 공 론장에서의 활동을 중지하는 사태를 방지하기 위해 혐오 표현 문제에 대한 대응이 시급함을 역설한다.

위 두 연구와 본 연구의 차이점이 있다면 본 연구에서는 일 반적으로 사회적 소수자에 속하는 것으로 생각되지 않는 집단 (남성, 부유층)에 대한 유해한 표현도 혐오 표현으로 간주하였 다는 것이다. 이는 특정 집단의 소수자성이 항상 절대적인 것이 아니고, 기사마다, 그리고 사안마다 약자성은 달라질 수 있음이 [4] 에서도 드러나기에 적절한 방향의 전환으로 고려되었다.

[3] 에서는 표현의 자유와 혐오 표현의 경계를 명확히 하는 것을 중점으로 삼아 표현의 자유를 침해하지 않으면서도 혐오 표현을 규제할 수 있는 기준을 확립하는 것을 목적으로 하였다.

또한 단순히 추상적인 생각이나 사상만으로는 처벌되지 않는다 는 사실과 함께 기존의 모욕 혹은 혐오에 따른 법 집행 사례를 살펴보며 어떤 요건들이 충족되어야 위법이 성립되는지에 대 한 고찰을 병행한다. 여기서 역시, 어떤 혐오 표현이 명확히 위법인지는 규정하지 못하지만 표현의 자유가 소수자나 사회 취약계층을 공격하기 위해 보호되는 권리는 결코 아님을 역 설하며 적어도 고의적으로 타인의 존엄성 내지 인격적 가치를 침해하는 표현에 대해서는 제한하는 것이 헌법의 기본가치를 보장하는 것임을 언급한다.

앞서 살펴본 선행 연구들에서 공통되는 부분은 혐오 표현 의 해석에 있어 사회적 편견을 언급하는 점, 그리고 모욕적인 언사와 차별에 기반한 혐오 표현을 모두 고려한다는 점이다.

이러한 특징들은 어느 정도 본 연구의 동기 및 차별점과 궤를 같이 하고 있다. 특히 성 관련 요소에 대한 편견을 우선적으로 판단하고자 하는 우리의 노력은 해당 요소가 정치색, 종교 등과

(6)

달리 모두와 관련되어 있어 더 많은 사람들에게 영향을 미칠 수 있다는 점에서 중요하다. 향후 이러한 접근은 피부색과 민족, 출신 배경 등으로 확장되어 성 관련 요소와 마찬가지로 ‘개인의 바꾸기 힘든 정체성’을 향한 혐오 표현들을 판단하고 예방하는 데에 기여할 수 있을 것이다.

7. 결론

본 연구를 통해 우리는 실제 온라인 연예 뉴스 기사 댓글 에서 사회적 편견, 유해성이 담긴 문장을 분석하고 관찰하여 이를 자동적으로 탐지하는 모델 학습을 위한 데이터셋을 구 축하였으며, 이 과정에서 어노테이션 가이드라인을 작성하고 어노테이션의 적절성을 평가하였다. 또한 기존 사회언어학 및 저널리즘에서 다뤄지던 혐오 표현에 관한 논의와 본 연구가 어떤 부분에서 연관되어 있는지, 차별화된 점은 무엇인지 심 층적으로 탐구하였다. 후속 연구로는 본 코퍼스가 기계 학습의 훈련 데이터로 어느 정도 효과적인지, 사전 학습된 언어 모델 들에 그 성능이 영향받는지 등을 확인할 것이다. 본 코퍼스의 공개로 한국어 혐오 표현 연구가 다각화 및 심층화되고, 실제 온라인 공간에서의 악성 댓글 방지에 이바지할 수 있기를 기대 한다.

감사의 글

함께 데이터를 분석한 이준범 님, 그리고 크라우드소싱에 도 움을 주신 김현중 님께 감사의 말씀을 전합니다.

참고문헌

[1] S. S. Hong et al., “Study on the state and regulation of hate speech,” 2016.

[2] S. Kim, “Expression of hate and discrimination in the Korean language from a social viewpoint: Prob- lem statement and improvement measures for hate and discrimination against social minorities,” New Korean Language-life, Vol. 27, No. 3, pp. 49–63, 2017.

[3] M.-s. Park and J.-h. Choo, “The state of hate speech and the response measures,” Korean Institute of Crim- inology Research Report, pp. 1–373, 2017.

[4] B.-M. Kim, “Late modern misogyny and feminist pol- itics: The case of Ilbe, Megalia, and Womad,” Journal of Korean Women＇s Studies, Vol. 34, No. 1, pp. 1–31, 2018.

[5] S. Kang, “A study on constructing dictionary for korean hate speech classification: focusing on online news comments,” 2018.

[6] D.-S. Park and J.-W. Cha, “Semi-supervised learning for detecting of abusive sentence on twitter using deep neural network with fuzzy category representation,”

Journal of KIISE, Vol. 45, No. 11, pp. 1185–1192, 2018.

[7] Z. Waseem and D. Hovy, “Hateful symbols or hateful people? predictive features for hate speech detection on twitter,” Proceedings of the NAACL student research workshop, pp. 88–93, 2016.

[8] V. Basile, C. Bosco, E. Fersini, D. Nozza, V. Patti, F. M. R. Pardo, P. Rosso, and M. Sanguinetti,

“Semeval-2019 task 5: Multilingual detection of hate speech against immigrants and women in twitter,” Pro- ceedings of the 13th International Workshop on Seman- tic Evaluation, pp. 54–63, 2019.

[9] T. Davidson, D. Warmsley, M. Macy, and I. Weber,

“Automated hate speech detection and the problem of offensive language,” Eleventh International AAAI Con- ference on Web and Social Media, 2017.

[10] S. Assimakopoulos, R. V. Muskat, L. van der Plas, and A. Gatt, “Annotating for hate speech: The maneco corpus and some input from critical discourse analysis,”

arXiv preprint arXiv:2008.06222, 2020.

[11] R. J. Boeckmann and C. Turpin-Petrosino, “Under- standing the harm of hate crime,” Journal of Social Is- sues, Vol. 58, No. 2, pp. 207–225, 2002.

[12] H. Kim, “Korean national corpus in the 21st century Sejong project,” Proceedings of the 13th NIJL Interna- tional Symposium, pp. 49–54, 2006.

[13] E. B. Wilson, “Probable inference, the law of succession, and statistical inference,” Journal of the American Sta- tistical Association, Vol. 22, No. 158, pp. 209–212, 1927.

[14] K. J. Song, J. C. Lee, and Y. O. Hong, “Prejudices and discrimination toward social stigmatized groups,” Ko- rean Journal of Psychological and Social Issues, Vol. 7, No. 1, pp. 119–136, 2001.

[15] D. S. Kim, “A study on the regulations of defamation and insult on cyberspace,” The Journal of Legal Studies, Vol. 21, No. 1, pp. 175–196, 2013.

[16] K. Krippendorff, “Computing krippendorff’s alpha- reliability,” 2011.