- 94 -
한국어 트위터의 감정 분석 도구
서형원
O, 전길호, 최명길, 남유림, 김재훈
한국해양대학교 컴퓨터공학과
[email protected]O, [email protected], [email protected],
[email protected], [email protected]
A Sentiment Analysis Tool for Korean Twitter
Hyung-Won Seo
O, Kil-Ho Jeon, Myung-Gil Choi, Yoo-Rim Nam, Jae-Hoon Kim Department of Computer Engineering, Korea Maritime University
요 약
본 논문은 자동으로 한글 트위터 메시지(트윗: tweet)에 포함된 감정을 분석하는 방법에 대하여 기술한다.
제안된 시스템에 의하여 수집된 트윗들은 어떤 질의에 대해 긍정 혹은 부정으로 분류된다. 이것은 일반적
으로 어떤 상품을 구매하기 원하는 고객이나, 상품에 대한 고객들의 평가를 수집하기 원하는 기업에게 유
용하다. 영문 트윗에 대한 연구는 이미 활발하게 진행되고 있지만 한글 트윗, 특히 감정 분류에 대한 연구
는 아직 공개된 것이 없다. 수집된 트윗들은 기계 학습(Naive Bayes, Maximum Entropy, 그리고 SVM)을
이용하여 분류하였고 한글 특성에 따라 자질 선택의 기본 단위를 2음절과 3음절로 나누어 실험하였다. 기
존의 영어에 대한 연구는 80% 이상의 정확도를 가지는 반면에, 본 실험에서는 60% 정도의 정확도를 얻
을 수 있었다.
주제어: 트위터, 기계 학습, 감정 분석, 감정 분류
1. 서론
현재 전 세계적으로 화제를 모으고 있는 트위터는 편 리하고 간단한 인터페이스와 기능을 제공하여 뉴스, 미 디어, 대중 매체보다 더 쉽고 빠르게 자신이 원하는 정 확한 정보를 공유할 수 있게 해준다. 더군다나 모바일 환경에서도 쉽게 트윗을 작성하고 공유할 수 있기 때문 에 그 어느 매체보다 더욱 더 빠르게 성장하고 있고 파 급력 또한 막대하다.
트위터는 트윗이라고 하는 일종의 메시지(status message) 들을 작성할 수 있는데, 실제 트위터에는 다양 한 주제에 대한 트윗들이 존재한다. 이것은 어떤 상품을 구매하기 원하는 사람이나, 어떤 상품을 새롭게 발매하 는 기업이 기존 비슷한 상품에 대한 사용자들의 상품평 을 원할 때 유용한 자원이 될 수 있다. 이를 위해 자동 으로 트윗들을 수집하여 감정 분석을 하는 것이 본 논문 의 핵심이라고 할 수 있다.
감정 분석은 주로 기계 학습을 이용하여 분석하는데, 이미 다양한 방법과 도메인에 한글에 대한 감정 분석을 한 연구들이 있었다[1]. 하지만 기존의 감정 분석[2,3]
은 주로 구단위, 문장 단위, 문서 단위의 감정 분류를 하 거나 영화 리뷰처럼 대량의 코퍼스를 대상으로 하는 연 구였다. 리뷰와 같은 문서는 일단 그 문서를 구성하는 글의 양이 많고 그것을 작성한 저자의 생각이나 느낌을 자세하게 기록하는 반면에, 트윗은 그 글의 길이가 140 음절로 제한이 되어있기 때문에 많은 내용을 포함할 수 없으며 글의 형식 또한 맞춤법에 크게 얽매이지 않는 편 이다.
본 논문은 영어 트윗들을 대상으로 하는 감정 분류 도
구[7]를 참고하여, 한글을 대상으로 하는 감정 분석 도 구를 제안하고 자세히 기술한다.
1.1 감정 정의
본 논문에서는 기존의 연구[7]와 마찬가지로 감정을
‘ 개인의 긍정 혹은 부정적인 느낌’이라고 정의한다. 예를 들어, 있는 사실을 그대로 알리는 메시지나 뉴스의 헤드 라인을 따오는 경우의 대부분은 긍정 혹은 부정적인 느 낌을 포함하지 않는다. 따라서 본 논문은 이런 경우를 제외하고 오로지 긍정과 부정의 트윗만을 연구 대상에 포함한다고 정의한다. 그러나 대부분의 트윗은 심지어 감정조차 포함하고 있지 않는 것이 많기 때문에 ‘중립’이 란 클래스를 학습 말뭉치에 포함시킬 수 없는 것이 현재 하나의 연구 제약이다.
1.2 트윗
트위터 메시지는 몇 가지 고유한 특징을 가지는데, 이 절에서는 이전 감정 분류에 대한 연구와 차별되는 것들 을 나열한다.
길이: 트위터 메시지의 최대 길이는 140자이다. 영어 트윗의 경우 평균 14개의 단어, 78음절로 구성되었다.
한국어의 경우 평균 12개의 단어, 63개의 음절로 구성 되었다.
데이터 가용성: 지난 연구에 따르면 실험 평가를 위 해 굉장히 적은 양의 학습 말뭉치를 구축한 반면, Twitter API 를 이용하여 수천만 개의 트윗을 쉽고 편하 게 수집할 수 있다.
언어 모델: 트윗은 단지 데스크톱에서뿐만 아니라, 여