• Tidak ada hasil yang ditemukan

문서의갯수

1. 학습 데이터 셋

본 연구에서 특징 가중치를 이용한 단문텍스트의 카테고리 분류방법을 제안하기 위해 단문텍스트의 명사와 동사에 해당하는 단어의 빈도수를 추출하고 단어빈도수 의 특징 가중치를 표[ 4-2]와 같이 학습데이터 셋을 구축하였다.

no. Word Word Frequency Word feature wight

1

DEAL

8 9.875

2

SAVE

7 8.28571

3

happyprimeday

5 6.6

4

select

4 6.25

5 headphone 1 3

… … … …

122 philip 1 3

표 학습데이터 셋 예제

[ 4-2]

학습에 사용된 트위터의 단문텍스트는 총 2,800건에 해당하며 특징을 기반으로, 선정한 카테고리를 기준으로 ‘Advertisement’, ‘News’, ‘Private’, ‘Opinion’ 별로

개씩 나누어 수집하였다

700 .

실험 데이터 셋 2.

본 논문에서 사용된 실험 데이터 셋은 카테고리를 기준으로 각 단문텍스트에 번 호를 붙여 단문텍스트가 어느 카테고리로 분류되었는지 정확도 계산을 위해 1200 건의 실험 데이터 셋을 구축하였다. [표 4-3]은 실험 데이터 셋을 표현 하고 있 다.

카테고리 번호 게시물 건

Advertisement 1 ~ 300 300

News 301 ~ 600 300

Private 601 ~ 900 300 Review 901 ~ 1200 300

표 실험 데이터 셋

[ 4-3]

실험데이터 셋도 학습데이터 셋과 같은 방법으로 실험 데이터 셋을 구축한다.

표 와 같이 미분류 데이터 셋을 구축할 수 있다

[ 4-4] .

no. Word Word Frequency Word feature weight

1

HappyPrimeDay 2

5

2

deal 3

6

3

Save 2

3

4

select 1

5

5

Philip 1

5

6

headphone 1

5

표 실험 데이터 셋 예제 [ 4-4]

실험평가 방법 및 결과 분석 C.

실험 평가 방법 1.

실험의 평가는 기계학습의 모델검증을 위해 사용되는 교차검증을 이용한다 카테. 고리의 분류 정확성을 측정하기 위해 정확률을 이용하였다 단문텍스트의 카테고리. 분류에 대한 성능평가는 교차검증을 이용한다. 교차검증을 통해서는 정확률

재현율 를 구할 수 있다

(Precision), (Recall), F-score [31].

실제정답

참(True) 거짓(False)

실험결과

참 (True)

True Positive (tp)

False Positive (fp) 거짓

(False)

False Negative (fn)

True Negative (tn)

표 교차검증 표

[ 4-5]

표 는 교차검증 표이다 정확률은 전체 결과 중에 참으로 분류되었을 때

[ 4-5] .

만 나타내는 것이고 재현율은 실험결과 참으로 분류된 결과 중 나온 결과 중에 참, 으로 분류되었을 때를 식(5), 식(6)을 통해 나타낸다. 본 실험에서는

에 분류된 모든 데이터 중 실제 로 분류된 데이터를

Advertisement ‘Advertisement’

뜻한다.

Pr      



(5)

  

  



(6)

 

Pr  

Pr

(7)

정확률과 재현율은 반비례 관계를 가지며 정확률이 높으면 재현율이 낮아지는, 형태를 가지고 있다 이를 보조하기 위해 정확률과 재현율을 이용한. F-score 방법 을 이용한다.

는 정확률과 재현율을 이용한 정확도 측정방법으로

F1-score 정확률과 재현율의

중요성을 동일하게 두고 계산을 한다 본 논문에서는 단문텍스트의 카테고리 분류. 의 정확도를 구하기 위해 식 (5), (6), (7)을 이용하여 단문텍스트의 카테고리 분류 의 성능을 평가한다.

실험 결과 분석 2.

단어빈도수만을 이용하여 카테고리를 분류하는 방법의 결과와 본 논문에서 제안 하는 방법을 이용하여 카테고리의 분류된 결과의 정확률을 평가한 결과는 다음과 같다. 스피어만 상관계수를 이용하여 미분류 텍스트를 분류하는 결과는 [표 4-6]

과 에서 나타내고 있다.

Advertisement News Private Opinion

Advertisement

(300)

272 7 12 9

News

(300)

11 276 6 7

Private

(300)

23 9 232 36

Opinion

(300)

4 8 20 268

표 단문텍스트 카테고리 분류 결과

[ 4-6]

표 은 미분류 데이터를 특징 가중치를 이용하여 카테고리별로 분류한 표를 [ 4-6]

나타낸다 특징 가중치를 이용하여 카테고리별로 미분류 데이터를 분류하였을 때. 이상의 정확도를 나타내며 분류된 것을 확인할 수 있었다

90% .

그러나 미분류 카테고리 중 ‘Private’ 카테고리의 경우 본 논문에서 정의하는 특, 징이 많이 나타나지 않았다. ‘Private’ 카테고리의 단문텍스트는 사용자의 직업 또 는 주된 관심사에 따라 다른 카테고리의 성향을 나타내는 특징들이 나타났기 때문 에 ‘Advertisement’, ‘ Opinion’ 카테고리 쪽으로 오 분류가 다소 나타난 것으로 보인다.

단어빈도수를 이용한 정확도 결과

Advertisement News Private Opinion Precision 0.9067 0.92 0.7733 0.8933

Recall 0.9067 0.9387 0.8 0.9305

F-score 0.9067 0.9292 0.7864 0.9115 표 단어빈도수를 이용한 카테고리 분류 정확도 결과 [ 4-7]

단어빈도수와 특징 가중치를 이용한 정확도 결과

Advertisement News Private Opinion Precision 0.9067 0.92 0.7733 0.8933

Recall 0.9717 0.9718 0.9667 0.9305 F-score 0.9379 0.9452 0.8592 0.9115

표 단어빈도수와 특징 가중치를 이용한 카테고리 분류 정확도 결과 [ 4-8]

표 과 표 은 특징 가중치의 적용하지 않았을 때와 특징가중치를 적 [ 4-7] [ 4-8]

용했을 때에 따른 정확도 결과로 학습데이터 셋과 미분류 데이터 셋 간의 상관성, 을 비교하여 Precision, Recall, F-score 값을 구한 것이다. [표 4-7]과 [표 4-8]

를 비교하면 단어 빈도수만을 이용해 단문텍스트를 카테고리에 분류한 결과 정확 도는 ‘Advertisement’는 0.9067, ‘News’는 0.9292, ‘Private’는 0.7864, ‘Opinion’

은 0.9115의 값을 가지는 것을 알 수 있었다 그러나 단어빈도수와 단어 특징빈도. 수를 이용한 상관성 분석결과 ‘Advertisement’는 0.9379, ‘News’는 0.9452,

는 은 의 값으로 단문텍스트 카테고리 분류의 정

‘Private’ 0.8592, ‘Opinion’ 0.9115 확도가 향상된 것을 확인할 수 있다.

전체적인 분류 결과는 90% 이상의 정확성을 보여 본 논문에서 제안하는 특징 가중치를 이용하는 방법에 대한 효율성을 입증할 수 있는 결과를 보이고 있다 앞. 서 [표 4-7]과 [표 4-8]에서 나타낸 F-Score 결과를 그래프로 [그림 4-1]에서 나타내고 있다.

그림 을 보면 전체적으로 단어빈도수만을 사용했을 때보다 단어특징빈도수 [ 4-1]

를 이용하여 카테고리별로 분류하였을 때 소량이지만 상승된 결과를 보여주고 있 다 특징 가중치를 함께 이용할 때 분류의 정확률이 높아진 카테고리는. , ‘Private’

으로 0.7864에서 0.8592 으로 정확도가 증가한 것을 확인할 수 있었다. 그 외,

는 에서 로 는 에서 로 상승된

‘Advertisement’ 0.9067 0.9379 ‘News’ 0.9292 0.9452

것을 확인할 수 있었다. ‘Private’의 경우는 1인칭 대명사를 특징으로 정해짐에 따 라 높게 분류가 된 것으로 보인다. ‘Opinion’ 카테고리는 특징 가중치를 이용하여 미분류 텍스트들을 분류한 결과 특징 가중치를 이용하지 않았을 때와 차이가 나타, 나지 않았다. ‘Opinion’ 카테고리는 하나의 주제가 아닌 여러 주제를 대상으로 하 고 있어 정확한 분류가 되지 않은 것으로 보인다.

향후 ‘News’와 ‘Advertisement’ 카테고리에 해당하는 텍스트들의 효율적 관리 를 필요로 할 때, ‘News’와 ‘Advertisement’ 카테고리에 해당되는 단문텍스트들을

그림 비교 결과 그래프

[ 4-1] F-score

이용하는 분야에서 유용하게 사용될 수 있을 것으로 사료된다. ‘Private’은 특징 가 중치를 이용했을 때 가장 높은 변화폭을 보였으므로 사용자의 관심사를 파악하거, 나, 개인서비스를 중심으로 하는 서비스에서 이용 가능할 것으로 보인다. 또한,

카테고리의 정확도를 높이기 위해서는 카테고리에서 나타나는

‘Opinion’ ‘Opinion’

특징들을 분석하여 특징 가중치의 값을 높이는 방법을 고려해야 하여 발전시킨다 면 SNS를 통한 마케팅 정보검색 사용자 맞춤형 서비스 등 다양한 분야에서 활용, , 될 것으로 기대된다.

결론 및 제언 .

본 논문에서는 단문텍스트에서 나타나는 특징들을 바탕으로 특징 가중치라고 하 는 값을 이용하여 학습 데이터 셋을 구축하고 미분류 데이터 셋과 상관성 분석 스, ( 피어만 상관계수 을 이용한 단문텍스트의 카테고리 분류 방법을 제안하였다) .

본 논문에서 제안하는 방법은 기존에 사용되는 문서분류와 달리 실시간으로 생 성되는 단문텍스트들을 이용하여 단문텍스트가 가지고 있는 특징을 바탕으로 특징 을 정의하고 정의한 특징을 이용하여 특징 가중치 값을 통해 단문텍스트의 카테고, 리 분류하는 것이다.

단문텍스트의 카테고리 분류를 위해 단문텍스트를 분류하는 선행연구를 통해 카테고리를 선정하였고 해당 카테

‘Advertisement’, ‘News’, ‘Private’, ‘Opinion’ ,

고리로의 분류에 적합한 단문텍스트가 가지고 있는 특징을 정의하였다 특징 가중. 치의 경우 학습 데이터셋 구축 시 단문텍스트의 단어빈도수와 단어가 등장할 때의 특징 빈도수를 활용하여 나타내는 것으로 본 연구를 통해 단문텍스트 분류 시 특, 징 가중치를 이용하여 카테고리에 분류하였을 때 ‘Advertisement’는 93%, ‘News’

는 94%, ‘Private’는 85%, ‘Opinion’은 91%로 평균 90. 7%의 결과로 좋은 성능을 나타냄을 확인하였다.

본 연구에서는 단문텍스트를 대상으로 ‘Advertisement’, ‘News’, ‘Private’, 카테고리를 선정하여 단문텍스트를 분류하였으나 향후에는 다양한 카테

‘Opinion’ ,

고리를 선정하고, 9개의 특징 이외에 이모티콘 신조어, , URL의 종류 등 다른 특징 을 추가로 정의하여 단문텍스트를 분류한다면 보다 더 높은 성능을 보일 것으로, 사료된다 또한 본 연구는 영어를 대상으로 연구하였으나 향후 다른 언어를 대상. , , 으로 연구하고 단문텍스트의 카테고리 분류 체계를 갖추는 데 이용된다면 다양한 소셜 검색 서비스에 활용할 수 있을 것으로 기대된다.

참고문헌

[1] https://ko.wikipedia.org/wiki/소셜네트워크서비스.

[2] 이윤희, "국내 SNS 의 이용 현황과주요 이슈 분석.", INTERNET &

SECURITY FOCUS 10, pp.56-78, 2012.

[3] 허상희 최규수, , "트위터에서 트윗 (tweet) 의 특징과 유형 연구." 한민족어문 학 제 61 , pp.455-494, 2012.권

[4] 이아람, "특징 선택과 가중치 부여를 통한 자동문서분류시스템의 성능 향상,”

서울시립대학교 석사학위논문, , 2013.

[5] 홍초희 김학수, , “ 트윗분류를 위한 효과적인 자질 추출”, 2011 한국컴퓨터 종합학술대회 논문집 제, 38 ,권 제 호1 , pp.229-232, 2011.

[6] 임혜영, “SVM 분류기를 이용한 문서 범주화 연구”, 연세대학교 문헌정보학과 석사학위 논문, 2000.

[7] 나윤재 변형 나이브 베이즈 분류기를 이용한 자동 문서분류에 관한연구“ ”, 연세 대학교 석사학위논문, 2008.

[8] 장병탁, “차세대 기계학습 기술”, 정보과학회지 제 25 ,권 제 3 , pp.96-107,호 2007.

[9] 조우승, “기계학습을 통해 예측한 유량을 반영하는 CEP 기반의 실시간 블록 누 수 탐지 방법”, 충남대학교 석사학위논문, , 2015.

[10] 박찬정, “기계학습을 이용한 특허문서의 다중 IPC 자동분류 방법”, 경기대학 교 박사학위논문, , 2013.

[11] 김병주, “문서분류에서의 SVM 및 나이브베이지안, EM 알고리즘의 특성 비 교”, 동국대학교 석사학위논문, , 2009.

[12] https://ko.wikipedia.org/wiki/TF-IDF

[13] 이재환, et al., "트위터에서의 토픽별 감정 패턴 분석.", 2014 한국정보과학회 제 41 회 정기총회 및 동계학술발표회, pp.204-206, 2014.

[14] 김예경, “ 트위터 사용자의의 음악청취 행태와 음악트렌드의 관계성 분석 및 예측”, 서울대학교 석사학위논문, , 2015.

Dokumen terkait