문서처리(Document Processing) - 관련 연구 - 국민대학교국민대학교국민대학교국민대학교

II. 관련 연구

2.2 문서처리(Document Processing)

2.2.1 자질 추출

2.2.2 자질(Feature) 선택

자질 선택은 문서에서 추출된 자질 중에 범주(Class)에서 학습데이터 에 효율적으로 사용될 정보만을 선택하는 단계이다. 모든 자질을 포함하 여 학습을 한다면 학습 및 분류에서 사용될 데이터의 처리량이 많아질 뿐만 아니라 범주 간 정보 독립성이 낮아지는 문제점으로 인해 정확도의 영향이 없는 범위 내에서 자질의 수를 최소화하는 연구가 많이 진행되어 왔다. 이러한 자질 선택에 대한 여러 가지 방법 중 본 논문에서 사용한 방법으로는 자질의 품사 정보를 이용한 특정 단어의 문서 빈도이다.

문서 빈도는 문서에서 어떤 단어가 나타난 빈도를 수치화하여 일정 빈 도 수 이상의 단어만을 자질로 선택하는 방법이다. 이 방법은 문서에서 많이 나타난 단어일수록 문서의 의미에 크게 영향을 미친다는 기준으로 분석되는 방법으로 가장 계산량이 적고 빠르게 자질을 선택할 수 있는 장점이 있다. 하지만 적게 나타난 단어의 경우도 문서의 의미에 크게 영 향을 미칠 수 있다는 점에서는 정확도를 보장받지 못하므로 문서크기가 일정한 문서라는 전제에서만 사용할 수 있다[16].

2.2.3 자질 가중치 계산

문서를 표현하기 위해서는 자질에 대한 출현빈도(Term Frequency:TF) 를 이용하여 하나의 문서를 표현하는 방법과 역 문헌빈도(Inverse Document Frequency:IDF)를 같이 이용하여 가중치(Weighting)을 표현하 는 방법으로 구분한다[6].

본 논문에서는 TF-IDF 가중치를 이용한 벡터수치화 방법을 선택하였고, TF-IDF 가중치 방법을 다음과 같이 설명한다.

TF-IDF 가중치는 문서의 자질에 가중치를 부여하여 문서를 표현하는 방법이다. 문서에서 나타나는 자질의 빈도수 TF와 역 문헌빈도 IDF의 곱 으로 표현하여 <식 1>와 같다.

NNN N aaaaikikikik = f = f = f = fikikikik × log( × log( × log( × log(

nnnnkkkk ⁾⁾⁾⁾ <식 1>

where

ffffik : ik : ik : ik : I문서내 k단어 빈도수

nnnnk : k : k : k : 전체문서 중 k단어가 출현한 문서 수

본 논문에서 사용한 TF-IDF 가중치 계산은 문서내의 자질이 나타난 빈 도수와 역 문헌빈도수만을 고려하여 수식에서 적용하였다.

2.2.4 벡터 수치화

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> #

<info>

<feature> .=. <integer> | "qid"

<value> .=. <float>

Target의 경우 문서 분류의 결과값인 True/False의 개념과 일치시켜 Positive인 경우 +1, Negative의 경우 -1로 구성이 가능하다[19].

<info>의 경우 설명 정보이므로 생략도 가능하다.

본 논문에서는 Positive는 Non악성 댓글을 의미하며, Negative는 악성 댓글을 의미한다.

문서에서 국민대학교국민대학교국민대학교국민대학교 (페이지 15-21)