One hot encoding - 제2절 텍스트의 정량화 (text quantification)

제2절 텍스트의 정량화 (text quantification)

1. One hot encoding

단어를 One hot encoding을 통해 벡터로 변환하는 방법은 다음과 같 다. 전체 단어의 개수의 길이를 갖는 0 벡터를 생성하고 해당하는 단어의 위치에만 1을 할당하여 표현하는 방법이다. 각 단어를 위의 벡터로 변환 할 수 있으므로 같은 방식을 문서에 적용하면 문서 또한 마찬가지로 벡터 로 변환할 수 있으며, 이렇게 생성된 문서별 단어 벡터는 문서-단어 행렬

(Document-Term matrix) 혹은 단어-문서 행렬(Term-Document matrix)로 표현할 수 있다. 문서-단어 행렬에서 행은 문서를 나타내며 열 은 단어의 등장 빈도 혹은 출현 여부를 표현한다. 이를 통해 문서별로 어 떤 단어가 몇 번 등장했는지를 쉽게 확인할 수 있다. 단어-문서 행렬은 문 서-단어 행렬의 전치 행렬로 단어가 문서별로 몇 번씩 등장했는지 확인하 기 용이한 행렬이다. [그림 3-1]은 문서-단어 행렬의 예시이다. 첫 번째 문서에서는 ‘mining’이 5번, ‘blockchain’이 2번 등장했으며, 두 번째 문서에서는 ‘blcokchain’이 1번 등장했음을 행렬의 각 원소를 통해 쉽게 확인할 수 있다. 이러한 방식을 사용하는 대표적인 분석 방법은 Topic model이다. Topic model은 분석자가 토픽이 몇 개일지 미리 정한 뒤, 문서를 토픽의 분포로 표현하거나 토픽을 구성하는 단어의 분포를 파악 하는 모형이다. Topic model에는 대표적으로 잠재 디리클레 할당(LDA:

Latent Dirichlet Allocation)이 있다(Blei, Andrew and Michael, 2003).

〔그림 3-1〕 문서-단어 행렬의 예시

문서-단어 행렬의 각 원소는 단어의 중요도를 평가하기 위해 가중치를 사용 하여 변형할 수 있다. 가중치로는 주로 TF(Term Frequency)-IDF(Inverse

Document Frequency)가 사용된다(Leskovex, Rajaraman and Ullman, 2014). TF-IDF는 TF 가중치와 IDF 가중치의 곱으로 표현할 수 있 다. 예를 들어 전체 문서 D 중 문서 d에서 발생한 단어 t의 가중치는 다음의 식으로 표현할 수 있다.







 













TF-IDF 가중치 중 앞의 TF는 단어가 문서에서 발생하는 빈도에 대한 가중치를 의미한다. 문서에서 특정한 단어가 많이 등장할수록 해당 문서 에서 단어를 중요하게 고려해야 한다는 아이디어로 이해할 수 있다. 문서 d에서 발생한 단어 t의 빈도를 _라고 할 때, TF에 대해서는 아래와 같 은 여러 측도가 개발되어 있다.

binary:   _{ }≥ 

raw frequency:   _{ }

log normalization:     log  

double normalization 0.5:      max_{′ ∊ }_{′ }

_{ }

double normalization :      max_{′ ∊ }_{′ }

_{ }

반대로 IDF는 모든 문서에서 등장하는 단어의 빈도에 대한 가중치를 의미한다. 전체 문서에서 많이 등장하는 단어일수록 중요한 단어가 아니 라는 아이디어로 이해할 수 있다. 단어 t를 포함하는 문서의 개수를

_  ∊   ∊ , 문서의 개수를  라고 할 때 IDF에 대해

서는 아래와 같은 여러 측도가 개발되어 있다.

unary:    

inverse document frequency:    log _



inverse document frequency smooth:    log   _



inverse document frequency max:    log   _ max_{′ ∊ }_′

probabilistic inverse document frequency:

   log _

  _

형태소 분석을 거친 문서는 TF-IDF 등의 가중치를 통해 단어의 중요 도에 따라 가중치가 반영된 행렬로 변환되어 데이터 분석에 사용할 수 있 다. 이때 행렬에서 한 셀(cell)은 문서에 포함된 키워드들의 빈도 혹은 중 요도가 반영된 점수 측도이다.

문서에서 2018년 소셜 빅데이터 기반 보건복지 이슈 동향 분석 (페이지 69-72)