제3절 단어/문장 특징 추출 방법론 (word embedding method)

을 뿐만 아니라, 더욱 중요한 것은 제한된 자료의 고차원 자료에서 추론

일반적으로 디코딩이 매우 빠르게 이루어지면서 동시에 압축된 데이터 Decomposition을 적용하여 구할 수 있다(Jolliffe, 2011). 즉 전통적으 로 사용하였던 주성분 분석이 단어의 특징 추출에 사용된다.

정리하면 주성분 분석을 이용한 단어 임베딩 방법은 문장 내에서 단어 들의 동시 출현 빈도를 요약하여 특징을 추출하는 방법이라고 할 수 있다.

2. 신경망 모형을 이용한 주성분 분석의 확장

한 문장이 5개의 단어로 이루어져 있는 예이며, 시간상 후에 나타난 단 어들은 과거에 출현한 단어들에 모두 영향을 받는 모형이다. 이 모형에서 단어들 간의 의존성에 대한 가정을 통해 단순한 다음과 같은 모형을 생각 해볼 수 있다.

Pr _{ }_ 



  



Pr _          

즉 문장에서 한 단어의 분포는 주변 단어들에 의해서만 영향을 받는 모 형이다. 가장 간단한 모형으로 마코프 체인을 생각해 볼 수 있다.

CBOW는 문장 생성모형이 아니라 주변 정보를 활용한 조건부 확률로 단어의 특징을 추출한다. CBOW 모형은 한 단어의 출현이 시간에 흐름 에 따라 이전에 출현한 단어가 아니라 단지 주변 단어에 의해 영향을 받 는다고 가정하였다. 즉 문장의 생성에서 시계열 모형으로부터 벗어난 것 이 큰 특징이다. 반대로 Skip-gram 방법은 단어가 하나 주어졌을 때 문 장 내 주변 단어들의 출현 확률을 이용하여 단어의 특징을 추출하는 방법 이다. 기본적인 아이디어는 CBOW와 유사하지만 단어의 특징을 추출하 는 방법에서 차이가 있다.

신경망 모형을 이용한 단어의 특징 추출 모형이 주성분 분석과 다른 점 은 디코딩 단계에서 주성분 분석은 선형 변환을 그대로 이용하는 반면 신

경망 모형 방법은 단어 벡터를 선형 변환한 이후 결과값을 합이 1이 되는 확률값의 형태(표준 심플렉스 위의 원소)로 변환한다는 것이다. 이는 softmax function의 출력값으로 정의하고 이 값을 이용하여 multi-nomial의 우도를 통해 복원 오차를 정의한다.

주성분 분석과 신경망 모형을 이용한 단어 특징 추출의 차이점을 살펴 보면 다음과 같다.

(1) 주성분 분석은 선형 디코더를 사용하는 반면 신경망 모형은 soft-max function을 이용한 비선형 디코더 함수를 사용한다.

(2) 주성분 분석의 복원 오차는 L2 손실함수로 정의하지만, 신경망 모 형은 multinomial 분포의 음의우도로 정의한다.

(3) 주성분 분석은 동시 출현 빈도에 기반하여 단어의 특징을 추출하지 만, 신경망 모형은 조건부 확률을 통해 단어의 특징을 추출한다.

문서에서 2018년 소셜 빅데이터 기반 보건복지 이슈 동향 분석 (페이지 77-82)