• 검색 결과가 없습니다.

제3절 단어/문장 특징 추출 방법론 (word embedding method)

을 뿐만 아니라, 더욱 중요한 것은 제한된 자료의 고차원 자료에서 추론

일반적으로 디코딩이 매우 빠르게 이루어지면서 동시에 압축된 데이터 Decomposition을 적용하여 구할 수 있다(Jolliffe, 2011). 즉 전통적으 로 사용하였던 주성분 분석이 단어의 특징 추출에 사용된다.

정리하면 주성분 분석을 이용한 단어 임베딩 방법은 문장 내에서 단어 들의 동시 출현 빈도를 요약하여 특징을 추출하는 방법이라고 할 수 있다.

2. 신경망 모형을 이용한 주성분 분석의 확장

한 문장이 5개의 단어로 이루어져 있는 예이며, 시간상 후에 나타난 단 어들은 과거에 출현한 단어들에 모두 영향을 받는 모형이다. 이 모형에서 단어들 간의 의존성에 대한 가정을 통해 단순한 다음과 같은 모형을 생각 해볼 수 있다.

Pr   

  

Pr           

즉 문장에서 한 단어의 분포는 주변 단어들에 의해서만 영향을 받는 모 형이다. 가장 간단한 모형으로 마코프 체인을 생각해 볼 수 있다.

CBOW는 문장 생성모형이 아니라 주변 정보를 활용한 조건부 확률로 단어의 특징을 추출한다. CBOW 모형은 한 단어의 출현이 시간에 흐름 에 따라 이전에 출현한 단어가 아니라 단지 주변 단어에 의해 영향을 받 는다고 가정하였다. 즉 문장의 생성에서 시계열 모형으로부터 벗어난 것 이 큰 특징이다. 반대로 Skip-gram 방법은 단어가 하나 주어졌을 때 문 장 내 주변 단어들의 출현 확률을 이용하여 단어의 특징을 추출하는 방법 이다. 기본적인 아이디어는 CBOW와 유사하지만 단어의 특징을 추출하 는 방법에서 차이가 있다.

신경망 모형을 이용한 단어의 특징 추출 모형이 주성분 분석과 다른 점 은 디코딩 단계에서 주성분 분석은 선형 변환을 그대로 이용하는 반면 신

경망 모형 방법은 단어 벡터를 선형 변환한 이후 결과값을 합이 1이 되는 확률값의 형태(표준 심플렉스 위의 원소)로 변환한다는 것이다. 이는 softmax function의 출력값으로 정의하고 이 값을 이용하여 multi-nomial의 우도를 통해 복원 오차를 정의한다.

주성분 분석과 신경망 모형을 이용한 단어 특징 추출의 차이점을 살펴 보면 다음과 같다.

(1) 주성분 분석은 선형 디코더를 사용하는 반면 신경망 모형은 soft-max function을 이용한 비선형 디코더 함수를 사용한다.

(2) 주성분 분석의 복원 오차는 L2 손실함수로 정의하지만, 신경망 모 형은 multinomial 분포의 음의우도로 정의한다.

(3) 주성분 분석은 동시 출현 빈도에 기반하여 단어의 특징을 추출하지 만, 신경망 모형은 조건부 확률을 통해 단어의 특징을 추출한다.

관련 문서