표현학습(representation learning) - 제3절 임베딩에 기반한 연계방법론

제3절 임베딩에 기반한 연계방법론

1. 표현학습(representation learning)

최근 딥러닝(deep learning)은 텍스트/이미지/오디오 분석 분야 등을 포함하여 여러 분야에서 광범위하게 활용되고 있다. 딥러닝 방법의 기저 방법으로 활용되는 표현학습(representation learning)은 심볼릭 (symbolic) 오브젝트 형태를 특징을 가지는 자료들을 다차원의 실수공간 으로 매핑하는 임베딩(embedding)을 찾는 학습방법을 통칭하여 일컫는 다. 딥러닝의 심층신경망의 학습 과정에서 데이터의 다차원 공간에서의 다양한 표현을 찾는 것이 필요하며, 이를 통해 다양한 분석을 수행할 수 있다. 분석이나 예측에 좋은 자료는 유용한 특징을 가져야 되며, 이로부 터 학습에 도움을 주는 유용한 표현을 찾는 것이 필요하다.

표현학습은 학습 시 유용한 표현을 만드는 과정이라 할 수 있는데 심층 신경망 구조의 최상단 은닉층과 출력변수와의 학습을 제외한 나머지 은 닉층들은 학습에 사용될 표현들을 생성하는 과정으로 이해할 수 있다. 표 현학습은 학습 방법과 네트워크 설계로 사물과 관념, 개념에 대한 표현을 학습하는 과정을 다룬다.

표현학습의 대표적인 예로 제한된 볼츠만 머신(Restricted Boltzmann Machine, RBM)을 살펴보기로 한다. 먼저 RBM에서 활용하는 용어에 대 해 간단히 설명한다. 〔그림 4-7〕과 같이 차원의 수가 4인 관측 가능한 가 시변수(visible variable)   ____^와 차원의 수가 3인 은닉층

  ___^이 연결된 그래프의 구조로 주어졌다고 가정하자. 7개의 모든 변수는 0과 1의 이진값(binary value)을 가진다고 가정하자.

〔그림 4-7〕 RBM의 모형구조

자료: 저자 작성

관측한 가시변수로부터 관찰되지 않은 은닉변수를 추정하는데 적절한 모형이 필요하다. 관측 를 종속변수로 하고, 은닉변수 를 설명변수로 하는 회귀문제를 고려해보자. 그러면 목적함수로 제곱손실   ^_^ 을 고려할 수 있다. RBM에서는 이를 에너지(energy) 함수로 정의하고 이를 보다 일반화하여 전개하면 다음의 에너지함수를 얻을 수 있다.

    ^  ^  ^

  ^ 



  



___ 

식에서 와 는 절편역할을 하는 항이라 할 수 있으며, 는 와 의

 _    학습된 표현(learned representation)이라고 하며, 지도학습 문제에서 예측성능을 향상시키는 데 주로 사용되고 있다. 앞에서 살펴본 오토인코

적 지식이나 통찰이 다소 부족하더라도 관측된 자료와 자료 분석에 적합 한 다양한 손실함수를 활용하여 임베딩을 구할 수 있다. 예를 들어, 의학 에서의 전문용어도 처방전이나 의학사전 등에서 전문용어의 전후 사용된 단어들의 문맥정보로부터 다차원의 임베딩 벡터로 표현될 수 있다. ② 어 떠한 유형의 데이터도 서로 다른 데이터와 연계를 할 수 있는데 예를 들 어, 서로 다른 모달리티를 가지는 비정형형태의 이미지, 영상, 텍스트 등 숫자로 표현할 수 있기 때문에 특징맵 간의 융합이 가능하다. ③ 감정 등 과 같은 표현하기 힘든 느낌이나 캐릭터와 같은 심볼릭(symbolic) 형태 의 자료나 기호 등에 대해서도 표현할 수 있다.

문서에서 2020년 소셜 빅데이터 기반 보건복지 이슈 동향 분석 (페이지 93-97)