• 검색 결과가 없습니다.

정준상관분석(canonical correlation analysis, CCA)

제3절 임베딩에 기반한 연계방법론

2. 정준상관분석(canonical correlation analysis, CCA)

다양한 모달리티들은 서로 다른 측도를 가지고 있으므로 이들 간의 연 관성을 모형화하여 분석하기가 어려운데 정준상관분석은 이러한 서로 다 른 형태의 모달리티를 가진 자료의 연관성 분석에 활용될 수 있다. 정준 상관분석은 적합한 특정 형태의 방향성을 가정하지 않고도 여러 양식 간 의 공통의 변동 원인을 식별하고 모형화할 수 있으므로 다중 모달리티 데 이터의 융합에 주요한 도구라 할 수 있다. 이러한 분석목적을 필요로 하 는 여러 분야에서 비선형 투영을 수행하는 커널 CCA(kernel CCA), 제 약 CCA(constrained CCA), 딥 CCA(deep CCA) 및 다중 세트 CCA를 포함한 CCA 변형방법 등이 널리 적용되고 있다(Zhuang et al., 2020).

〔그림 4-8〕 요인모형

자료: 저자 작성

정준상관분석모형에 앞서 〔그림 4-8〕과 같이 표현된 간단한 요인 (factor) 모형을 살펴보자. 요인모형에서는 잠재요인  가 주어졌을 때,  가 관측된다고 가정한다.

〔그림 4-9〕 요인모형

자료: 저자 작성

이를 두 변수에 대한 관계식으로 확장한 경우의 표현은 〔그림 4-9〕와 같다. 보자. 〔그림 4-9〕는 두 변수의 공통요인의 역할을 하는  가 주어졌 을 때, 두 변수 와 의 관계를 보여준다. 연속형 자료에 대한 정준상관 분석의 확률적 해석으로는 잠재확률변수  ∼  가 주어져 있을 때,

와 의 조건부확률분포를

 ∼ ∈× 

 ∼ ∈× 

와 같이 구조화하면 와 의 관련성을 구조화하여 표현할 수 있다.

요인모형에 기반하여 확률적인 모형으로 해석하는 것과 별개로 정준상 correla-tion coefficient)라 부른다(Hotelling, 1936). 정준상관분석은 회귀분 석과 달리 같은 종속변수와 설명변수간의 설명력을 설명하는 인과관계를

최대화 하는 방향벡터 과 를 찾는 문제가 된다. 여기서, 

는 각 그룹의 급내변동행렬(within variance matrix)으로 공분산행 렬이며, 는 급간변동행렬(between covariance matrix)이다.

식 (4-4)에 대한 해는 변수집단 1과 변수집단 2의 공분산행렬에 관한 다음의 스펙트럴 분해(spectral decomposition)에 의한 고유벡터 (eigen-vector)와 고유값(eigen-value)에 의해 주어진다.

 와   (4-5)

여기서, 는 공통 고유값이다. 한편, 고유벡터 과 에 -노음 제약 조건을 통해서 고유벡터의 방향의 해석을 보다 용이할 수 있는데 대표적 인 모형으로 Witten et al.(2009)의 연구를 예롤 들 수 있다.

여러 변형적인 방법 중에서 심층신경망 구조를 가진 정준상관분석모형 (Andrew et al., 2013)에 대해서 살펴보도록 한다. 서로 다른 두 모달리 티의 예로 한 관측치에 대한 두개의 이미지 view1와 view2가 주어졌다 고 가정하자. 〔그림 4-10〕은 정준상관분석에서 3차원의 view1와 view2 의 관측벡터들로부터 3층의 은닉층을 가진 심층 신경망 구조를 통과해서 최상단의 2차원의 임베딩 벡터로 표현됨을 나타낸다.

〔그림 4-10〕 심층 정준상관분석

자료: Andrew et al. (2013). “Deep canonical correlation analysis”. Proceedings of the 30th International Conference on Machine Learning, 28(3), p. 1247-1255 재인용.

심층 정준상관분석은 다층의 비선형 변환을 통과하여 서로 다른 두 입력 view의 표현을 산출한다(〔그림 4-10〕 참조). 단순화를 위해 첫 번째 view 에 대한 네트워크의 각 중간 계층에는  차원이라 하고 최종 (출력) 계층에 는 크기가 인 차원이라고 가정하자. 입력 ∈을 첫 번째 view의 객 체라 하자. 추정모수 ∈× 은 가중치 행렬, 절편을 ∈이라고 놓자. 비선형함수   →에 대해 출력값을    ∈라 고 하면 은 다음 층    ∈의 입력으로 활용된다.

따라서 신경망이 층일 때 최종 표현이 되는 값은    − ∈ 이 된다. 두 번째 view에 대한 입력 ∈에 대해서도 표현 는 동 일한 방식으로 계산할 수 있다.

〔그림 4-10〕에서 두 view에 대한 입력층은 각각   이다. 은 닉층의 차원   , 최종 출력층의 차원은   이다. 중간 은닉층

의 개수는   이다. 목적식은 양쪽의 입력이 주어졌을 때, 두 출력변수 간의 상관계수 가 가능한 크게 하는 모수를 추정한 다. 만약 는 첫 번째 view1에 대한 모수 과 ,   ⋯라 놓고,

에 대해서도 view2에 대해 동일한 방식으로 매개화하면

  

 

로 나타낼 수 있다. 와 는 각 심층신경망에서의 추정된 가중치 행 렬과 절편이다.

정준상관분석은 다중 모달리티 데이터 분석을 위해서 단순한 선형 상 관관계를 다룬다. 표현의 다양성을 보다 확장하기 위한 방안으로 함수공 간의 복잡도를 늘릴 필요가 있다. 비선형 상관관계를 추정하기 위해 신경 망을 기저방법으로 한 다양한 정준상관분석의 변형방법들이 개발되었다.

다음 절에서는 표현학습에 기초하여 텍스트와 수치자료에 대한 정준상관 분석의 여러 응용 방법들에 살펴본다.