25(3), 521–529
Semi-Partial Canonical Correlation Biplot
Bo-Hui Lee 1 · Yong-Seok Choi 2 · Sang-Min Shin 3
1
Department of Statistics, Pusan National University
2
Department of Statistics, Pusan National University
3
Department of Statistics, Pusan National University
(Received January 25, 2012; Revised February 12, 2012; Accepted April 13, 2012)
Abstract
Simple canonical correlation biplot is a graphical method to investigate two sets of variables and observations in simple canonical correlation analysis. If we consider the set of covariate variables that linearly affects two sets of variables, we can apply the partial canonical correlation biplot in partial canonical correlation analysis that removes the linear effect of the set of covariate variables on two sets of variables. On the other hand, we consider the set of covariate variables that linearly affect one set of variables but not the other.
In this case, if we apply the simple or partial canonical correlation biplot, we cannot clearly interpret other two sets of variables. Therefore, in this study, we will apply the semi-partial canonical correlation analysis of Timm (2002) and remove the linear effect of the set of covariate variables on one set of variables but not the other. And we suggest the semi-partial canonical correlation biplot for interpreting the semi-partial canonical correlation analysis. In addition, we will compare shapes and shape the variabilities of the simple, partial and semi-partial canonical correlation biplots using a procrustes analysis.
Keywords: Biplot, set of covariate variables, semi-partial canonical correlation analysis, Procrustes analysis.
1. 서론
Gabriel (1971) 에 의해서 개발된 행렬도(biplot)는 이원표 자료행렬(two-way data matrix)의 행과 열 을 한 그림에 동시에 나타내는 탐색적 기법이다. 행렬도에 대한 연구는 다양한 분야에서 활발하게 진행 되어 왔는데, 특히 Park과 Huh (1996a, 1996b)는 두 변수 집단 간의 통계적 관계를 탐색하기 위한 다변 량 분석 방법인 정준상관분석(canonical correlation analysis)의 수량화 방법(quantification method) 관점을 이용하여 정준상관 행렬도(canonical correlation biplot)를 제안하였고, 세 변수 집단 이상인 경 우까지 확장한 정준상관분석의 일반화를 시도하였다.
최근에 정준상관 행렬도를 활용하여 Choi과 Choi (2008)는 2006년도 한국여자골프협회(KLPGA) 선 수 중 상금 순위 상위 50명을 대상으로 기술요인과 경기성적요인간의 관련성을 살펴보고 군집분석을 활용하여 각 선수들의 군집을 시도하였고, Choi 등 (2009)은 테니스 그랜드슬램대회의 선수특성요인 과 경기요인에 대한 정준상관 행렬도에서 프로크러스티즈 분석(Procrustes analysis)을 통하여 행렬 도의 형상을 비교하였다. 또한 Choi과 Choi (2010)는 2004년 대한테니스협회(KTA)에 등록된 랭킹
2
Corresponding author: Professor, Department of Statistics, Pusan National University, Jangjeon-Dong,
Geumjeong-Gu, Busan 609-735, Korea. E-mail: [email protected]
100위권 이내의 선수 50명을 대상으로 체격요인, 체력요인 그리고 기초기술요인의 세 변수군이 존재하 는 경우, 이들의 상호 연관성을 살펴보기 위해 일반화 정준상관분석을 이용하여 일반화 정준상관 행렬 도(generalized canonical correlation biplot; GCCB)를 고려하였다. 더 나아가 Yeom과 Choi (2011)는 두 변수군에 선형적 영향을 미치는 공변량변수(covariate variables)로 이루어진 한 변수군이 존재하는 경우, 공변량변수군의 선형적 영향을 제거한 두 변수군에 대한 편정준상관분석을 이용하여 편정준상관 행렬도(partial canonical correlation biplot; PCCB)를 제안하고 응용의 예를 보였다.
이와 달리 공변량변수군이 하나의 변수군에는 영향을 주지만 다른 한 변수군에는 영향을 주지 않는 경 우, 단순정준상관 행렬도(simple canonical correlation biplot; SCCB)나 일반화 정준상관 행렬도, 혹 은 편정준상관 행렬도를 적용한다면 주 관심 대상인 두 변수군에 대하여 잘못 해석할 수 있다. 이러한 경우에는 영향을 미치는 한 변수군에 대해서만 공변량변수군의 효과를 제거한 뒤 두 변수군에 대한 준편 정준상관분석을 활용하여야 할 것이다.
따라서 본 연구에서는 준편정준상관분석을 응용하여 이를 그래프적으로 살펴볼 수 있는 준편정준상관 행렬도(semi-partial canonical correlation biplot; SPCCB)를 제안하고자 한다. 이에 2절에서는 단순 정준상관 행렬도와 편정준상관 행렬도, 그리고 준편정준상관 행렬도의 기초 이론에 대해 설명하고, 행렬 도의 형상변동 차이를 비교하기 위해 활용한 프로크러스티즈 분석을 추가적으로 소개하려 한다. 3절에 서는 준편정준상관 행렬도의 활용 사례를 보이고, 단순정준상관 행렬도와 편정준상관 행렬도의 결과와 이들의 형상변동 차이를 비교하고자 한다.
2. 준편정준상관 행렬도와 프로크러스티즈 분석
2.1. 단순정준상관 행렬도
이 절에서는 Choi (2006, Chapter 2)를 참고로 하여 기존의 단순정준상관 행렬도를 소개하기로 하자.
단순정준상관분석은 두 변수군 사이의 관계를 분석하는 다변량 기법이다. 일반적으로 이 기법은 두 변 수군의 선형 결합간의 상관에 관심을 두며, 이 상관관계를 가장 크게 만드는 알고리즘을 통해 그 관계를 분석하는 것이 목적이다.
먼저 p개의 변수와 q개의 변수로 이루어진 두 변수군 x = (x
1, . . . , x
p)
′와 y = (y
1, . . . , y
q)
′는 각각 평 균벡터 µ
x= (µ
x1, . . . , µ
xp)
′와 µ
y= (µ
y1, . . . , µ
yq)
′를 가지며 공분산행렬 Σ
xx, Σ
yy, Σ
xy= Σ
′yx를 가 지는 확률벡터라 하자. 그러면 이들에 의해 측정된 n명의 자료에서 표본공분산행렬은 다음과 같다.
S = (
S
xxS
xyS
yxS
yy) .
여기서 임의의 계수벡터 u와 v에 대한 두 변수군의 선형결합 ˆx과 ˆy을 각각 ˆ
x = u
1x
1+ · · · + u
px
p= u
′x, y = v ˆ
1y
1+ · · · + v
qy
q= v
′y 라 할 때, 이들은 다차원의 변수군을 1차원으로 축소하여 나타내며, 이들의 상관은
ˆ ρ
x ˆˆy=
∑
n i=1ˆ x
iy ˆ
i√
∑
n i=1ˆ x
2i√
∑
n i=1ˆ y
i2= u
′S
xyv
√ u
′S
xxu √
v
′S
yyv (2.1)
으로 정의될 수 있다. 여기서 계수벡터 u와 v는 식 (2.1)의 두 선형결합의 상관을 최대화하는 알고
리즘에 의해서 구할 수 있으며, 이는 ˆx과 ˆy의 분산이 1인 제약 조건 u
′S
xxu = 1과 v
′S
yyv = 1을 두고 u
′S
xyv를 최대화하는 계수벡터 u와 v를 찾는 것과 동일하다. 이 알고리즘은 라그랑즈 승수 법(Lagrange multiplier method)을 이용하면 고유체계(eigensystem) 문제로 유도하여 풀 수 있고, 또 한 단순정준계수벡터와 단순정준상관을 대수적으로 한꺼번에 제공하는 비정칙치분해(singular value decomposition)
S
−1 xx2
S
xyS
−1
yy2
= UDV
′(2.2)
를 이용하면 간편하게 구할 수 있다. 여기서 S
−1/2xxS
xyS
−1/2yy의 계수(rank)는 r(≤ min(p, q))이고, U = (u
1, . . . , u
r) 와 V = (v
1, . . . , v
r) 는 크기가 각각 p × r과 q × r인 단순정준계수벡터로 이루어진 직교행 렬이다. 그리고 D = diag (√
λ
1, . . . , √ λ
r) 는 √
λ
1≥ · · · ≥ √
λ
r> 0의 관계를 갖는 비정칙치를 대각원
소로 하는 대각행렬이고, 이 비정칙치가 단순정준상관에 해당한다.
따라서 두 변수군 x와 y에 대해 n명을 측정한 크기가 각각 n × p와 n × q인 중심화 자료행렬을 X와 Y라 하면, i번째 단순정준상관계수벡터는 각각 다음과 같고,
a
i= S
−1
xx2
u
i, b
i= S
−1
yy2
v
i, i = 1, . . . , r.
이들에 의해서 구성된 단순정준상관계수행렬은 A = (a
1, . . . , a
r) 와 B = (b
1, . . . , b
r) 로 정의될 수 있 다. 이를 통해 계산된 중심화 자료행렬 X와 Y에 대한 단순정준상관 행렬도의 행 좌표행렬 R
X, R
Y와 열 좌표행렬 C
X, C
Y는 각각 다음과 같다.
R
X= XAD, C
X= AD, R
Y= YBD, C
Y= BD.
2.2. 준편정준상관 행렬도
이 절에서는 Yeom과 Choi (2011)의 편정준상관 행렬도를 간략히 언급하고, Timm (2002, Chapter 8) 을 참고로 하여 준편정준상관분석의 기초 이론을 요약하고, 이를 위한 시각적 도구인 준편정준상관 행 렬도를 제안하려 한다.
먼저 2.1절의 단순정준상관분석에서 두 변수군 x = (x
1, . . . , x
p)
′와 y = (y
1, . . . , y
q)
′에 선형적 영향을 미치는 m개의 변수로 이루어진 공변량변수군 z = (z
1, . . . , z
m)
′가 존재하는 경우, 이것의 영향을 제거 한 두 변수군 x와 y에 대한 관계를 살펴보는 편정준상관분석을 이용해야 한다. 그러나 때로는 공변량변 수군 z가 하나의 변수군 x에는 영향을 주지만 다른 한 변수군 y에는 영향을 주지 않는 자료를 접할 수 있다. 이 경우 단순정준상관분석이나 편정준상관분석을 이용한다면 주 관심 대상인 두 변수군에 대하여 잘못된 해석을 할 수 있어 영향을 받는 한 변수군에서만 공변량변수군의 영향을 제거한 후 두 변수군의 관계를 파악하는 준편정준상관분석을 살펴보고자 한다.
세 변수군 x, y, z는 각각 평균벡터로 µ
x= (µ
x1, . . . , µ
xp)
′, µ
y= (µ
y1, . . . , µ
yq)
′, µ
z= (µ
z1, . . . , µ
zm)
′를 가지며, 공분산행렬 Σ
xx, Σ
yy, Σ
zz, Σ
xy= Σ
′yx, Σ
xz= Σ
′zx, Σ
yz= Σ
′zy를 가지는 확률벡터이다.
이들에 의해 측정된 n명의 자료에 대하여 표본공분산행렬은
S =
S
xxS
xyS
xzS
yxS
yyS
yzS
zxS
zyS
zz
(2.3)
이다. 여기서 편정준상관분석의 경우, 변수군 z가 공변량변수군이므로 두 변수군에서 공변량변수군 z의 효과를 제거한 조건부 표본공분산행렬
S
.z= (
S
xx.zS
xy.zS
yx.zS
yy.z)
= (
S
xx− S
xzS
−1zzS
zxS
xy− S
xzS
−1zzS
zyS
yx− S
yzS
−1zzS
zxS
yy− S
yzS
−1zzS
zy)
를 이용하는 것이 바람직하며, 편정준상관 행렬도의 대수적인 이론은 준편정준상관분석과 유사하므로 생략하기로 한다.
다음으로 공변량변수군 z가 한 변수군 x에만 영향을 주는 경우, 식 (2.3)으로부터 영향을 받는 변수군 x에서만 공변량변수군 z의 효과를 제거한 조건부 표본공분산행렬은
S
(x.z)y= (
S
xx.zS
xy.zS
yx.zS
yy)
= (
S
xx− S
xzS
−1zzS
zxS
xy− S
xzS
−1zzS
zyS
yx− S
yzS
−1zzS
zxS
yy)
이며, 이 조건부 표본공분산행렬을 이용한 정준상관분석을 준편정준상관분석이라 한다. 이때 두 선형결 합의 상관을 최대화하는 알고리즘은 2.1절의 단순정준상관분석처럼 대수적으로 비정칙치분해
S
−1
xx.z2
S
xy.zS
−1
yy2