Principal component analysis in the frequency domain: a review and their application to climate data

(1)

Principal component analysis in the frequency domain:

a review and their application to climate data

You-Jung Jo ^a · Hee-Seok Oh ^a · Yaeji Lim ^b,1

a

Department of Statistics, Seoul National University;

b

Department of Statistics, Pukyong National University (Received March 16, 2017; Revised May 11, 2017; Accepted May 11, 2017)

Abstract

In this paper, we review principal component analysis (PCA) procedures in the frequency domain and apply them to analyze sea surface temperature data. The classical PCA defined in the time domain is a popular dimension reduction technique. Extending the conventional PCA to the frequency domain makes it possible to define PCA in the frequency domain, which is useful for dimension reduction as well as a feature extraction of multiple time series. We focus on two PCA methods in the frequency domain, Hilbert PCA (HPCA) and frequency domain PCA (FDPCA). We review these two PCAs in order for potential readers to easily understand insights as well as perform a numerical study for comparison with conventional PCA. Furthermore, we apply PCA methods in the frequency domain to sea surface temperature data on the tropical Pacific Ocean. Results from numerical experiments demonstrate that PCA in the frequency domain is effective for the analysis of time series data.

Keywords: frequency domain, principal component analysis, sea surface temperature, spectral envelope

1. 서론

주성분 분석은 차원 축소에 유용한 통계방법론 중에 하나로, 주어진 변수보다 적은 수의 변수를 사용 하여 데이터를 요약하여 고차원 데이터 분석을 용이하게 한다. Pearson (1901)에 의해 처음 소개된 주성분 분석은 시그널 프로세싱, 기상학, 기계공학 등 다양한 분야에 사용되어 왔으며 Kernel PCA (Scholkopf 등, 1998), Eigenface (Navarrete와 Ruiz-del-Solar, 2002) 등으로 확장되어 현재까지 계속 연구되고 있는 방법론이다.

일반적으로 주성분 분석은 시간공간에서 정의되며 공분산행렬의 특이값 분해(singular value decomposition; SVD) 로 계산된다. 이를 주파수공간으로 확대하여 새롭게 정의하면 시간공간에서 분석할 때 놓치기 쉬운 정보를 얻을 수 있다. Wallace와 Dickinson (1972)가 주파수공간에서의 주성분 분 석(frequency domain principal component analysis; FDPCA)을 처음 정의하였고, cross-spectral matrices를 이용하여 주성분 분석을 시행하였다. 이를 활용하여 Stoﬀer 등 (1993)와 McDougall 등 This work was supported by a Research Grant of Pukyong National University (2016 year).

1

Corresponding author: Department of Statistics, Pukyong National University, 45, Yongso-ro, Nam-gu,

Busan 48513, Korea. E-mail: [email protected]

(2)

(1997)은 Spectral envelope이라는 개념을 소개하고, 이를 이용하여 다중 시계열자료의 공통된 주파수 를 추출하는 방법을 제안하였다.

그와 비슷하게 Rasmusson 등 (1981)은 주파수공간에서의 주성분 분석을 정의하였는데, Wallace와 Dickinson (1972) 의 방법론과는 달리 주어진 시계열자료를 Hilbert transform을 통해 복소수화한 후 cross-correlation matrices 를 이용하여 주성분 분석을 시행하였다.

두 방법 모두 주파수공간에서의 주성분 분석을 제시하였고 복소수 형태를 가지는 주성분을 얻는다는 점 에서 서로 밀접한 관계를 가지고 있다. 구분을 위해 Wallace와 Dickinson (1972)의 방법을 FDPCA라 고 하고, Rasmusson 등 (1981)의 방법을 Hilbert principal component analysis (HPCA)라고 하겠다.

본 논문에서는 기존 시간공간상의 주성분 분석과 함께 이들을 비교하고 그 유용성을 확인하고자 한다.

2장에서 시간공간에서의 주성분 분석에 대해 정리한 후, 3장에서 주파수공간에서의 주성분 분석을 소개 하였다. 4장에서 주파수공간 주성분 분석을 적용한 시뮬레이션 자료와 실제자료 분석결과를 설명한다.

2. 시간 영역에서의 주성분 분석

길이가 p인 확률변수 X = (X

1

, X

2

, . . . , X

p

)

^T

의 평균을 µ

X

, 공분산 행렬을 Σ

XX

라 하자. 다음과 같은 수식을 최소화시키는 길이가 p인 벡터 µ, q × p 행렬 B, p × q 행렬 C를 구하는 문제를 생각해보자.

E {(X − µ − CBX)(X − µ − CBX)

^T

}.

위 수식의 최소값은 다음과 같다 (Brillinger, 2001).

B = ˆ



 

 V

1T

.. . V

qT



 

 ,

C = [V ˆ

1

· · · V

q

] = ˆ B

^T

, ˆ

µ = ˆ µ

_X

− ˆ C ˆ B ˆ µ

_X

.

이 때에 V

j

는 공분산 행렬 Σ

XX

의 j번째 고유벡터를 의미한다. 또한 ˆζ

j

= V

^T_j

X 는 X의 j번째 주 성분(principal component; PC)을 의미한다. 기상학에서는 V

j

을 실증직교함수(empirical orthogonal functions; EOF)라고 부르며 기상자료에서의 의미있는 패턴을 추출하는 데 사용한다.

위와 같은 조건에서 주성분 간의 상관관계는 다음과 같다.

cov {

V

^T_j

X, V

^T_k

X }

= {

0, j ̸= k, µ

_j

, j = k.

복소수 변량에 대해서도 같은 방법으로 분석할 수 있다. 이 경우 최소화 수식은 아래와 같다.

E {

(X − µ − CBX) (

X − µ − CBX )

T

} .

여기서 x는 복소수 x의 켤레복소수(complex conjugate)를 의미한다. 위 수식의 최소값, B, C, µ는 아 래와 같이 주어진다.

B = ˆ



 

 V ¯

^T₁

. ..

V ¯

^T_q



 

 ,

(3)

C = [V ˆ

1

· · · V

q

] = ¯ B

^T

, ˆ

µ = ˆ µ

_X

− ˆ C ˆ B ˆ µ

_X

.

마찬가지로 V

j

는 공분산 행렬 Σ

XX

의 j번째 고유벡터를 의미하고, 변량 ˆζ

j

= ¯ V

^T_j

X 은 X의 j번째 주 성분을 의미한다.

3. 주파수공간에서의 주성분 분석

3.1. Frequency domain principal component analysis (FDPCA)

길이가 p이고 2차 정상적 자료인 X(t) = (X

1

(t), X

2

(t), . . . , X

p

(t))

^T

, t = 0, ±1, . . .가 평균 EX(t) = c

X

, 절대가합(absolutely summable)인 자기공분산함수

E {

[X(t + u) − c

X

][X(t) − c

X

]

^T

}

= c

XX

(u), u = 0, ±1, . . . ,

그리고 스펙트럼 밀도 행렬 f

X

(ω), −∞ < ω < ∞를 가진다고 하자. 이 경우 스펙트럼 밀도행렬은 아 래와 같이 정의된다.

f

_X

(ω) = (2π)

⁻¹

∑

∞ u=−∞

c

XX

(u) exp {−iωu}, −∞ < ω < ∞.

2.1절에서와 같은 방법으로

E {[

X(t) − µ − Σ

u

c(t − u)ζ(u) ]

T

[X(t) − µ − Σ

u

c(t − u)ζ(u)]

}

을 최소화시키는 길이가 p인 벡터 µ, q × p 필터 {b(u)}, p × q 필터{c(u)}를 구한다. 이 때 ζ(t) =

∑

u

b(t − u)X(u)이다. 위 수식의 최소화 해를 구하면 아래와 같이 표현된다.

µ = c ˆ

X

− (Σ

u

ˆ c(u)) (

Σ

u

ˆ b(u) )

c

X

, ˆ b(u) = (2π)

⁻¹

∫

2π

0

B(α) exp{iuα}dα, ˆ

ˆ

c(u) = (2π)

⁻¹

∫

2π

0

C(α) exp ˆ {iuα}dα.

이 때

B(ω) = ˆ



 

 V

1

(ω)

^T

. ..

V

q

(ω)

^T



 



C(ω) = [V ˆ

1

(ω) · · · V

q

(ω)] = ˆ B(ω)

T

이고, V

j

(ω) 는 f

X

(ω) 의 j번째 고유벡터이다.

만약 X(t)가 다음과 같이 Cram´er’s representation으로 나타낸다면,

X(t) =

∫

e

^iωt

dZ

X

(ω)

(4)

주성분은 아래와 같이 표현된다.

ζ(t) =

∫

B(ω) exp{iωt}dZ

X

(ω).

위와 같이 정의된 FDPCA를 이용하여 p개의 시계열자료들이 가지는 공통 주파수를 쉽게 찾아낼 수 있 다 (Stoﬀer, 1999). X(t)를 변형한 process인 Y (t, β)를 다음과 같이 정의한다.

Y (t, β) = β

^∗

X(t),

여기서 β는 p×1의 상수벡터이고, ∗는 켤레복소수(complex conjugate)를 의미한다. 이러한 β 중, 아래 의 경우가 만족될 때의 β(ω)를 optimal scaling이라고 하고, 다음에 정의된 λ(ω)는 spectral envelope라 고 한다.

λ(ω) = sup

β

{

f

Y

(ω; β) σ

_β²

}

, (3.1)

여기서 σ

²β

= var(Y (t, β)) 이다. 이렇게 정의된 λ(ω)는 X(t)의 scaling process 중, ω에서의 가장 큰 파 워라고 해석할 수 있다. 또한 (3.1)의 λ(ω)는 다음과 같이 다시 정리할 수 있다.

λ(ω) = sup

β

{ β

^∗

f

_X

(ω)β β

^∗

V

X

β

} ,

여기서 V

X

는 X(t)의 공분산 행렬이다. 위의 수식은 f

X

(ω)의 고유값으로 쉽게 구할 수 있다. 즉,

|f

X

(ω) − λV

X

| = 0

이며, λ(ω)는 f

X

의 고유값으로 구할 수 있고 대응되는 고유벡터는 β(ω)가 된다. 따라서, 스펙트럼 밀 도 행렬 f

X

의 주성분 분석을 이용하여 spectral envelope, λ(ω)을 얻을 수 있다. 실제 자료에 적용하 기 위해서는 스펙트럴 밀도 행렬 f

X

를 추정해야 하는데, 이는 피리오도그램(periodogram)을 사용하 여 추정하였다 (Brillinger, 2001). 이렇게 얻어진 spectral envelope은 주어진 시계열자료의 공통 주파 수(common frequency)를 찾는데 유용한다.

다음의 간단한 시뮬레이션을 통해 spectral envelope을 그려봄으로써 FDPCA의 유용성을 확인해보고 자 한다 (Stoﬀer, 1999). 관측자료 Y (t)는 길이 n = 128인 12개의 시계열자료로 이루어져 있으며 각 시계열자료는 다음과 같이 정의되었다.

Y

j

(t) = c

j

cos(2πtω

a

) + ϵ

j

(t) + 0.5ϵ

j

(t − 1), j = 1, . . . , 4, Y

j

(t) = c

j

cos(2π[tω

b

+ τ

j

]) + ϵ

j

(t) − 0.5ϵ

j

(t − 1), j = 5, . . . , 8,

Y

j

(t) = c

1j

cos(2πtω

a

) + c

2j

cos(2π[tω

b

+ τ

j

]) + ϵ

j

(t) + 0.5ϵ

j

(t − 1), j = 9, 10, Y

j

(t) = ϵ

j

(t) − 0.5ϵ

j

(t − 1) , j = 11, 12.

단, 진폭값은 c

1

= 0.59, c

2

= 0.36, c

3

= 0.87, c

4

= 0.21, c

5

= 0.62, c

6

= 0.39, c

7

= 1.06, c

8

=

0.54, c

1,9

= 0.34, c

2,9

= 0.37, c

1,10

= 0.84, c

2,10

= 0.48 이며 ϵ

j

(t) ∼ iid N(0, 1)이다. 처음 네 개의 시

계열자료는 주파수 ω

a

= 0.1에 대해 진폭을 각기 달리한 후, 노이즈를 추가하여 만들어졌다. 다음 네 개

의 시계열자료는 주파수 ω

b

= 0.25에 대해 진폭을 달리하여 만들되, τ

j

∼ iid U(0, 1)을 넣어 위상이 달

라지도록 생성하였다. 9번째와 10번째의 시계열자료는 위의 두 가지 주파수의 신호를 섞어서 만들어 낸

것이고 마지막의 두 개의 시계열자료는 주파수를 사용하지 않고 노이즈만을 이용해서 생성하였다.

(5)

0.0 0.1 0.2 0.3 0.4 0.5

0.00.51.01.5

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.20.40.60.8

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.51.01.52.02.5

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.20.40.60.81.0

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.51.01.52.02.5

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.51.01.52.0

fr

0.0 0.1 0.2 0.3 0.4 0.5

0123456

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.20.40.60.81.01.2

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.51.01.5

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.51.01.5

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.20.40.60.81.0

fr

0.0 0.1 0.2 0.3 0.4 0.5

0.00.20.40.60.81.0

fr

Figure 3.1. Periodograms of the 12 time series data from simulation.

0.0 0.1 0.2 0.3 0.4 0.5

304050607080

Spectral Envelope

Frequency

100 * real_lambda

(a)

β(ωa)

Series Amplitude 0.00.20.40.60.8

True beta Estimated beta

(b)

β(ωb)

Series Amplitude 0.00.20.40.60.81.0

True beta Estimated beta

(c)

Figure 3.2. (a) Spectral Envelope of simulation data; (b) The true amplitude (black) and estimated scaling at w=0.1 (red); (c) The true amplitude (black) and estimated scaling at w=0.25 (red).

Figure 3.1은 시뮬레이션 시계열자료의 피리오도그램을 그린 것이다. 하지만, 몇몇 그림에서는 주된 주 파수인 ω

a

= 0.1 과 ω

b

= 0.25 를 잘 찾아내지 못하는 것을 볼 수 있다. 예를 들어, ω

a

= 0.1 의 주파수를 가지도록 생성된 2번째와 4번째 그림에서 해당 주파수를 찾을 수 없고, 9번째 그림에서도 ω

a

= 0.1 과 ω

b

= 0.25의 두 주파수를 동시에 찾기 어렵다.

이를 해결하기 위해, 식 (3.1)에서 정의한 spectral envelope을 그려보았다 (Figure 3.2(a)). 주파수

(6)

0.1과 0.25가 시뮬레이션 데이터에 사용된 공통된 주파수임을 확인할 수 있다. 또한, 진폭값 c

j

값들 에 대한 예측력도 확인해 보았다. Figure 3.2(b)의 검정색 막대는 ω = 0.1에 해당하는 참 진폭값 c

j

를 12개 시계열자료에 대해 그린 것이다 (c

1,1

= 0.59, c

1,2

= 0.36, c

1,3

= 0.87, c

1,4

= 0.21, c

1,5

= 0, c

1,6

= 0, c

1,7

= 0, c

1,8

= 0, c

1,9

= 0.34, c

1,10

= 0.84, c

1,11

= 0, c

1,12

= 0 ). 마찬가지로, Fig- ure 3.2(c)의 검정색 막대는 ω = 0.25에 해당하는 참 진폭값 c

j

를 12개 시계열자료에 대해 그린것이 다 (c

2,1

= 0, c

2,2

= 0, c

2,3

= 0, c

2,4

= 0, c

2,5

= 0.62, c

2,6

= 0.39, c

2,7

= 1.06, c

2,8

= 0.54, c

2,9

= 0.37, c

2,10

= 0.48, c

2,11

= 0, c

2,12

= 0 ). 빨간색 막대는 추정된 scaling, β(ω)값이다. 결과를 통해 실제 진폭값을 잘 예측함을 확인할 수 있다.

3.2. Hilbert transform을 통한 주성분 분석 (HPCA)

X

j

(t) (j = 1, . . . , p)의 주어진 시계열자료를 Hilbert transform을 이용하여 U

j

(t) = X

j

(t) + iX

j^H

(t)

를 복소수화한다.

여기서 X

j^H

(t)는 X

j

(t)의 Hilbert transform이다. 이렇게 얻어진 새로운 복소수 시계열 자료 U

j

(t)에 대해 공분산행렬 Σ

U U

= {r

jk

}

j,k

을 구한다.

r

jk

= [U

j

(t)

^∗

U

k

(t)]

t

. 단, [· · · ]

t

는 time average를 나타낸다.

특이값 분해를 사용하여 실수인 eigenvalues ω

n

과 복소수인 eigenvectors e

jn

, 그리고 복소수인 주성분 P

n

(t) 을 구하면, 이들은 아래의 관계식을 만족한다.

∑

t

P

n

(t)

^∗

P

m

(t) = δ

mn

,

∑

j

e

^∗jn

e

jm

= ω

n

δ

mn

,

e

jn

= [U

j

(t)

^∗

P

n

(t)]

t

.

여기서, δ

mn

은 Kronecker delta이다. 이를 통해, U

j

(t)는 N개의 주성분으로 아래와 같이 표현할 수 있 다.

U

j

(t) =

∑

N n=1

e

^∗_jn

P

n

(t).

또한, von Storch와 Zwiers (2002)에서 증명된 바와 같이 주성분인 P

n

(t)는 다음의 관계를 만족한다.

(P

n

(t))

^H

= −iP

n

(t).

즉, 주성분의 실수부분과 허수부분은 다음과 같이 Hilbert transform에 의해 연관이 되어있다.

Re (P

n

(t)) = − (Im(P

n

(t)))

^H

,

Im (P

n

(t)) = (Re(P

n

(t)))

^H

.

(7)

0 20 40 60 80 100 120

-0.10-0.050.000.050.10

Conventional PCA

(a)

0 20 40 60 80 100 120

-3-2-10123

HPCA

(b)

0 20 40 60 80 100 120

-1.0-0.50.00.51.01.5

FDPCA

(c)

Figure 4.1. (a) First PC from conventional PCA, (b) First PC from HPCA, and (c) First PC from FDPCA. Solid lines are real part of the components and the dashed lines are imaginary part of the components.

이렇게 정의된 HCPA가 앞서 설명된 주성분 분석 방법들과 어떠한 관계를 가지는지 살펴보도록 하 자. 시간공간에서의 주성분과의 관계성을 설명하기 위해, 주어진 시계열자료 X(t)의 교차 공분산행 렬(cross-covariance matrix)이 0이라고 가정해보자. 이때, U

j

(t) 의 복소수 공분산행렬 Σ

U U

는 원자료 X(t)의 공분산행렬 Σ

XX

의 2배와 같다. 따라서, 이 경우에 한해서 시간공간에서의 주성분과 HPCA를 통해 얻은 주성분은 같아지게 된다.

이번에는 HPCA와 FDPCA의 관계에 대해 살펴보자. Σ

U U

는 f

X

(ω)와 아래의 수식으로 연결되어 있 으며,

Σ

U U

= 4

∫

¹

2 0

f

_X

(ω)dω,

이는 HPCA가 FDPCA를 전체 주파수공간에서 평균한 것과 같다는 것을 의미한다 (Horel, 1984).

4. 자료분석

4.1. 시뮬레이션

다음과 같이 n = 128인 8개의 시계열자료 Y (t)를 생성하였다.

Y

j

(t) = cos(2πtω), j = 1, . . . , 4, Y

j

(t) = cos(2π[tω + τ

j

]), j = 5, . . . , 8.

이때 ω = 0.1이고, τ

j

∼ iid U(0, 1)이다. 시뮬레이션 자료는 ω = 0.1의 주파수를 가지는 단순한 다중 시계열자료로서, 모든 주성분 분석 방법들이 첫 번째 주성분으로 99%의 분산설명력을 보였다.

Figure 4.1을 통해 그 첫 번째 주성분을 그려보았는데, FDPCA의 주성분은 주파수에 따라 얻어지므

로 그 중 주파수 ω = 0.1에 해당하는 주성분을 선택하여 그린것이다. 결과를 통해, 시간공간 주성분

의 sinusoidal한 형태를 주파수공간에서의 주성분 분석인 HPCA와 FDPCA로부터 얻은 주성분에서도

마찬가지로 확인할 수 있었다. 실선은 주파수공간 주성분의 실수 부분(real part)을, 점선은 허수 부

분(imaginary part)을 나타낸다. HPCA의 허수 부분은 실수 부분의 Hilbert transform 형태임을 쉽게

확인할 수 있고, FDPCA의 허수 부분은 실수 부분을 shift한 형태의 sinusoidal한 형태를 보인다.

(8)

Table 4.1. Cumulative explained variance (%)

Number of components 1 2 3 4

Conventional PCA 40.01 50.16 56.08 59.56

Hilbert PCA 42.63 52.06 58.28 61.77

PCA = principal component analysis.

140 160 180 200 220 240 260 280

-20-1001020

0 5 10 15 1 th eigenvector

140 160 180 200 220 240 260 280

-20-1001020

-5 0 5 2 th eigenvector

140 160 180 200 220 240 260 280

-20-1001020

-2 0 2 4 6 3 th eigenvector

140 160 180 200 220 240 260 280

-20-1001020

-10 -5 0 4 th eigenvector

140 160 180 200 220 240 260 280

-20-1001020

-0.020 -0.015 -0.010 -0.005 0.000 0.005 0.010

140 160 180 200 220 240 260 280

-20-1001020

-0.04 -0.02 0.00 0.02 0.04 0.06

140 160 180 200 220 240 260 280

-20-1001020

-0.04 -0.02 0.00 0.02

140 160 180 200 220 240 260 280

-20-1001020

0.00 0.05 0.10 0.15

140 160 180 200 220 240 260 280

-20-1001020

-0.02 0.00 0.02 0.04 0.06 0.08

140 160 180 200 220 240 260 280

-20-1001020

-0.02 0.00 0.02 0.04

140 160 180 200 220 240 260 280

-20-1001020

-0.06 -0.04 -0.02 0.00 0.02

140 160 180 200 220 240 260 280

-20-1001020

-0.02 -0.01 0.00 0.01 0.02

0 50 100 150 200 250 300 350

-30-20-100102030

1 th PC

t

0 50 100 150 200 250 300 350

-1001020

2 th PC

t

0 50 100 150 200 250 300 350

-15-10-5051015

3 th PC

t

0 50 100 150 200 250 300 350

-10-50510

4 th PC

t

Figure 4.2. First row: Four eigenvectors from conventional PCA. Second to third row: Real and imaginary part of eigenvectors from HPCA. Fourth row: Corresponding real part (solid line) and imaginary part (dashed line) of PCs from HPCA.

4.2. 온도자료

이번에는 실제 기상자료에 적용하여 주성분 방법들을 비교해보았다. 분석자료는 1980년 1월부터 2007년 10월까지 실제 관측된 월 평균 해수표층 온도값(sea surface temperature; SST)의 아노말리 값(anomaly)이다 (n = 346). 연도 효과(annual cycle)를 제거하기 위해 28년의 연평균값을 월별 수치 에서 빼주었으며, 열대 태평양에 해당하는 경도 130

^◦

E–80

^◦

W , 위도 20

^◦

S–20

^◦

N 지역에 대해 분석하였 다. 주어진 기상자료는 전 지구를 144×73개의 격자점으로 나누어 관측된 데이터이므로, 열대 태평양에 해당하는 격자점은 총 p = 1020개이다.

Figure 4.2 는 시간공간 주성분 분석과 HPCA 결과를 함께 나타낸 그림이다. 첫 번째 행은 시간공간 주 성분 분석을 통해 얻은 첫 번째에서 네 번째 고유벡터이다. 두 번째 행부터 네 번째 행은 HPCA를 통해 얻은 결과이다. 고유벡터의 실수 부분은 두 번째 행에, 복소수 부분은 세 번째 행에 그려져있으며, 마지 막으로 그에 대응되는 주성분이 네 번째 행에 그려져있다. 주성분 또한 복소수 형태이므로 실수 부분은 실선으로, 복소수 부분은 점선으로 표현하였다.

시간공간에서의 첫 번째 주성분은 전체 자료의 분산의 40.01%를 설명하고 있으며 고유벡터의 패턴을

보면 El Nino 현상을 나타내고 있음을 확인할 수 있다. 이는 HPCA의 복소수부분에서도 동일하게

나타난다. HPCA의 첫 번째 주성분의 실수부분은 이와는 반대로 La Nina 현상을 나타내고 있으며,

HPCA 의 첫 번째 주성분은 전체 분산의 42.63%를 설명한다. Table 4.1을 통해 주성분 갯수에 따른 분

(9)

140 160 180 200 220 240 260 280

-20-1001020

-0.08 -0.06 -0.04 -0.02 0.00 1 th eigenvector - Real part

140 160 180 200 220 240 260 280

-20-1001020

-0.03 -0.02 -0.01 0.00 0.01 0.02 1 th eigenvector - Imaginary part

Figure 4.3. The real and imaginary part of the first eigenvector from FDPCA.

산설명력을 확인할 수 있는데 시간공간 주성분 분석과 HPCA 모두 두 번째 주성분부터 그 기여도가 떨 어진다.

Figure 4.2의 네 번째 행의 시계열을 통해서는 HPCA를 통해 얻은 PC의 실수 부분과 복소수 부분은 서 로 Hilbert 변환 관계임을 경험적으로 확인할 수 있었다.

Figure 4.3 는 FDPCA의 결과 중 첫 번째 고유벡터 결과이다. FDPCA는 주파수 ω에 따라서 고유벡터 V (ω) 가 생성되는데, 그 중 ω = 0.02에 해당하는 고유벡터 결과이다. 실수 부분의 패턴을 보면 시간 공 간 주성분 분석의 첫 번째 고유벡터와 HPCA의 첫 번째 고유벡터와 동일하나 부호가 바뀐 것을 알 수 있는데, 이는 고유벡터가 크기 1의 상수배에 대해 unique하기 때문이다 (Michaelsen, 1982).

5. 결론

본 논문에서는 기존의 시간공간에서 정의된 주성분 분석을 일반화하여 주파수공간에서 정의된 주성분 분석에 대해서 살펴보았다. 주파수공간에서의 주성분 분석은 Hilbert 변환에 의한 HPCA와 spectral density matrix 를 이용하여 정의하는 FDPCA가 있으며 두 방법간에는 밀접한 관계가 있다.

시간공간 주성분 분석이 정상파(standing wave)의 진동만 설명하는데 비해, 주파수공간에서의 주성분 방법은 진행파(propagating waves) 분석이 가능하며 다중 시계열자료의 공통 주파수를 찾아내거나 의 미있는 패턴을 얻는데 사용된다.

본 논문에서는 주성분 분석 방법들을 시뮬레이션 자료에 적용하여 그 이론적인 관계들을 확인하였으며, 나아가 해수표층 온도값에 적용해봄으로써 실제 자료에서의 주성분 분석의 유용성을 확인하였다.

주파수공간의 주성분 분석을 조금 더 확장하여, 로버스트한 주성분 분석과 자료의 다양한 분포를 알 수 있는 분위수 주성분 분석 등에 대해서 연구가 가능하며 그 결과를 통해 기상자료의 풍부한 해석이 가능 할 것으로 기대한다.

References

Brillinger, D. R. (2001). Time Series: Data Analysis and Theory, SIAM, Philadelphia.

Horel, John D. (1984). Complex principal component analysis: theory and examples, Journal of Climate and Applied Meteorology, 23, 1660–1673.

McDougall, A. J., Stoﬀer, D. S., and Tyler, D. E. (1997). Optimal transformations and the spectral envelope for real-valued time series, Journal of Statistical Planning and Inference, 57, 195–214.

Michaelsen, J. (1982). A statistical study of large-scale, long-period variability in North Paciﬁc sea surface temperature anomalies, Journal of Physical Oceanography, 12, 694–703.

Navarrete, P. and Ruiz-del-Solar, J. (2002). Analysis and comparison of eigenspace-based face recognition

approaches, International Journal of Pattern Recognition and Artificial Intelligence, 16, 817–830.

(10)

Pearson, K. (1901). On Lines and planes of closest ﬁt to system of points in space, Philosophical Magazine, 2, 559–572.

Rasmusson, E. M., Arkin, P. A., Chen, W. Y., and Jalickee, J. B. (1981). Biennial variations in surface temperature over the United States as revealed by singular decomposition, Monthly Weather Review, 109, 587–598.

Scholkopf, B., Smola, A., and Muller, K. R. (1998). Nonlinear component analysis as a kernel eigenvalue problem, Neural Computation, 10, 1299–1319.

Stoﬀer, D. S. (1999). Detecting common signals in multiple time series using the spectral envelope, Journal of the American Statistical Association, 94, 134–1356.

Stoﬀer, D. S., Tyler, D. E., and McDougall, A. J. (1993). Spectral analysis for categorical time series: scaling and the spectral envelope, Biometrika, 80, 611–622.

von Storch, H. and Zwiers, F. W. (2002). Statistical Analysis in Climate Research, Cambridge University Press, Cambridge.

Wallace, J. M. and Dickinson, R. E. (1972). Empirical orthogonal representation of time series in the fre-

quency domain. Part I: theoretical considerations, Journal of Applied Meteorology, 11, 887–892.

(11)

주파수공간에서의 주성분분석:

리뷰와 기상자료에의 적용

조유정 ^a · 오희석 ^a · 임예지 ^b,1

a

서울대학교 통계학과,

^b

부경대학교 통계학과

(2017 년 3월 16일 접수, 2017년 5월 11일 수정, 2017년 5월 11일 채택)

요 약

본 논문에서는 주파수공간에서의 주성분 분석을 사용하여 기상자료를 분석하고자 한다. 주파수공간에서의 주성분분 석은 차원축소를 위해서도 사용되지만, 주요한 패턴을 뽑아내는 데 사용되는 통계적 방법 중 하나이다. 일반적으로 주파수공간에서의 주성분 분석은 두 가지의 방법이 있는데, Hilbert PCA와 frequency domain PCA가 그것이다.

본 논문에서는 기존의 시간공간 주성분 분석과 함께 두 가지 주파수공간 주성분 분석 방법을 비교하였다. 시뮬레이 션 자료를 통하여 주파수공간 주성분 분석 방법의 유용성을 보였으며, 열대 태평양 지역의 해수표층 온도값에 주성분 분석 방법들을 적용하여 기상자료 분석에 대한 유용성을 확인하였다.

주요용어: 주성분 분석, 주파수 공간, spectral envelope, 해수표층 온도값

이 논문은 부경대학교 자율창의학술연구비(2016년)에 의하여 연구되었음.

1

교신저자: (48513) 부산광역시 남구 용소로 45, 부경대학교 통계학과. E-mail: [email protected]

Principal component analysis in the frequency domain: a review and their application to climate data