Imputation method for missing data based on KNN and pattern consistency index in microarray data

(1)

2018, 29

(

5)

,

1179–1187

시간경로 마이크로어레이 자료에서 k-최근접 이웃과 패턴일치지수를 이용한 결측치 대체방법

ᄋ

ᅵ선영

¹

· 김동재

²

12가톨릭대학교 의생명 · 건강과학과

ᄌ ᅥ

ᆸᄉ ᅮ 2018ᄂ ᅧ ᆫ 8ᄋ ᅯ ᆯ 23ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 17ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 20ᄋ ᅵ ᆯ

요 약

ᄉ

ᅵᄀ ᅡ ᆫᄀ ᅧ ᆼᄅ ᅩ ᄆ ᅡᄋ ᅵᄏ ᅳᄅ ᅩᄋ ᅥᄅ ᅦᄋ ᅵ ᄌ ᅡᄅ ᅭᄋ ᅦᄉ ᅥ ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄎ ᅵ ᄃ ᅢᄎ ᅦ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳᄅ ᅩ k-ᄎ ᅬ ᄀ ᅳ ᆫᄌ ᅥ ᆸ ᄋ ᅵᄋ ᅮ ᆺ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅵ ᄂ ᅥ ᆯᄅ ᅵ ᄉ ᅡᄋ ᅭ ᆼᄃ ᅬ ᆫ ᄃ ᅡ.

ᄋ

ᅵ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆫ ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄋ ᅵ ᄇ ᅡ ᆯᄉ ᅢ ᆼᄒ ᅡ ᆫ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡᄋ ᅪ ᄀ ᅡᄌ ᅡ ᆼ ᄀ ᅡᄁ ᅡᄋ ᅮ ᆫ ᄀ ᅥᄅ ᅵᄋ ᅦ ᄋ ᅵ ᆻᄂ ᅳ ᆫ kᄀ ᅢᄋ ᅴ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄀ ᅡ ᆹᄋ ᅳ ᆯ ᄃ ᅢ ᄎ

ᅦᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅵᄌ ᅵᄆ ᅡ ᆫ ᄀ ᅪ ᆫᄎ ᅳ ᆨ ᄉ ᅵᄌ ᅥ ᆷ ᄀ ᅡ ᆫᄋ ᅴ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄆ ᅮᄉ ᅵᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅡ ᆫᄌ ᅥ ᆷᄋ ᅵ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄃ ᅡ ᆫᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄇ ᅩ ᄋ ᅪ

ᆫ ᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ k-ᄎ ᅬ ᄀ ᅳ ᆫᄌ ᅥ ᆸ ᄋ ᅵᄋ ᅮ ᆺ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅦ Sonᄀ ᅪ Baekᄋ ᅵ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫ ᄑ ᅢᄐ ᅥ ᆫᄋ ᅵ ᆯᄎ ᅵᄌ ᅵᄉ ᅮᄅ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄉ ᅢᄅ ᅩᄋ ᅮ ᆫ ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄎ ᅵ ᄃ ᅢ ᄎ

ᅦᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄄ ᅩᄒ ᅡ ᆫ ᄀ ᅡ ᆨᄀ ᅡ ᆨᄋ ᅴ ᄐ ᅳ ᆨᄌ ᅵ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄉ ᅦ ᄀ ᅡᄌ ᅵᄋ ᅴ ᄉ ᅵ ᆯᄌ ᅦ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄆ ᅩᄋ ᅴᄉ ᅵ ᆯᄒ ᅥ ᆷᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡ ᄋ

ᅧ ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄀ ᅪ ᄇ ᅵᄀ ᅭᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.

ᄌ

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄎ ᅵ ᄃ ᅢᄎ ᅦ, ᄆ ᅡᄋ ᅵᄏ ᅳᄅ ᅩᄋ ᅥᄅ ᅦᄋ ᅵ, ᄉ ᅵᄀ ᅡ ᆫᄀ ᅧ ᆼᄅ ᅩ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡ ᄇ ᅡ ᆯᄒ ᅧ ᆫ ᄌ ᅡᄅ ᅭ, ᄑ ᅢᄐ ᅥ ᆫᄋ ᅵ ᆯᄎ ᅵᄌ ᅵᄉ ᅮ, k-ᄎ ᅬ ᄀ ᅳ ᆫᄌ ᅥ ᆸ ᄋ ᅵᄋ ᅮ ᆺ.

1. 서론 ᄆ

ᅡ이크로어레이 실험은대용량의 유전체 분석 시스템으로서 수백 개 이상의 유전자 발현 수준을 동시 ᄋ

ᅦ관측할 수 있고 유전자를빠른시간 안에 검색할 수 있다. 또한 특정 질병의 유전학적 특성과 유전자 ᄀ

ᅡᆫ의 상호작용을 알 수 있기 때문에 정상 세포와 질병 세포 안의 유전자의 발현 정도나 유전자 간의 상 ᄒ

ᅩ 연관성을이해하는데 도움을주고 약학이나 임상조사에 많은도움을 준다 (Lee, 2015; Son과 Baek, 2005; Lee와 Lee, 2012).

ᄆ

ᅡ이크로어레이 실험 과정은관심 있는조직으로부터 mRNA를추출하여 cDNA로 역 전사 시킨 후, ᄋ

ᅲ전자의 발현 수준을탐지할 수 있도록 실험군은적색, 대조군은 녹색으로 염색하여 마이크로어레이 칩 ᄋ

ᅦ 혼성화 시킨다. 상보적인 서열을 갖는 유전자들은서로 결합되어 적색과 녹색의 색상 변화가 나타 ᄂ

ᅡ게 되는데, 보통 적색과 녹색 발현 값의 로그비로 변환하여 수치화한 것이 마이크로어레이 자료이다 (Son과 Baek, 2005).

ᄆ

ᅡ이크로어레이 자료 중시간경로 유전자 발현 자료는 실험이 시간의 흐름에 따라 수행되어 얻어지는 ᄉ

ᅵ계열 자료이다. 이는시간에 따른유전자의 발현 수준을알 수 있고 이에 따라관측시점 간에 상관성 으

ᆯ갖게 되는자료이다 (Son과 Baek, 2005).

ᄆ

ᅡ이크로어레이 자료는여러 단계를거치며 얻어지기 때문에 그 과정에서 다양한 원인으로 결측치를 ᄑ

ᅩ함하게된다. 그 원인으로는스폿팅 오류나 합성의 실패, 불충분한 해상력, 이미지 훼손, 슬라이드 상

1

(137-701) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥᄎ ᅩᄀ ᅮ ᄇ ᅡ ᆫᄑ ᅩᄃ ᅢᄅ ᅩ 222, ᄀ ᅡᄐ ᅩ ᆯᄅ ᅵ ᆨᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅴᄉ ᅢ ᆼᄆ ᅧ ᆼ · ᄀ ᅥ ᆫᄀ ᅡ ᆼᄀ ᅪᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.

2

ᄀ ᅭᄉ ᅵ ᆫ ᄌ ᅥᄌ ᅡ: (137-701) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥᄎ ᅩᄀ ᅮ ᄇ ᅡ ᆫᄑ ᅩᄃ ᅢᄅ ᅩ 222, ᄀ ᅡᄐ ᅩ ᆯᄅ ᅵ ᆨᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅴᄉ ᅢ ᆼᄆ ᅧ ᆼ · ᄀ ᅥ ᆫᄀ ᅡ ᆼᄀ ᅪᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

ᄋ

ᅴ 먼지, 긁힘/지문, 의심스러운값의 삭제, 중도절단된자료가 대부분이며 그 외에도 이미지의 수치 변 화

ᆫ과정에서의 기기적 오류도 있을수 있다 (Kim 등, 2008).

ᄆ

ᅡ이크로어레이 자료에서의 결측치의 개수의 비율은전체 자료 크기에 대비해서는그리 높은비율은 ᄋ

ᅡ닐지라도 유전자 단위로 대비해서는매우 높은 비율로 나타난다. 결측치를 포함하는 전체 유전자들 ᄀ

ᅡ운데 한 개의 결측치만 있는유전자의 비율이 대부분 60%를넘을만큼상대적으로 매우 높게 발생한 ᄃ

ᅡ. 마이크로어레이 연구 초기에는결측치가 있는자료는삭제하거나 다시 실험을수행하였다. 하지만 겨

ᆯ측치가 하나라도 존재하면 해당 유전자의관측자료가 모두 삭제되기 때문에 자료의 손실이 크고 다시 시

ᆯ험을수행하게 되면 많은 비용과 시간이 소요된다. 그러므로 결측치 추정 방법을이용하여 결측치를 ᄃ

ᅢ체해야 한다 (Kim 등, 2008).

겨

ᆯ측치 추정을할 때, 시간경로 유전자 발현 자료일 경우에는시간에 따른연관성을고려해 추정해야 ᄒ

ᅡᆫ다. 하지만, 대부분의 기존방법들은관측시점들간에 상관성을무시하기 때문에 시간경로 자료에 대 ᄒ

ᅢ서는추정의 정확성이 떨어지게된다 (Kim 등, 2008). 기존방법은크게 국부적으로 자료를이용하는 ᄇ

ᅡᆼ법과, 전체 자료를이용하는방법으로 나눌수 있다. 국부적으로 자료를이용하는방법 중에서는평균 ᄃ

ᅢ체법 (mean imputation), 핫덱 대체법 (Hot-Deck imputation), k-최근접 이웃 (k-nearest neighbors, KNN)방법, 순차 k-최근접 이웃 (sequential k-nearest neighbor, SKNN) 방법이 있다. 우선 평균대 ᄎ

ᅦ법은 결측치를 제외한 나머지 관측된자료의 평균값으로 대체하는 방법이다. 이는사용이 편리하지 ᄆ

ᅡᆫ 평균값이 반복적으로 대체되기 때문에 통계량의 표준오차가 과소 추정 되는 문제가 있다 (Kim 등, 2006; Kim과 Kim, 2017). 다음으로 핫덱 대체는, 결측치가 속한 열이나 행에서 랜덤하게 선택하여 대 ᄎ

ᅵ하는 가장 간편한 방법이지만 표준오차를 구하기 어려운 문제가 있다 (Kim 등, 2006; Kim과 Kim, 2017). 국부적으로 자료를이용하는방법 중가장 많이 쓰이는방법은 KNN 방법이다. 여기서 k-최근 저

ᆸ은 두 개체의 거리를 기준으로 임의의 공간 객체에서 가장 가까운 k개를 추출하고 그것을이웃으로 저

ᆼ의하는방법이며, KNN 대체법은 Troyanskaya 등 (2001)이 제안한 방법으로 결측이 발생한 유전자 ᄋ

ᅪ 가장 가까운거리에 있는 k개의 유전자 개체를찾아 가중치를부여하여 결측치를대치하는방법이다 (Kim 등, 2008; Kim 등, 2006; Kim, 2017). 이는계산이 간편하고 적중률도 높기 때문에 결측치 추정 버

ᆸ으로 많이 사용된다. 또한 KNN 방법을이용한 SKNN 방법이 있다. 이는 Kim 등 (2004)이 제안한 ᄇ

ᅡᆼ법으로 KNN 방법을기본방법으로 하여 대치된데이터를다음결측치 추정에 재사용하는방법이다.

ᄋ

ᅵ는결측이 약 30% 이상일 때 유용한 것으로 보고 되었다 (Kim 등, 2008; Kim 등, 2006).

ᄌ

ᅥᆫ체 자료를이용하는방법으로는, 특성치 분해 (Singular value decomposition; SVD) 방법, 베이지 아

ᆫ 주성분 분석 (Bayesian princpal component analysis, BPCA) 방법이 있다. 이 방법들은완전 자 ᄅ

ᅭ 전체에 대한 공분산 구조를사용하여 모든자료들을 결측치 추정에 이용하는방법들이다 (Kim 등, 2008). 우선 SVD 방법은 Troyanskaya 등 (2001)이 제안한 방법으로 평균 대체를 통해 완전한 자료 ᄅ

ᅳᆯ 만든 후, SVD를 통하여 설명력이 높은 k개의 고유 유전자를 추출하고 회귀 적합을 시킨다. 그리 ᄀ

ᅩ 추정된회귀계수를 통해 결측값을추정하며 EM 알고리즘을 통해 최종 추정치를얻는다. 다음으로 BPCA방법은주성분회귀분석을 통해 얻어진 값을이용하여 베이지안 방법으로 결측치를추정하는방 버

ᆸ이다. 이 또한 EM 알고리즘을 통하여 최종결측치를추정한다. 이 두 가지 방법은전체적인 자료를 ᄉ

ᅡ용하므로 결측유전자와 유사성이 매우 낮은유전자까지 추정에 포함하게된다. 따라서 유사성이 높 ᄋ

ᅳᆫ 일부 자료만 이용하는방법보다는정확성이 떨어질 수 있다 (Kim 등, 2008).

보

ᆫ 논문에서는마이크로어레이 결측치 대체법으로 가장 많이 사용되는 KNN방법의관측시점 간에 ᄉ

ᅡᆼ관성을무시하는 문제점을 보안하기 위해 Son과 Baek (2005)이 제안한 패턴일치지수를 KNN 결측 ᄎ

ᅵ 대치법에 적용한 패턴 k-최근접 이웃 (pattern consistency index k-nearest neighbor, PKNN)방법 으

ᆯ제안하고자 한다. 제안 방법은 KNN 결측치 대체법의 가중치에 패턴일치지수를사용함으로써 시점 ᄋ

ᅴ 상관성을고려할 수 있게된다. 2장에서는패턴일치지수를자세히 설명하고 PKNN 방법을제안하였

(3)

ᄃ

ᅡ. 3장에서는 실제 자료를이용한 모의실험을 통하여 기존방법과 제안 방법의 결측치 대체 성능을비 ᄀ

ᅭ하였다. 마지막으로 4장에서는결론 및 고찰로 마무리하였다.

2. 제안 방법 보

ᆫ 논문에서는 KNN 방법에 유사성 거리와 Son과 Baek (2005)이 제안한 패턴일치지수를이용하여 ᄀ

ᅡ중치를주고, 결측치를가중평균값으로 대체하는 PKNN방법을제안하였다. 이는거리가 가깝고 패 ᄐ

ᅥᆫ일치지수가 클수록큰가중치를부여하고, 상대적으로 거리가 멀고 패턴일치지수가 작을수록작은가 ᄌ

ᅮᆼ치를부여한다.

2.1. 자료형태 ᄆ

ᅡ이크로어레이 시간경로 자료의 형태는 p개의 유전자 i (i = 1, 2, . . . , p)와 n개의 시점 tj (j = 1, 2, . . . , n)으로 구성된자료이다.

Table 2.1 Structure of time course microarray data

N Time

t

1

t

2

· · · t

n

1 x

_1,t1

x

_1,t2

· · · x

_1,tn

2 x

_2,t1

x

_2,t2

· · · x

_2,tn

. . .

. .

. . . .

. . .

p x

_p,t1

x

_p,t2

· · · x

_p,tn

2.2. 유사성 거리 ᄋ

ᅲ사성 거리의 측도로는 유클리디안 거리 (Euclidean distance)와 상관계수 거리 (correlation distance)를사용한다. 유클리디안 거리는가장 흔히 사용하는거리 척도로 두 지점의 단순한 거리를계산 ᄒ

ᅡ는 것이고, 상관계수 거리는피어슨상관계수 (pearson correlation coefficient)를 거리 척도로 직접 ᄉ

ᅡ용하여 시간의 흐름에 따른 진행방향 혹은변화량의 유사도를알 수 있다 (Lim과 Kim, 2015; Son과 Baek, 2005).

Euclidean distance : d_(a,b)=q Pn

j=1(xa,t_j− xb,t_j)², a ̸= b = 1, 2, . . . , p, Correlation distance : d(a,b)= 1 − ra,b, a ̸= b = 1, 2, . . . , p,

(ra,b=

Pn

j=1(x_a,tj− ¯xa)(x_b,tj− ¯x_b) qP_n

j=1(x_a,tj− ¯x_a)²∗qP_n

j=1(x_b,tj− ¯x_b)²).

2.3. 패턴일치지수

Son과 Baek (2005)이 제안한 패턴일치지수는시계열 자료에서 상승-하강-정체 패턴, 그리고 최대 최 ᄉ

ᅩ 발현 값을나타내는시점의 일치 정도를수량화 한 것이다. 먼저 유전자 a의 시간경로점 (tj, xa,t_j)과 ᄋ

ᅵᆫ접하는점 (tj+1, xa,t_j+1)을 통과하는 직선의 기울기는

(4)

slope(a, tj, tj+1) =xa,t_j+1− xa,t_j

tj+1− tj

, a = 1, 2, . . . , p, j = 1, 2, . . . , n − 1 ᄋ

ᅵ고, 직선의 상승-하강-정체의 정보를가지는함수는

La,t_j,t_j+1=







1, slope(a, tj, tj+1) > 0,

−1, slope(a, tj, tj+1) < 0, 0, slope(a, tj, tj+1) = 0,

a = 1, 2, . . . , p, j = 1, 2, . . . , n − 1

ᄀ

ᅪ 같이 정의하였다.

ᄋ

ᅵ를 통해, 유전자 a와 유전자 b의 상승-하강-정체 패턴의 일치도 A^a,b는

Aa,b= 1 n − 1

n−1

X

j=1

I(La,tj,tj+1= Lb,t_j,t_j+1), a ̸= b = 1, 2, . . . , p ᄅ

ᅩ 정의하였다. 여기서 I(D)는사상 D가 참이면 1의 값을가지고 거짓이면 0의 값을가지는지시함수 (indicator function)이고, 0 ≤ A^a,b≤ 1이다.

ᄄ

ᅩ, 유전자 a의 최솟값과 최댓값의 시점을각각 Ta^min 그리고 Tb^max라 놓고, 유전자 a와 유전자 b의 ᄎ

ᅬ솟값 및 최댓값의 시점에 대한 일치도 M^a,b는

Ma,b=







1, T_a^min= T_b^min and T_a^max= T_b^max, 0.5, T_a^min= T_b^min or T_a^max= T_b^max, 0, Ta^min̸= T_b^min and Ta^max̸= T_b^max,

a ̸= b = 1, 2, . . . , p

ᄅ

ᅩ 정의하고, A^a,b와 M^a,b를이용하여 유전자 a와 유전자 b의 패턴일치지수는 Pa,b= ω1∗ Aa,b+ ω2∗ Ma,b, a ̸= b = 1, 2, . . . , p ᄅ

ᅩ 정의하였다. 여기서 0 ≤ Pa,b ≤ 1이고 ω1과 ω2는 합이 1이 되는 음이 아닌 실수로서, Pa,b에서 Aa,b와 Ma,b가 차지하는비율을나타낸다.

2.4. 패턴 k-최근접 이웃 (Pattern consistency index k-nearest neighbor, PKNN) ᄑ

ᅢ턴일치지수를이용한 결측치 대체 방법의 단계는다음과 같다.

ᄃ

ᅡᆫ계 1: p개의 관측개체와 n개의 관측시점을 가지고 있는 원자료 행렬을 D라고 할 때, 행렬 D를 Dm과 D^c로 나눈다. 여기서 D^m은적어도 하나의 결측치가 포함되어 있는 r개의관측치와 n개 ᄋ

ᅴ 시점을갖는자료 행렬이고, D^c는 원자료 행렬인 D에서 결측치가 포함되어 있지 않은 p-r개 ᄋ

ᅴ관측개체와 n개의 시점으로 구성된행렬이다.

ᄃ

ᅡᆫ계 2: 결측치가 포함되어 있는 행렬 Dm에서의 유전자 a행과 Dc에서의 유전자 b행의 각 행들간의 ᄀ

ᅥ리 da,b를계산한다. 이때의 거리는유클리디안 거리 또는상관계수 거리이다. 단, 결측치는제 외하고관측치만 고려한다.

ᄃ

ᅡᆫ계 3: 결측유전자와 가장 유사한 k개의완전 유전자만을추출하여 패턴일치지수 Pa,b를구하고, 가 주

ᆼ치 wa,b= Pa,b∗ d⁻¹_a,b/P (Pa,b ∗ d⁻¹_a,b) 를계산한다. 단, 결측치는제외하고관측치만 고려한 ᄃ

ᅡ.

ᄃ

ᅡᆫ계 4: D^c에서 선택된k개의관측치와 단계 3에서 구한 가중치를각각 곱하여 더한 가중평균값을구 ᄒ

ᅡ고, 이 값으로 Dm의 결측치를대체한다.

(5)

2.5. 예제 ᄃ

ᅡ음은유전자의 수 p = 7, 관측 시점 n = 4일 때 인위적으로 생성한 자료에 PKNN 방법을 적용 ᄒ

ᅡᆫ 예이다. k는 3으로 설정하였고 거리 함수는 유클리디안 거리를 사용하여 결측치를대체한다. 결측 ᄎ

ᅵ 대체를 위해 원자료 행렬 D를 결측치가 포함된 Dm과 DC로 나눈다. Dm에서 첫 번째 결측이 있 ᄂ

ᅳᆫ x^∗6,t₁를 대체할 때, 우선 결측치가 포함되어 있는 Dm에서의 x^6,tj과 D^c의 유전자 b들사이의 유클 ᄅ

ᅵ디안 거리 d^a,b를구한다. 계산된거리를 통해 x^6,tj과 거리가 가까운 3개의완전 유전자를추출하면 x1,t_j, x4,t_j, x5,t_j이고, Dm의 x6,t_j과 추출된 3개의 완전 유전자들의 패턴일치지수 P6,b를 계산한다.

x6,t_j과 x1,t_j의 패턴일치지수를 구하는방법은 다음과 같다. 결측치를 제외하고 관측치만 고려하였을 ᄄ

ᅢ, x^6,tj의관측시점에 따른 직선의 기울기 slope(6, t², t3)는 2/3이고 L^6,t2,t₃ = 1이된다. 이와 같이 x1,t_j의 slope(1, t2, t3)와 L1,t₂,t₃를 계산하여 일치도 A6,1를구하면 (1/(3 − 1)) ∗ (1 + 1) = 1이된다.

ᄃ

ᅡ음으로 최댓값과 최솟값의 일치도 M6,1를구하면, x6,t_j에서 최댓값의 시점은j = 4, 최솟값의 시점 ᄋ

ᅳᆫ j = 2이고 x6,tj의 결측이 있는첫 번째 열을제외한 x1,tj에서도 최대값의 시점은 j = 4,최소값의 ᄉ

ᅵ점은 j = 2 이다. 따라서 M^6,1 = 1으로 계산되고 이를 통하여 x^6,tj과 x^1,tj의 패턴일치지수 P^6,1은 (1 ∗ 0.5) + (1 ∗ 0.5) = 1이된다. 이와 같은방법으로 P6,4, P6,5도 구한다. 다음으로 앞서구한 d6,b와 그 ᄋ

ᅦ 해당하는 P6,b를이용하여 가중치 w6,b를계산한다. 계산된가중치를 Dc의 첫 번째 열과 각각 곱하 ᄋ

ᅧ 더해 계산한 가중평균값 (2 ∗ 0.275) + (3 ∗ 0.551) + (7 ∗ 0.174) = 3.421을구하고, 계산된가중평균값 3.421으로 x^∗6,t₁를대체한다. 이와 같은방법으로 계산하면 x^∗_7,t₃는 7.080으로 대체된다.

Table 2.2 Example

i time d

_a,b

A M P weight

0 3 6 9 d

_6,b

d

_7,b

A

_6,b

A

_7,b

M

_6,b

M

_7,b

P

_6,b

P

_7,b

W

_6,b

W

_7,b

D

_c

1 2 3 7 9 2.828 3 1 0.5 1 1 1 0.75 0.275 0.206

2 4 6 8 7 4.243 1.414 0.5 1 0.75 0.437

3 1 4 7 5 3 4.358

4 3 4 6 7 1.414 1.732 1 0.5 1 1 1 0.75 0.551 0.357

5 7 3 6 5 2.236 4.690 0.5 0.5 0.5 0.174

D

_m

6 x

^∗_6,t1

3 5 7 7 4 5 x

^∗_7,t3

8

3. 모의실험 계획 및 결과 ᄇ

ᅩᆫ 논문에서 제안하는 PKNN 방법의 적합 수준을기존의 결측치 추정법의 결과와 비교해보고자 한 ᄃ

ᅡ. 여기서 비교하는기존방법은, 본제안 방법과 같이 국부적으로 자료를이용하여 결측치를추정하는 펴

ᆼ균 대체법, 핫덱 대체법 그리고 KNN 방법이다. 이때 핫덱 대체는 각 반복마다 랜덤으로 대체된다.

ᄄ

ᅩ한 KNN 방법과 제안 방법인 PKNN의 거리의 측도는유클리디안 거리와 상관계수 거리를각각 적용 ᄒ

ᅡ여 거리에 따른적합 수준도 비교하였다.

ᄇ

ᅵ교를 위한 모의실험에는 세 가지의 실제 마이크로어레이 자료를 사용하였다. 첫 번째 자료 A는 DeRisi 등 (1997)에 의해 6400개의 유전자를 7개의 시점에서 반복 측정한 자료이다. 두 번째 자료 B는 Spellman등(1998)에 의해 6,178개 유전자를 18개의 시점에서 실험한 자료로 alpha-factor 실험 부분에 ᄒ

ᅢ당하며 세 번째 자료 C는 Spellman등 (1998)에 의해 두 번째 자료와 같은 실험 중 CDC15실험 부

(6)

부

ᆫ으로 24개의관측시점을가지고 있다. 이 세 가지 자료들은각각 특성을가지고 있다. 자료 A는비 ᄌ

ᅮ기성을갖는 특징을가지고 있고, 자료 B는주기성과 비주기성이 혼합된 자료이며 자료 C는주기성 ᄋ

ᅳᆯ가지고 있는자료이다. 또한 A 자료는자료 B와 자료 C보다 유전자 간 상관성이 상대적으로 높다 (Kim 등, 2008). 모의실험에서는시간의 효율성을위해 전체 유전자 중에 랜덤으로 500개의 유전자를 이

ᆷ의추출하여 실험에 사용하였다.

와

ᆫ전임의결측가정 하에 1%, 5%, 10%의 결측을발생 시킨 후, 실제 자료의 참값과 추정치의 적합 수 주

ᆫ을알 수 있는정규화 제곱근평균제곱오차 (Normalized Root Mean Square Error: NRMSE)를사 ᄋ

ᅭ

ᆼ하여 기존방법과 제안 방법을비교평가하였다. 이때 NRMSE는다음과 같다.

N RM SE = 1 x^′_max− x^′_min

X(xij− x^′ij)² M

¹₂

, (3.1)

ᄋ

ᅧ기서 xij는 실제값, x^′ij는추정치, x^′max 는추정치 중최댓값, x^′min는추정치 중최솟값 그리고 M은 겨

ᆯ측치의 총개수를 나타낸다 (Kim과 Kim, 2018). 이는 실제 값과 대치된 값의 차이를전체 결측치에 ᄃ

ᅢ하여 계산하는방법으로, NRMSE가 작을수록 좋은추정치인 것을알 수 있다 (Lim과 Kim, 2015).

ᄆ

ᅩ의실험에 필요한 적절한 k의 개수를선택하기 위해 각 자료별로 k를 5부터 35까지 설정하여 그에 ᄄ

ᅡ른 NRMSE로 비교하였다. 결측비율에 따른자료 A의 NRMSE는대체로 k=5,6,7,8,9,10 일 때 가장 ᄂ

ᅡ

ᆽ았고 k가 커질수록계속 증가하였다. 자료 B와 C는 k=16,17,18,19,20 일 때 대체로 낮았고 k가 증 ᄀ

ᅡ해도 그 차이는 미미하였다. 따라서 모의실험에서 k의 개수는자료 A에서는 k=5,6,7,8,9,10으로 설 저

ᆼ하고, 자료 B와 자료 C는 k=16,17,18,19,20으로 설정한다. 이렇게 설정한 k를바탕으로 모의실험을 100번 반복수행하여 NRMSE들의 평균을구하였고, Table 3.1은모의실험의 결과를정리한 것이다.

ᄆ

ᅥᆫ저관측시점이 7개이고 비주기성인 자료 A에 대하여 살펴보면, 결측1%, 결측5%, 결측10%모든 ᄇ

ᅮ분에서 k의 개수에 상관없이 모든방면에서 유클리디안 거리를사용한 제안 방법 PKNN ec가 가장 ᄋ

ᅮ수한 성능을보였다. 상관계수 거리를사용한 제안 방법 PKNN r은유클리디안 거리를사용한 기존 ᄇ

ᅡᆼ법 KNN ec보다 좋은결과를얻지는 못했지만, 상관계수 거리를사용한 기존 방법 KNN r보다는 좋 ᄋ

ᅳ

ᆫ결과를보였다. 결측1%와 5%인 경우엔 k = 6일 때 제안 방법 PKNN ec가 가장 작은 NRMSE를가 ᄌ

ᅧᆻ고, 결측10%인 경우엔 k = 5일 때 제안 방법 PKNN ec가 가장 작은 NRMSE를가졌다.

ᄃ

ᅡ음으로, 관측 시점이 18개이고 비주기성과 주기성의 혼합형인 자료 B에서 결측1%일 때는 k개수의 ᄉ

ᅡᆼ관없이 유클리디안 거리를 사용한 제안 방법 PKNN ec가 기존방법보다확연한 차이로 좋았고 그중 k = 20 일 때 가장 우수한 성능을보였다. 상관계수 거리를사용한 제안 방법 PKNN r은가장 좋은결 ᄀ

ᅪ를 얻지는 못했지만 같은 상관계수 거리를사용한 기존방법 KNN r보다는 좋은 결과를 보였다. 결 ᄎ

ᅳᆨ5%와 결측10%인 경우에는제안 방법 PKNN ec가 k개수의 상관없이 가장 우수한 성능을보였고 그 ᄌ

ᅮᆼ에서도 k = 20 일 때 가장 작은 NRMSE를 가졌다. 또한 결측5%와 결측10%에서는결측1%인 경 ᄋ

ᅮ와는 다르게 k = 18, 19 일 때 제안 방법 PKNN ec 다음으로 상관계수 거리를 사용한 제안 방법 PKNN r이 우수한 성능을보였다. 마지막으로,관측시점이 24개이고 주기성인 자료 C에서는결측1%, 겨

ᆯ측5%, 결측10% 모든 부분에서 k의 개수에 상관없이 기존 방법 KNN ec가 가장 작은 NRMSE를 ᄀ

ᅡ졌고 다음으로 제안 방법 PKNN ec가 그 뒤를 따랐다. 하지만 기존 방법 KNN ec와 PKNN ec의 NRMSE값의 차이가 아주근소하기 때문에 성능의 차이가 그리 크지 않음을알 수 있었고 자료 B와 마 ᄎ

ᅡᆫ가지로 결측1%, 결측5%, 결측10%모든부분에서 k = 20일 때 가장 작은 NRMSE를가졌다.

ᄆ

ᅩ든 실험에서 공통적으로 평균대체법과 핫덱 대체법은다른대체법들에 비하여 NRMSE 값이확연하 ᄀ

ᅦ 안 좋은결과가 나왔음을확인할 수 있었고 기존방법인 KNN 방법과 제안 방법인 PKNN 방법을사 ᄋ

ᅭ

ᆼ할 때 쓰는거리의 측도로 상관계수 거리를사용하는것보다 유클리디안 거리를사용하는것이 더 우 ᄉ

ᅮ한 결과를 얻었다. 또한 결측의 비율이 커질수록 더 작은 NRMSE 값을 가지는이유는결측의 수가

(7)

ᄌ ᅳ

ᆼ가함에 따라 NRMSE 분모의 차이값이 커지기 때문이라고 볼수 있다.

Table 3.1 Result of NRMSE method

Data Missing k Mean Hotdeck KNN r PKNN r KNN ec PKNN ec

A

1%

5 1.4369563 0.6167935 0.1834744 0.1825878 0.1729461 0.1637332 6 1.4369563 0.5642317 0.1830478 0.1820398 0.17204 0.1631659 7 1.4369563 0.5739804 0.1816013 0.1810464 0.1739041 0.1635836 8 1.4369563 0.5984067 0.1825467 0.1821896 0.1753066 0.1649908 9 1.4369563 0.5907328 0.181777 0.1809436 0.1738257 0.1653096 10 1.4369563 0.5409723 0.1822461 0.1817029 0.1737993 0.1660917

5%

5 1.4762236 0.4807307 0.1174816 0.116204 0.0979964 0.0955149 6 1.4762236 0.5075003 0.118402 0.1171749 0.0981942 0.095501 7 1.4762236 0.9087424 0.1189734 0.1178679 0.0998502 0.0967219 8 1.4762236 0.562697 0.1202339 0.1188687 0.1011528 0.0978627 9 1.4762236 0.5103863 0.121386 0.1198744 0.1026043 0.0997028 10 1.4762236 0.6398929 0.1217731 0.1203835 0.1040034 0.1010452

10%

5 1.4679229 0.5428964 0.1101105 0.108749 0.0920937 0.0906523 6 1.4679229 0.5264631 0.1115543 0.1101267 0.0944928 0.0924994 7 1.4679229 0.6084164 0.112139 0.1106015 0.097121 0.0947035 8 1.4679229 0.5725861 0.1135947 0.1116146 0.0993779 0.0967085 9 1.4679229 0.5636828 0.1159987 0.1135921 0.1013539 0.0982746 10 1.4679229 0.5841708 0.1170307 0.1143637 0.1035545 0.1002371

B

1%

16 1.3206676 0.3875198 0.1065387 0.1065314 0.106321 0.0866736 17 1.3206676 0.3903229 0.1065254 0.1065187 0.1063181 0.0866688 18 1.3206676 0.3804818 0.106521 0.1063149 0.1065124 0.0866686 19 1.3206676 0.3918225 0.1065126 0.1063045 0.1065033 0.0866578 20 1.3206676 0.401758 0.1065024 0.1064941 0.1063002 0.0866526

5%

16 1.3404225 0.3942308 0.0924256 0.0924305 0.0922381 0.0732512 17 1.3404225 0.4069654 0.0924121 0.0924177 0.0922345 0.0732461 18 1.3404225 0.3993079 0.0924009 0.0922303 0.0924069 0.0732402 19 1.3404225 0.4012008 0.0923913 0.092226 0.0923966 0.0732367 20 1.3404225 0.3928603 0.092382 0.0923874 0.0922208 0.0732316

10%

16 1.347016 0.3916527 0.0903818 0.0904272 0.090199 0.0708711 17 1.347016 0.3863807 0.0903651 0.0904105 0.09019 0.0708609 18 1.347016 0.3924131 0.0903482 0.0901825 0.0903941 0.0708533 19 1.347016 0.3678491 0.0903342 0.0901755 0.0903803 0.0708466 20 1.347016 0.410558 0.090321 0.0903663 0.0901699 0.0708405

C

1%

16 1.992465 0.3295985 0.1205296 0.1205385 0.1201953 0.1202103 17 1.992465 0.3564422 0.1205207 0.1205303 0.1201829 0.1202016 18 1.992465 0.3463495 0.1205096 0.1205197 0.1201793 0.1201936 19 1.992465 0.3413144 0.1204987 0.1205097 0.1201729 0.1201869 20 1.992465 0.3379967 0.1204891 0.1205001 0.1201687 0.1201801

5%

16 2.0097848 0.3441447 0.1062596 0.1062871 0.1058659 0.1058933 17 2.0097848 0.3517275 0.1062411 0.1062694 0.1058555 0.1058837 18 2.0097848 0.3384077 0.1062227 0.1062521 0.1058468 0.1058748 19 2.0097848 0.3439657 0.1062056 0.1062357 0.1058382 0.1058667 20 2.0097848 0.3375861 0.1061911 0.1062221 0.1058293 0.1058575

10%

16 2.0129333 0.3454915 0.1038408 0.1039675 0.1034814 0.1035533 17 2.0129333 0.3525832 0.1038065 0.1039371 0.1034634 0.1035343 18 2.0129333 0.3411956 0.1037739 0.1039088 0.1034483 0.1035185 19 2.0129333 0.3541648 0.1037431 0.1038821 0.1034337 0.1035032 20 2.0129333 0.3439814 0.1037149 0.1038578 0.1034202 0.1034888

* KNN r: knn method using pearson correalation coefficient distance

* PKNN r: pknn method using pearson correalation coefficient distance

* KNN ec: knn method using euclidean distance

* PKNN ec: pknn method using euclidean distance

(8)

4. 결론 및 고찰 보

ᆫ 논문에서는마이크로어레이 자료에 대한 새로운결측치 대체 방법을제안하였다. 가장 많이 사용 ᄒ

ᅡ는 KNN 대체법과 시점의 상관성을 나타내는 패턴일치지수를 이용하여 PKNN 방법을 제안하였다.

ᄋ

ᅵ때 제안 방법인 PKNN과 기존 KNN에 사용하는거리의 측도를유클리디안 거리와 상관계수 거리로 ᄂ

ᅡ누고, 거리에 따른 결과도 비교하였다. 사용한 자료는 비주기성, 혼합형, 주기성의 자료로 총 3가지 ᄋ

ᅴ 각각 특성이 있는자료를사용하였다. 완전임의결측가정 하에 1%, 5%, 10%의 결측을발생시켜 모 ᄋ

ᅴ실험하였고, 결측치 추정의 적합 수준은 NRMSE 척도를이용하여 기존방법과 제안 방법을비교하였 ᄃ

ᅡ.

ᄆ

ᅩ의실험 결과 비주기성인 자료와 비주기성과 주기성의 혼합형인 자료에서 유클리디안 거리를사용한 ᄌ

ᅦ안 방법 PKNN이 가장 우수한 성능을보였다. 하지만, 주기성인 자료에서는유클리디안 거리를사용 ᄒ

ᅡᆫ 기존방법 KNN이 가장 좋았고 그다음으로 유클리디안 거리를사용한 제안 방법 PKNN이 좋은 결 ᄀ

ᅪ를얻었다. 대체적으로 상관계수 거리를사용한 제안 방법 PKNN은유클리디안 거리를사용한 기존 ᄇ

ᅡᆼ법 KNN과 유클리디안 거리를사용한 PKNN보다 좋지는않았지만 상관계수 거리를사용한 기존방 버

ᆸ KNN보다는더 좋은방법임을알 수 있었다.

ᄌ

ᅥᆫ체적으로 PKNN과 KNN의 NRMSE의 차이는 미비하였지만, 제안 방법 PKNN은 KNN 만큼이 ᄂ

ᅡ 간단하다는장점이 있고 패턴일치지수를가중치로 사용하여 시점에 따른상관성을고려하였기 때문 ᄋ

ᅦ KNN 보다 더 정확한 추정이 가능한 장점이 있다. 따라서 PKNN 방법을시간경로 마이크로어레이 ᄌ

ᅡ료의 특성에 맞춰 사용한다면 기존방법 보다 더 효율적으로 결측치를대체할 수 있을것이라 기대한 ᄃ

ᅡ. 즉,비주기성을갖는자료나 비주기성과 주기성이 혼합된자료에서는 본 논문에서 제안한 유클리디 ᄋ

ᅡᆫ 거리를사용한 PKNN 방법이 기존방법들보다 더 우수하다고 기대된다. 또한 다른자료보다 혼합 혀

ᆼ 자료에서 결측비율에 상관없이 유클리디안 거리를사용한 제안 방법 PKNN 방법이 기존방법들보 ᄃ

ᅡ 가장큰차이로 좋았기 때문에 비주기성과 주기성의 혼합된자료인 경우에는유클리디안 거리를사용 ᄒ

ᅡᆫ 제안 방법 PKNN을이용하는것이 효율이 높을것으로 기대된다.

References

Kim, H. and Kim, D. (2017). Imputation method for missing data based on measure of property. The Korean Journal of Applied Statistics, 30, 463-473.

Kim, J., Hwang, J. and Kim, S. (2006). A comparative study of microarray data with survival times based on several missing mechanism. The Korean Communications in Statistics, 13, 101-111.

Kim, K., Kim, B. and Yi, G. (2004). Reuse of imputed data in microarray analysis increases imputation efficiency. BMC Bioinformatics, 5, 160.

Kim, K., Oh, M., Baek, J. and Son, Y. (2008). Missing values estimation for time course gene expression data using the sequential partial least squares regression fitting. The Korean Journal of Applied Statistics, 21, 275-290.

Kim, S. (2017). A study on the spatial neighborhood in spatial regression analysis. Journal of the Korean Data & Information Science Society, 28, 505-513.

Kim, S. and Kim, D. (2018). Imputation method for missing data based on clustering and measure of property. The Korean Journal of Applied Statistics, 31, 29-40.

Lim, C. and Kim, D. (2015). On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation.

The Korean Journal of Applied Statistics, 28, 23-31.

Lee, S. (2015). Cross platform classi cation of microarrays by rank comparison. Journal of the Korean Data & Information Science Society, 26, 475-486.

Lee, S. and Lee, K. (2012). Detecting survival related gene sets in microarray analysis. Journal of the Korean Data & Information Science Society, 23, 1-11.

Son, Y. and Baek, J. (2005). A pattern consistency index for detecting heterogeneous time series in clus-

tering time course gene expression data. The Korean Journal of Applied Statistics, 18, 371-379.

(9)

2018, 29

(

5)

,

1179–1187

Imputation method for missing data based on KNN and pattern consistency index in microarray data

Sunyoung Lee

¹

· Dongjae Kim

²

12Department of Biomedicine · Health science, The Catholic University of Korea

Received 23 August 2018, revised 17 September 2018, accepted 20 September 2018

Abstract

The KNN imputation method is widely used as a missing-value imputation method in time course gene expression data. This method imputation the missing value by using k genes that are closest to the gene in which the missing value occurred. However, it has the inherent disadvantage that there may be neglecting the correlation between observation points. In this paper, we proposed a new missing value imputation method by applying the pattern consistency index proposed by Son and Baek to the KNN method. We also compared the performance between the established method and the suggested method through simulations of three yeast time course data.

Keywords: Imputation of missing values, k-nearest neighbors, microarray, pattern consistency index, time course gene expression data.

1

Researcher, Department of Biomedicine · Health Science, The Catholic University of Korea, 222, Banpo- daero, Seocho-gu, Seoul 137-701, Korea.

2

Corresponding audthor: Professor, Department of Biomedicine · Health Science, The Catholic Univer- sity of Korea, 222, Banpo-daero, Seocho-gu, Seoul 137-701, Korea.