2018, 29
(5)
,1179–1187
시간경로 마이크로어레이 자료에서 k-최근접 이웃과 패턴일치지수를 이용한 결측치 대체방법
ᄋ
ᅵ선영
1
· 김동재2
12가톨릭대학교 의생명 · 건강과학과
ᄌ ᅥ
ᆸᄉ ᅮ 2018ᄂ ᅧ ᆫ 8ᄋ ᅯ ᆯ 23ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 17ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 20ᄋ ᅵ ᆯ
요 약
ᄉ
ᅵᄀ ᅡ ᆫᄀ ᅧ ᆼᄅ ᅩ ᄆ ᅡᄋ ᅵᄏ ᅳᄅ ᅩᄋ ᅥᄅ ᅦᄋ ᅵ ᄌ ᅡᄅ ᅭᄋ ᅦᄉ ᅥ ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄎ ᅵ ᄃ ᅢᄎ ᅦ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳᄅ ᅩ k-ᄎ ᅬ ᄀ ᅳ ᆫᄌ ᅥ ᆸ ᄋ ᅵᄋ ᅮ ᆺ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅵ ᄂ ᅥ ᆯᄅ ᅵ ᄉ ᅡᄋ ᅭ ᆼᄃ ᅬ ᆫ ᄃ ᅡ.
ᄋ
ᅵ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆫ ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄋ ᅵ ᄇ ᅡ ᆯᄉ ᅢ ᆼᄒ ᅡ ᆫ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡᄋ ᅪ ᄀ ᅡᄌ ᅡ ᆼ ᄀ ᅡᄁ ᅡᄋ ᅮ ᆫ ᄀ ᅥᄅ ᅵᄋ ᅦ ᄋ ᅵ ᆻᄂ ᅳ ᆫ kᄀ ᅢᄋ ᅴ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄀ ᅡ ᆹᄋ ᅳ ᆯ ᄃ ᅢ ᄎ
ᅦᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅵᄌ ᅵᄆ ᅡ ᆫ ᄀ ᅪ ᆫᄎ ᅳ ᆨ ᄉ ᅵᄌ ᅥ ᆷ ᄀ ᅡ ᆫᄋ ᅴ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄆ ᅮᄉ ᅵᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅡ ᆫᄌ ᅥ ᆷᄋ ᅵ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄃ ᅡ ᆫᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄇ ᅩ ᄋ ᅪ
ᆫ ᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ k-ᄎ ᅬ ᄀ ᅳ ᆫᄌ ᅥ ᆸ ᄋ ᅵᄋ ᅮ ᆺ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅦ Sonᄀ ᅪ Baekᄋ ᅵ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫ ᄑ ᅢᄐ ᅥ ᆫᄋ ᅵ ᆯᄎ ᅵᄌ ᅵᄉ ᅮᄅ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄉ ᅢᄅ ᅩᄋ ᅮ ᆫ ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄎ ᅵ ᄃ ᅢ ᄎ
ᅦᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄄ ᅩᄒ ᅡ ᆫ ᄀ ᅡ ᆨᄀ ᅡ ᆨᄋ ᅴ ᄐ ᅳ ᆨᄌ ᅵ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄉ ᅦ ᄀ ᅡᄌ ᅵᄋ ᅴ ᄉ ᅵ ᆯᄌ ᅦ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄆ ᅩᄋ ᅴᄉ ᅵ ᆯᄒ ᅥ ᆷᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡ ᄋ
ᅧ ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄀ ᅪ ᄇ ᅵᄀ ᅭᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅧ ᆯᄎ ᅳ ᆨ ᄎ ᅵ ᄃ ᅢᄎ ᅦ, ᄆ ᅡᄋ ᅵᄏ ᅳᄅ ᅩᄋ ᅥᄅ ᅦᄋ ᅵ, ᄉ ᅵᄀ ᅡ ᆫᄀ ᅧ ᆼᄅ ᅩ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡ ᄇ ᅡ ᆯᄒ ᅧ ᆫ ᄌ ᅡᄅ ᅭ, ᄑ ᅢᄐ ᅥ ᆫᄋ ᅵ ᆯᄎ ᅵᄌ ᅵᄉ ᅮ, k-ᄎ ᅬ ᄀ ᅳ ᆫᄌ ᅥ ᆸ ᄋ ᅵᄋ ᅮ ᆺ.
1. 서론 ᄆ
ᅡ이크로어레이 실험은대용량의 유전체 분석 시스템으로서 수백 개 이상의 유전자 발현 수준을 동시 ᄋ
ᅦ관측할 수 있고 유전자를빠른시간 안에 검색할 수 있다. 또한 특정 질병의 유전학적 특성과 유전자 ᄀ
ᅡᆫ의 상호작용을 알 수 있기 때문에 정상 세포와 질병 세포 안의 유전자의 발현 정도나 유전자 간의 상 ᄒ
ᅩ 연관성을이해하는데 도움을주고 약학이나 임상조사에 많은도움을 준다 (Lee, 2015; Son과 Baek, 2005; Lee와 Lee, 2012).
ᄆ
ᅡ이크로어레이 실험 과정은관심 있는조직으로부터 mRNA를추출하여 cDNA로 역 전사 시킨 후, ᄋ
ᅲ전자의 발현 수준을탐지할 수 있도록 실험군은적색, 대조군은 녹색으로 염색하여 마이크로어레이 칩 ᄋ
ᅦ 혼성화 시킨다. 상보적인 서열을 갖는 유전자들은서로 결합되어 적색과 녹색의 색상 변화가 나타 ᄂ
ᅡ게 되는데, 보통 적색과 녹색 발현 값의 로그비로 변환하여 수치화한 것이 마이크로어레이 자료이다 (Son과 Baek, 2005).
ᄆ
ᅡ이크로어레이 자료 중시간경로 유전자 발현 자료는 실험이 시간의 흐름에 따라 수행되어 얻어지는 ᄉ
ᅵ계열 자료이다. 이는시간에 따른유전자의 발현 수준을알 수 있고 이에 따라관측시점 간에 상관성 으
ᆯ갖게 되는자료이다 (Son과 Baek, 2005).
ᄆ
ᅡ이크로어레이 자료는여러 단계를거치며 얻어지기 때문에 그 과정에서 다양한 원인으로 결측치를 ᄑ
ᅩ함하게된다. 그 원인으로는스폿팅 오류나 합성의 실패, 불충분한 해상력, 이미지 훼손, 슬라이드 상
1
(137-701) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥᄎ ᅩᄀ ᅮ ᄇ ᅡ ᆫᄑ ᅩᄃ ᅢᄅ ᅩ 222, ᄀ ᅡᄐ ᅩ ᆯᄅ ᅵ ᆨᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅴᄉ ᅢ ᆼᄆ ᅧ ᆼ · ᄀ ᅥ ᆫᄀ ᅡ ᆼᄀ ᅪᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.
2
ᄀ ᅭᄉ ᅵ ᆫ ᄌ ᅥᄌ ᅡ: (137-701) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥᄎ ᅩᄀ ᅮ ᄇ ᅡ ᆫᄑ ᅩᄃ ᅢᄅ ᅩ 222, ᄀ ᅡᄐ ᅩ ᆯᄅ ᅵ ᆨᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅴᄉ ᅢ ᆼᄆ ᅧ ᆼ · ᄀ ᅥ ᆫᄀ ᅡ ᆼᄀ ᅪᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
ᄋ
ᅴ 먼지, 긁힘/지문, 의심스러운값의 삭제, 중도절단된자료가 대부분이며 그 외에도 이미지의 수치 변 화
ᆫ과정에서의 기기적 오류도 있을수 있다 (Kim 등, 2008).
ᄆ
ᅡ이크로어레이 자료에서의 결측치의 개수의 비율은전체 자료 크기에 대비해서는그리 높은비율은 ᄋ
ᅡ닐지라도 유전자 단위로 대비해서는매우 높은 비율로 나타난다. 결측치를 포함하는 전체 유전자들 ᄀ
ᅡ운데 한 개의 결측치만 있는유전자의 비율이 대부분 60%를넘을만큼상대적으로 매우 높게 발생한 ᄃ
ᅡ. 마이크로어레이 연구 초기에는결측치가 있는자료는삭제하거나 다시 실험을수행하였다. 하지만 겨
ᆯ측치가 하나라도 존재하면 해당 유전자의관측자료가 모두 삭제되기 때문에 자료의 손실이 크고 다시 시
ᆯ험을수행하게 되면 많은 비용과 시간이 소요된다. 그러므로 결측치 추정 방법을이용하여 결측치를 ᄃ
ᅢ체해야 한다 (Kim 등, 2008).
겨
ᆯ측치 추정을할 때, 시간경로 유전자 발현 자료일 경우에는시간에 따른연관성을고려해 추정해야 ᄒ
ᅡᆫ다. 하지만, 대부분의 기존방법들은관측시점들간에 상관성을무시하기 때문에 시간경로 자료에 대 ᄒ
ᅢ서는추정의 정확성이 떨어지게된다 (Kim 등, 2008). 기존방법은크게 국부적으로 자료를이용하는 ᄇ
ᅡᆼ법과, 전체 자료를이용하는방법으로 나눌수 있다. 국부적으로 자료를이용하는방법 중에서는평균 ᄃ
ᅢ체법 (mean imputation), 핫덱 대체법 (Hot-Deck imputation), k-최근접 이웃 (k-nearest neighbors, KNN)방법, 순차 k-최근접 이웃 (sequential k-nearest neighbor, SKNN) 방법이 있다. 우선 평균대 ᄎ
ᅦ법은 결측치를 제외한 나머지 관측된자료의 평균값으로 대체하는 방법이다. 이는사용이 편리하지 ᄆ
ᅡᆫ 평균값이 반복적으로 대체되기 때문에 통계량의 표준오차가 과소 추정 되는 문제가 있다 (Kim 등, 2006; Kim과 Kim, 2017). 다음으로 핫덱 대체는, 결측치가 속한 열이나 행에서 랜덤하게 선택하여 대 ᄎ
ᅵ하는 가장 간편한 방법이지만 표준오차를 구하기 어려운 문제가 있다 (Kim 등, 2006; Kim과 Kim, 2017). 국부적으로 자료를이용하는방법 중가장 많이 쓰이는방법은 KNN 방법이다. 여기서 k-최근 저
ᆸ은 두 개체의 거리를 기준으로 임의의 공간 객체에서 가장 가까운 k개를 추출하고 그것을이웃으로 저
ᆼ의하는방법이며, KNN 대체법은 Troyanskaya 등 (2001)이 제안한 방법으로 결측이 발생한 유전자 ᄋ
ᅪ 가장 가까운거리에 있는 k개의 유전자 개체를찾아 가중치를부여하여 결측치를대치하는방법이다 (Kim 등, 2008; Kim 등, 2006; Kim, 2017). 이는계산이 간편하고 적중률도 높기 때문에 결측치 추정 버
ᆸ으로 많이 사용된다. 또한 KNN 방법을이용한 SKNN 방법이 있다. 이는 Kim 등 (2004)이 제안한 ᄇ
ᅡᆼ법으로 KNN 방법을기본방법으로 하여 대치된데이터를다음결측치 추정에 재사용하는방법이다.
ᄋ
ᅵ는결측이 약 30% 이상일 때 유용한 것으로 보고 되었다 (Kim 등, 2008; Kim 등, 2006).
ᄌ
ᅥᆫ체 자료를이용하는방법으로는, 특성치 분해 (Singular value decomposition; SVD) 방법, 베이지 아
ᆫ 주성분 분석 (Bayesian princpal component analysis, BPCA) 방법이 있다. 이 방법들은완전 자 ᄅ
ᅭ 전체에 대한 공분산 구조를사용하여 모든자료들을 결측치 추정에 이용하는방법들이다 (Kim 등, 2008). 우선 SVD 방법은 Troyanskaya 등 (2001)이 제안한 방법으로 평균 대체를 통해 완전한 자료 ᄅ
ᅳᆯ 만든 후, SVD를 통하여 설명력이 높은 k개의 고유 유전자를 추출하고 회귀 적합을 시킨다. 그리 ᄀ
ᅩ 추정된회귀계수를 통해 결측값을추정하며 EM 알고리즘을 통해 최종 추정치를얻는다. 다음으로 BPCA방법은주성분회귀분석을 통해 얻어진 값을이용하여 베이지안 방법으로 결측치를추정하는방 버
ᆸ이다. 이 또한 EM 알고리즘을 통하여 최종결측치를추정한다. 이 두 가지 방법은전체적인 자료를 ᄉ
ᅡ용하므로 결측유전자와 유사성이 매우 낮은유전자까지 추정에 포함하게된다. 따라서 유사성이 높 ᄋ
ᅳᆫ 일부 자료만 이용하는방법보다는정확성이 떨어질 수 있다 (Kim 등, 2008).
보
ᆫ 논문에서는마이크로어레이 결측치 대체법으로 가장 많이 사용되는 KNN방법의관측시점 간에 ᄉ
ᅡᆼ관성을무시하는 문제점을 보안하기 위해 Son과 Baek (2005)이 제안한 패턴일치지수를 KNN 결측 ᄎ
ᅵ 대치법에 적용한 패턴 k-최근접 이웃 (pattern consistency index k-nearest neighbor, PKNN)방법 으
ᆯ제안하고자 한다. 제안 방법은 KNN 결측치 대체법의 가중치에 패턴일치지수를사용함으로써 시점 ᄋ
ᅴ 상관성을고려할 수 있게된다. 2장에서는패턴일치지수를자세히 설명하고 PKNN 방법을제안하였
ᄃ
ᅡ. 3장에서는 실제 자료를이용한 모의실험을 통하여 기존방법과 제안 방법의 결측치 대체 성능을비 ᄀ
ᅭ하였다. 마지막으로 4장에서는결론 및 고찰로 마무리하였다.
2. 제안 방법 보
ᆫ 논문에서는 KNN 방법에 유사성 거리와 Son과 Baek (2005)이 제안한 패턴일치지수를이용하여 ᄀ
ᅡ중치를주고, 결측치를가중평균값으로 대체하는 PKNN방법을제안하였다. 이는거리가 가깝고 패 ᄐ
ᅥᆫ일치지수가 클수록큰가중치를부여하고, 상대적으로 거리가 멀고 패턴일치지수가 작을수록작은가 ᄌ
ᅮᆼ치를부여한다.
2.1. 자료형태 ᄆ
ᅡ이크로어레이 시간경로 자료의 형태는 p개의 유전자 i (i = 1, 2, . . . , p)와 n개의 시점 tj (j = 1, 2, . . . , n)으로 구성된자료이다.
Table 2.1 Structure of time course microarray data
N Time
t
1t
2· · · t
n1 x
1,t1x
1,t2· · · x
1,tn2 x
2,t1x
2,t2· · · x
2,tn. . .
. . .
. .
. . . .
. . .
p x
p,t1x
p,t2· · · x
p,tn2.2. 유사성 거리 ᄋ
ᅲ사성 거리의 측도로는 유클리디안 거리 (Euclidean distance)와 상관계수 거리 (correlation dis- tance)를사용한다. 유클리디안 거리는가장 흔히 사용하는거리 척도로 두 지점의 단순한 거리를계산 ᄒ
ᅡ는 것이고, 상관계수 거리는피어슨상관계수 (pearson correlation coefficient)를 거리 척도로 직접 ᄉ
ᅡ용하여 시간의 흐름에 따른 진행방향 혹은변화량의 유사도를알 수 있다 (Lim과 Kim, 2015; Son과 Baek, 2005).
Euclidean distance : d(a,b)=q Pn
j=1(xa,tj− xb,tj)2, a ̸= b = 1, 2, . . . , p, Correlation distance : d(a,b)= 1 − ra,b, a ̸= b = 1, 2, . . . , p,
(ra,b=
Pn
j=1(xa,tj− ¯xa)(xb,tj− ¯xb) qPn
j=1(xa,tj− ¯xa)2∗qPn
j=1(xb,tj− ¯xb)2).
2.3. 패턴일치지수
Son과 Baek (2005)이 제안한 패턴일치지수는시계열 자료에서 상승-하강-정체 패턴, 그리고 최대 최 ᄉ
ᅩ 발현 값을나타내는시점의 일치 정도를수량화 한 것이다. 먼저 유전자 a의 시간경로점 (tj, xa,tj)과 ᄋ
ᅵᆫ접하는점 (tj+1, xa,tj+1)을 통과하는 직선의 기울기는
slope(a, tj, tj+1) =xa,tj+1− xa,tj
tj+1− tj
, a = 1, 2, . . . , p, j = 1, 2, . . . , n − 1 ᄋ
ᅵ고, 직선의 상승-하강-정체의 정보를가지는함수는
La,tj,tj+1=
1, slope(a, tj, tj+1) > 0,
−1, slope(a, tj, tj+1) < 0, 0, slope(a, tj, tj+1) = 0,
a = 1, 2, . . . , p, j = 1, 2, . . . , n − 1
ᄀ
ᅪ 같이 정의하였다.
ᄋ
ᅵ를 통해, 유전자 a와 유전자 b의 상승-하강-정체 패턴의 일치도 Aa,b는
Aa,b= 1 n − 1
n−1
X
j=1
I(La,tj,tj+1= Lb,tj,tj+1), a ̸= b = 1, 2, . . . , p ᄅ
ᅩ 정의하였다. 여기서 I(D)는사상 D가 참이면 1의 값을가지고 거짓이면 0의 값을가지는지시함수 (indicator function)이고, 0 ≤ Aa,b≤ 1이다.
ᄄ
ᅩ, 유전자 a의 최솟값과 최댓값의 시점을각각 Tamin 그리고 Tbmax라 놓고, 유전자 a와 유전자 b의 ᄎ
ᅬ솟값 및 최댓값의 시점에 대한 일치도 Ma,b는
Ma,b=
1, Tamin= Tbmin and Tamax= Tbmax, 0.5, Tamin= Tbmin or Tamax= Tbmax, 0, Tamin̸= Tbmin and Tamax̸= Tbmax,
a ̸= b = 1, 2, . . . , p
ᄅ
ᅩ 정의하고, Aa,b와 Ma,b를이용하여 유전자 a와 유전자 b의 패턴일치지수는 Pa,b= ω1∗ Aa,b+ ω2∗ Ma,b, a ̸= b = 1, 2, . . . , p ᄅ
ᅩ 정의하였다. 여기서 0 ≤ Pa,b ≤ 1이고 ω1과 ω2는 합이 1이 되는 음이 아닌 실수로서, Pa,b에서 Aa,b와 Ma,b가 차지하는비율을나타낸다.
2.4. 패턴 k-최근접 이웃 (Pattern consistency index k-nearest neighbor, PKNN) ᄑ
ᅢ턴일치지수를이용한 결측치 대체 방법의 단계는다음과 같다.
ᄃ
ᅡᆫ계 1: p개의 관측개체와 n개의 관측시점을 가지고 있는 원자료 행렬을 D라고 할 때, 행렬 D를 Dm과 Dc로 나눈다. 여기서 Dm은적어도 하나의 결측치가 포함되어 있는 r개의관측치와 n개 ᄋ
ᅴ 시점을갖는자료 행렬이고, Dc는 원자료 행렬인 D에서 결측치가 포함되어 있지 않은 p-r개 ᄋ
ᅴ관측개체와 n개의 시점으로 구성된행렬이다.
ᄃ
ᅡᆫ계 2: 결측치가 포함되어 있는 행렬 Dm에서의 유전자 a행과 Dc에서의 유전자 b행의 각 행들간의 ᄀ
ᅥ리 da,b를계산한다. 이때의 거리는유클리디안 거리 또는상관계수 거리이다. 단, 결측치는제 외하고관측치만 고려한다.
ᄃ
ᅡᆫ계 3: 결측유전자와 가장 유사한 k개의완전 유전자만을추출하여 패턴일치지수 Pa,b를구하고, 가 주
ᆼ치 wa,b= Pa,b∗ d−1a,b/P (Pa,b ∗ d−1a,b) 를계산한다. 단, 결측치는제외하고관측치만 고려한 ᄃ
ᅡ.
ᄃ
ᅡᆫ계 4: Dc에서 선택된k개의관측치와 단계 3에서 구한 가중치를각각 곱하여 더한 가중평균값을구 ᄒ
ᅡ고, 이 값으로 Dm의 결측치를대체한다.
2.5. 예제 ᄃ
ᅡ음은유전자의 수 p = 7, 관측 시점 n = 4일 때 인위적으로 생성한 자료에 PKNN 방법을 적용 ᄒ
ᅡᆫ 예이다. k는 3으로 설정하였고 거리 함수는 유클리디안 거리를 사용하여 결측치를대체한다. 결측 ᄎ
ᅵ 대체를 위해 원자료 행렬 D를 결측치가 포함된 Dm과 DC로 나눈다. Dm에서 첫 번째 결측이 있 ᄂ
ᅳᆫ x∗6,t1를 대체할 때, 우선 결측치가 포함되어 있는 Dm에서의 x6,tj과 Dc의 유전자 b들사이의 유클 ᄅ
ᅵ디안 거리 da,b를구한다. 계산된거리를 통해 x6,tj과 거리가 가까운 3개의완전 유전자를추출하면 x1,tj, x4,tj, x5,tj이고, Dm의 x6,tj과 추출된 3개의 완전 유전자들의 패턴일치지수 P6,b를 계산한다.
x6,tj과 x1,tj의 패턴일치지수를 구하는방법은 다음과 같다. 결측치를 제외하고 관측치만 고려하였을 ᄄ
ᅢ, x6,tj의관측시점에 따른 직선의 기울기 slope(6, t2, t3)는 2/3이고 L6,t2,t3 = 1이된다. 이와 같이 x1,tj의 slope(1, t2, t3)와 L1,t2,t3를 계산하여 일치도 A6,1를구하면 (1/(3 − 1)) ∗ (1 + 1) = 1이된다.
ᄃ
ᅡ음으로 최댓값과 최솟값의 일치도 M6,1를구하면, x6,tj에서 최댓값의 시점은j = 4, 최솟값의 시점 ᄋ
ᅳᆫ j = 2이고 x6,tj의 결측이 있는첫 번째 열을제외한 x1,tj에서도 최대값의 시점은 j = 4,최소값의 ᄉ
ᅵ점은 j = 2 이다. 따라서 M6,1 = 1으로 계산되고 이를 통하여 x6,tj과 x1,tj의 패턴일치지수 P6,1은 (1 ∗ 0.5) + (1 ∗ 0.5) = 1이된다. 이와 같은방법으로 P6,4, P6,5도 구한다. 다음으로 앞서구한 d6,b와 그 ᄋ
ᅦ 해당하는 P6,b를이용하여 가중치 w6,b를계산한다. 계산된가중치를 Dc의 첫 번째 열과 각각 곱하 ᄋ
ᅧ 더해 계산한 가중평균값 (2 ∗ 0.275) + (3 ∗ 0.551) + (7 ∗ 0.174) = 3.421을구하고, 계산된가중평균값 3.421으로 x∗6,t1를대체한다. 이와 같은방법으로 계산하면 x∗7,t3는 7.080으로 대체된다.
Table 2.2 Example
i time d
a,bA M P weight
0 3 6 9 d
6,bd
7,bA
6,bA
7,bM
6,bM
7,bP
6,bP
7,bW
6,bW
7,bD
c1 2 3 7 9 2.828 3 1 0.5 1 1 1 0.75 0.275 0.206
2 4 6 8 7 4.243 1.414 0.5 1 0.75 0.437
3 1 4 7 5 3 4.358
4 3 4 6 7 1.414 1.732 1 0.5 1 1 1 0.75 0.551 0.357
5 7 3 6 5 2.236 4.690 0.5 0.5 0.5 0.174
D
m6 x
∗6,t13 5 7 7 4 5 x
∗7,t38
3. 모의실험 계획 및 결과 ᄇ
ᅩᆫ 논문에서 제안하는 PKNN 방법의 적합 수준을기존의 결측치 추정법의 결과와 비교해보고자 한 ᄃ
ᅡ. 여기서 비교하는기존방법은, 본제안 방법과 같이 국부적으로 자료를이용하여 결측치를추정하는 펴
ᆼ균 대체법, 핫덱 대체법 그리고 KNN 방법이다. 이때 핫덱 대체는 각 반복마다 랜덤으로 대체된다.
ᄄ
ᅩ한 KNN 방법과 제안 방법인 PKNN의 거리의 측도는유클리디안 거리와 상관계수 거리를각각 적용 ᄒ
ᅡ여 거리에 따른적합 수준도 비교하였다.
ᄇ
ᅵ교를 위한 모의실험에는 세 가지의 실제 마이크로어레이 자료를 사용하였다. 첫 번째 자료 A는 DeRisi 등 (1997)에 의해 6400개의 유전자를 7개의 시점에서 반복 측정한 자료이다. 두 번째 자료 B는 Spellman등(1998)에 의해 6,178개 유전자를 18개의 시점에서 실험한 자료로 alpha-factor 실험 부분에 ᄒ
ᅢ당하며 세 번째 자료 C는 Spellman등 (1998)에 의해 두 번째 자료와 같은 실험 중 CDC15실험 부
부
ᆫ으로 24개의관측시점을가지고 있다. 이 세 가지 자료들은각각 특성을가지고 있다. 자료 A는비 ᄌ
ᅮ기성을갖는 특징을가지고 있고, 자료 B는주기성과 비주기성이 혼합된 자료이며 자료 C는주기성 ᄋ
ᅳᆯ가지고 있는자료이다. 또한 A 자료는자료 B와 자료 C보다 유전자 간 상관성이 상대적으로 높다 (Kim 등, 2008). 모의실험에서는시간의 효율성을위해 전체 유전자 중에 랜덤으로 500개의 유전자를 이
ᆷ의추출하여 실험에 사용하였다.
와
ᆫ전임의결측가정 하에 1%, 5%, 10%의 결측을발생 시킨 후, 실제 자료의 참값과 추정치의 적합 수 주
ᆫ을알 수 있는정규화 제곱근평균제곱오차 (Normalized Root Mean Square Error: NRMSE)를사 ᄋ
ᅭ
ᆼ하여 기존방법과 제안 방법을비교평가하였다. 이때 NRMSE는다음과 같다.
N RM SE = 1 x′max− x′min
X(xij− x′ij)2 M
12
, (3.1)
ᄋ
ᅧ기서 xij는 실제값, x′ij는추정치, x′max 는추정치 중최댓값, x′min는추정치 중최솟값 그리고 M은 겨
ᆯ측치의 총개수를 나타낸다 (Kim과 Kim, 2018). 이는 실제 값과 대치된 값의 차이를전체 결측치에 ᄃ
ᅢ하여 계산하는방법으로, NRMSE가 작을수록 좋은추정치인 것을알 수 있다 (Lim과 Kim, 2015).
ᄆ
ᅩ의실험에 필요한 적절한 k의 개수를선택하기 위해 각 자료별로 k를 5부터 35까지 설정하여 그에 ᄄ
ᅡ른 NRMSE로 비교하였다. 결측비율에 따른자료 A의 NRMSE는대체로 k=5,6,7,8,9,10 일 때 가장 ᄂ
ᅡ
ᆽ았고 k가 커질수록계속 증가하였다. 자료 B와 C는 k=16,17,18,19,20 일 때 대체로 낮았고 k가 증 ᄀ
ᅡ해도 그 차이는 미미하였다. 따라서 모의실험에서 k의 개수는자료 A에서는 k=5,6,7,8,9,10으로 설 저
ᆼ하고, 자료 B와 자료 C는 k=16,17,18,19,20으로 설정한다. 이렇게 설정한 k를바탕으로 모의실험을 100번 반복수행하여 NRMSE들의 평균을구하였고, Table 3.1은모의실험의 결과를정리한 것이다.
ᄆ
ᅥᆫ저관측시점이 7개이고 비주기성인 자료 A에 대하여 살펴보면, 결측1%, 결측5%, 결측10%모든 ᄇ
ᅮ분에서 k의 개수에 상관없이 모든방면에서 유클리디안 거리를사용한 제안 방법 PKNN ec가 가장 ᄋ
ᅮ수한 성능을보였다. 상관계수 거리를사용한 제안 방법 PKNN r은유클리디안 거리를사용한 기존 ᄇ
ᅡᆼ법 KNN ec보다 좋은결과를얻지는 못했지만, 상관계수 거리를사용한 기존 방법 KNN r보다는 좋 ᄋ
ᅳ
ᆫ결과를보였다. 결측1%와 5%인 경우엔 k = 6일 때 제안 방법 PKNN ec가 가장 작은 NRMSE를가 ᄌ
ᅧᆻ고, 결측10%인 경우엔 k = 5일 때 제안 방법 PKNN ec가 가장 작은 NRMSE를가졌다.
ᄃ
ᅡ음으로, 관측 시점이 18개이고 비주기성과 주기성의 혼합형인 자료 B에서 결측1%일 때는 k개수의 ᄉ
ᅡᆼ관없이 유클리디안 거리를 사용한 제안 방법 PKNN ec가 기존방법보다확연한 차이로 좋았고 그중 k = 20 일 때 가장 우수한 성능을보였다. 상관계수 거리를사용한 제안 방법 PKNN r은가장 좋은결 ᄀ
ᅪ를 얻지는 못했지만 같은 상관계수 거리를사용한 기존방법 KNN r보다는 좋은 결과를 보였다. 결 ᄎ
ᅳᆨ5%와 결측10%인 경우에는제안 방법 PKNN ec가 k개수의 상관없이 가장 우수한 성능을보였고 그 ᄌ
ᅮᆼ에서도 k = 20 일 때 가장 작은 NRMSE를 가졌다. 또한 결측5%와 결측10%에서는결측1%인 경 ᄋ
ᅮ와는 다르게 k = 18, 19 일 때 제안 방법 PKNN ec 다음으로 상관계수 거리를 사용한 제안 방법 PKNN r이 우수한 성능을보였다. 마지막으로,관측시점이 24개이고 주기성인 자료 C에서는결측1%, 겨
ᆯ측5%, 결측10% 모든 부분에서 k의 개수에 상관없이 기존 방법 KNN ec가 가장 작은 NRMSE를 ᄀ
ᅡ졌고 다음으로 제안 방법 PKNN ec가 그 뒤를 따랐다. 하지만 기존 방법 KNN ec와 PKNN ec의 NRMSE값의 차이가 아주근소하기 때문에 성능의 차이가 그리 크지 않음을알 수 있었고 자료 B와 마 ᄎ
ᅡᆫ가지로 결측1%, 결측5%, 결측10%모든부분에서 k = 20일 때 가장 작은 NRMSE를가졌다.
ᄆ
ᅩ든 실험에서 공통적으로 평균대체법과 핫덱 대체법은다른대체법들에 비하여 NRMSE 값이확연하 ᄀ
ᅦ 안 좋은결과가 나왔음을확인할 수 있었고 기존방법인 KNN 방법과 제안 방법인 PKNN 방법을사 ᄋ
ᅭ
ᆼ할 때 쓰는거리의 측도로 상관계수 거리를사용하는것보다 유클리디안 거리를사용하는것이 더 우 ᄉ
ᅮ한 결과를 얻었다. 또한 결측의 비율이 커질수록 더 작은 NRMSE 값을 가지는이유는결측의 수가
ᄌ ᅳ
ᆼ가함에 따라 NRMSE 분모의 차이값이 커지기 때문이라고 볼수 있다.
Table 3.1 Result of NRMSE method
Data Missing k Mean Hotdeck KNN r PKNN r KNN ec PKNN ec
A
1%
5 1.4369563 0.6167935 0.1834744 0.1825878 0.1729461 0.1637332 6 1.4369563 0.5642317 0.1830478 0.1820398 0.17204 0.1631659 7 1.4369563 0.5739804 0.1816013 0.1810464 0.1739041 0.1635836 8 1.4369563 0.5984067 0.1825467 0.1821896 0.1753066 0.1649908 9 1.4369563 0.5907328 0.181777 0.1809436 0.1738257 0.1653096 10 1.4369563 0.5409723 0.1822461 0.1817029 0.1737993 0.1660917
5%
5 1.4762236 0.4807307 0.1174816 0.116204 0.0979964 0.0955149 6 1.4762236 0.5075003 0.118402 0.1171749 0.0981942 0.095501 7 1.4762236 0.9087424 0.1189734 0.1178679 0.0998502 0.0967219 8 1.4762236 0.562697 0.1202339 0.1188687 0.1011528 0.0978627 9 1.4762236 0.5103863 0.121386 0.1198744 0.1026043 0.0997028 10 1.4762236 0.6398929 0.1217731 0.1203835 0.1040034 0.1010452
10%
5 1.4679229 0.5428964 0.1101105 0.108749 0.0920937 0.0906523 6 1.4679229 0.5264631 0.1115543 0.1101267 0.0944928 0.0924994 7 1.4679229 0.6084164 0.112139 0.1106015 0.097121 0.0947035 8 1.4679229 0.5725861 0.1135947 0.1116146 0.0993779 0.0967085 9 1.4679229 0.5636828 0.1159987 0.1135921 0.1013539 0.0982746 10 1.4679229 0.5841708 0.1170307 0.1143637 0.1035545 0.1002371
B
1%
16 1.3206676 0.3875198 0.1065387 0.1065314 0.106321 0.0866736 17 1.3206676 0.3903229 0.1065254 0.1065187 0.1063181 0.0866688 18 1.3206676 0.3804818 0.106521 0.1063149 0.1065124 0.0866686 19 1.3206676 0.3918225 0.1065126 0.1063045 0.1065033 0.0866578 20 1.3206676 0.401758 0.1065024 0.1064941 0.1063002 0.0866526
5%
16 1.3404225 0.3942308 0.0924256 0.0924305 0.0922381 0.0732512 17 1.3404225 0.4069654 0.0924121 0.0924177 0.0922345 0.0732461 18 1.3404225 0.3993079 0.0924009 0.0922303 0.0924069 0.0732402 19 1.3404225 0.4012008 0.0923913 0.092226 0.0923966 0.0732367 20 1.3404225 0.3928603 0.092382 0.0923874 0.0922208 0.0732316
10%
16 1.347016 0.3916527 0.0903818 0.0904272 0.090199 0.0708711 17 1.347016 0.3863807 0.0903651 0.0904105 0.09019 0.0708609 18 1.347016 0.3924131 0.0903482 0.0901825 0.0903941 0.0708533 19 1.347016 0.3678491 0.0903342 0.0901755 0.0903803 0.0708466 20 1.347016 0.410558 0.090321 0.0903663 0.0901699 0.0708405
C
1%
16 1.992465 0.3295985 0.1205296 0.1205385 0.1201953 0.1202103 17 1.992465 0.3564422 0.1205207 0.1205303 0.1201829 0.1202016 18 1.992465 0.3463495 0.1205096 0.1205197 0.1201793 0.1201936 19 1.992465 0.3413144 0.1204987 0.1205097 0.1201729 0.1201869 20 1.992465 0.3379967 0.1204891 0.1205001 0.1201687 0.1201801
5%
16 2.0097848 0.3441447 0.1062596 0.1062871 0.1058659 0.1058933 17 2.0097848 0.3517275 0.1062411 0.1062694 0.1058555 0.1058837 18 2.0097848 0.3384077 0.1062227 0.1062521 0.1058468 0.1058748 19 2.0097848 0.3439657 0.1062056 0.1062357 0.1058382 0.1058667 20 2.0097848 0.3375861 0.1061911 0.1062221 0.1058293 0.1058575
10%
16 2.0129333 0.3454915 0.1038408 0.1039675 0.1034814 0.1035533 17 2.0129333 0.3525832 0.1038065 0.1039371 0.1034634 0.1035343 18 2.0129333 0.3411956 0.1037739 0.1039088 0.1034483 0.1035185 19 2.0129333 0.3541648 0.1037431 0.1038821 0.1034337 0.1035032 20 2.0129333 0.3439814 0.1037149 0.1038578 0.1034202 0.1034888
* KNN r: knn method using pearson correalation coefficient distance
* PKNN r: pknn method using pearson correalation coefficient distance
* KNN ec: knn method using euclidean distance
* PKNN ec: pknn method using euclidean distance
4. 결론 및 고찰 보
ᆫ 논문에서는마이크로어레이 자료에 대한 새로운결측치 대체 방법을제안하였다. 가장 많이 사용 ᄒ
ᅡ는 KNN 대체법과 시점의 상관성을 나타내는 패턴일치지수를 이용하여 PKNN 방법을 제안하였다.
ᄋ
ᅵ때 제안 방법인 PKNN과 기존 KNN에 사용하는거리의 측도를유클리디안 거리와 상관계수 거리로 ᄂ
ᅡ누고, 거리에 따른 결과도 비교하였다. 사용한 자료는 비주기성, 혼합형, 주기성의 자료로 총 3가지 ᄋ
ᅴ 각각 특성이 있는자료를사용하였다. 완전임의결측가정 하에 1%, 5%, 10%의 결측을발생시켜 모 ᄋ
ᅴ실험하였고, 결측치 추정의 적합 수준은 NRMSE 척도를이용하여 기존방법과 제안 방법을비교하였 ᄃ
ᅡ.
ᄆ
ᅩ의실험 결과 비주기성인 자료와 비주기성과 주기성의 혼합형인 자료에서 유클리디안 거리를사용한 ᄌ
ᅦ안 방법 PKNN이 가장 우수한 성능을보였다. 하지만, 주기성인 자료에서는유클리디안 거리를사용 ᄒ
ᅡᆫ 기존방법 KNN이 가장 좋았고 그다음으로 유클리디안 거리를사용한 제안 방법 PKNN이 좋은 결 ᄀ
ᅪ를얻었다. 대체적으로 상관계수 거리를사용한 제안 방법 PKNN은유클리디안 거리를사용한 기존 ᄇ
ᅡᆼ법 KNN과 유클리디안 거리를사용한 PKNN보다 좋지는않았지만 상관계수 거리를사용한 기존방 버
ᆸ KNN보다는더 좋은방법임을알 수 있었다.
ᄌ
ᅥᆫ체적으로 PKNN과 KNN의 NRMSE의 차이는 미비하였지만, 제안 방법 PKNN은 KNN 만큼이 ᄂ
ᅡ 간단하다는장점이 있고 패턴일치지수를가중치로 사용하여 시점에 따른상관성을고려하였기 때문 ᄋ
ᅦ KNN 보다 더 정확한 추정이 가능한 장점이 있다. 따라서 PKNN 방법을시간경로 마이크로어레이 ᄌ
ᅡ료의 특성에 맞춰 사용한다면 기존방법 보다 더 효율적으로 결측치를대체할 수 있을것이라 기대한 ᄃ
ᅡ. 즉,비주기성을갖는자료나 비주기성과 주기성이 혼합된자료에서는 본 논문에서 제안한 유클리디 ᄋ
ᅡᆫ 거리를사용한 PKNN 방법이 기존방법들보다 더 우수하다고 기대된다. 또한 다른자료보다 혼합 혀
ᆼ 자료에서 결측비율에 상관없이 유클리디안 거리를사용한 제안 방법 PKNN 방법이 기존방법들보 ᄃ
ᅡ 가장큰차이로 좋았기 때문에 비주기성과 주기성의 혼합된자료인 경우에는유클리디안 거리를사용 ᄒ
ᅡᆫ 제안 방법 PKNN을이용하는것이 효율이 높을것으로 기대된다.
References
Kim, H. and Kim, D. (2017). Imputation method for missing data based on measure of property. The Korean Journal of Applied Statistics, 30, 463-473.
Kim, J., Hwang, J. and Kim, S. (2006). A comparative study of microarray data with survival times based on several missing mechanism. The Korean Communications in Statistics, 13, 101-111.
Kim, K., Kim, B. and Yi, G. (2004). Reuse of imputed data in microarray analysis increases imputation efficiency. BMC Bioinformatics, 5, 160.
Kim, K., Oh, M., Baek, J. and Son, Y. (2008). Missing values estimation for time course gene expression data using the sequential partial least squares regression fitting. The Korean Journal of Applied Statistics, 21, 275-290.
Kim, S. (2017). A study on the spatial neighborhood in spatial regression analysis. Journal of the Korean Data & Information Science Society, 28, 505-513.
Kim, S. and Kim, D. (2018). Imputation method for missing data based on clustering and measure of property. The Korean Journal of Applied Statistics, 31, 29-40.
Lim, C. and Kim, D. (2015). On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation.
The Korean Journal of Applied Statistics, 28, 23-31.
Lee, S. (2015). Cross platform classi cation of microarrays by rank comparison. Journal of the Korean Data & Information Science Society, 26, 475-486.
Lee, S. and Lee, K. (2012). Detecting survival related gene sets in microarray analysis. Journal of the Korean Data & Information Science Society, 23, 1-11.
Son, Y. and Baek, J. (2005). A pattern consistency index for detecting heterogeneous time series in clus-
tering time course gene expression data. The Korean Journal of Applied Statistics, 18, 371-379.
2018, 29
(5)
,1179–1187
Imputation method for missing data based on KNN and pattern consistency index in microarray data
Sunyoung Lee
1
· Dongjae Kim2
12Department of Biomedicine · Health science, The Catholic University of Korea
Received 23 August 2018, revised 17 September 2018, accepted 20 September 2018
Abstract
The KNN imputation method is widely used as a missing-value imputation method in time course gene expression data. This method imputation the missing value by using k genes that are closest to the gene in which the missing value occurred. However, it has the inherent disadvantage that there may be neglecting the correlation between observation points. In this paper, we proposed a new missing value imputation method by applying the pattern consistency index proposed by Son and Baek to the KNN method. We also compared the performance between the established method and the suggested method through simulations of three yeast time course data.
Keywords: Imputation of missing values, k-nearest neighbors, microarray, pattern con- sistency index, time course gene expression data.
1
Researcher, Department of Biomedicine · Health Science, The Catholic University of Korea, 222, Banpo- daero, Seocho-gu, Seoul 137-701, Korea.
2