2014, 25
(5)
,971–986
유전자 발현 데이터에 대한 다중검정법 비교 및 분석
†
서수민
1
· 김태훈2
· 김재희3
13덕성여자대학교 정보통계학과 · 2덕성여자대학교 PrePharmMed 학과
접수 2014년 6월 3일, 수정 2014년 7월 1일, 게재확정 2014년 7월 11일
요 약
동시에 여러 개의 가설검정 수행시 귀무가설이 참일 경우 귀무가설을 기각할 확률이 커지는 문제
가 발생한다. 이러한 다중검정 문제 해결을 위해 여러 연구에서는 가설검정시 필요한 집단별 오류율 (FWER; family-wise error rate), 위발견율 (FDR; false discovery rate) 또는 위비발견율 (FNR;
false nondiscovery rate) 과 통계량을 고려하여 검정력을 높이고자 하였다. 본 연구에서는 T 통계 량, 수정된 T 통계량, 그리고 LP E (local pooled error) 통계량 기반 P 값을 이용한 Bonferroni (1960) 방법, Holm (1979) 방법, Benjamini와 Hochberg (1995) 방법과 Benjamini와 Yekutieli (2001) 방법 그리고 Z 통계량 기반 Sun과 Cai (2007) 방법을 고찰하고 모의실험을 통해 다중검정 능 력을 비교하였다. 또한 실제 데이터로 애기장대 유전자 발현 데이터에 대해 여러 가지 다중검정법을 통해 유의한 유전자들을 선별하였다.
주요용어: 다중검정, 애기장대, 유전자 발현 데이터, 위발견율, 위비발견율, 집단별 오류율.
1. 서론
동시에 여러 개의 가설검정을 수행해야하는 경우 다중검정 (multiple tesing) 문제를 고려해야한다.
특히 수백 수천 개의 가설들을 동시에 검정해야하는 대규모 다중비교 (large-scale multiple compari- son)의 경우 귀무가설이 참인 경우와 그렇지 않은 경우를 구별해내는 것이 연구 목표가 된다. 이러한 경 우 각 가설에 대한 검정통계량으로부터 얻을 수 있는 정보, 제 1종 오류 등에 대한 고려가 필요하며 여 러개의 연관된 가설검정으로부터 얻은 통계량을 동시에 분석하고 해석하여 결론을 이끌어내는데 오류 가 없는 작업이 필요하다.
생물의학연구에서는 종양을 분류하거나 박테리아 감염에 반응하는 주요 유전자를 식별하기 위하여 마 이크로어레이 (microarrays) 실험을 시행한다 (Golub 등, 1999; Boldrick 등, 2002; Alon 등, 1999;
Dudoit 등, 2003). 이 때 수천 개의 유전자에 대한 동시에 일어나는 가설검정을 위해 다중검정법이 사 용되며, 수천 개의 유전자 중 관심 있는 반응변수와 관련 있는 표현수준을 갖는 유전자를 동시에 식별하 는것이 중요한 문제이다. 이 때 만약 다중검정법을 적용하지 않는다면 귀무가설이 참일 경우 귀무가설 을기각할 확률이 커지는 문제가 발생한다 (Dudoit 등, 2003; Jang, 2013).
†
이 논문은 2013년도 정부 (교육과학기술부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업
(NRF:2013-05-2958) 입니다.
1
(132-714) 서울시 도봉구 삼양로 144길 33, 덕성여자대학교 정보통계학과, 석사과정.
2
(132-714) 서울시 도봉구 삼양로 144길 33, 덕성여자대학교 PrePharmMed 학과, 교수.
3
교신저자: (132-714) 서울시 도봉구 삼양로 144길 33, 덕성여자대학교 정보통계학과, 교수.
E-mail: [email protected]
여러 연구자들에 의해 제 1종 오류와 통계량에 초점을 둔 다중검정법들이 제안되었다. Bonferroni (1960) 방법은 다중비교 가설검정시 집단별 오류율 (FWER; family-wise error rate)을 α로 조절하였 으며, Holm (1979)은 순서통계량 P 값을 이용함으로써 Bonferroni 방법보다 검정력을 높였다. Ben- jamini와 Hochberg (1995)는 독립인 검정통계량들에 대하여 위발견율 (FDR; false discovery rate)을 조절하는 절차를 제안하였고 Benjamini와 Yekutieli (2001)는 비독립 구조 (dependence structure)를 고려한 F DR을 조절하는 방법을 제안하였다. Jain 등 (2003)은 기존의 다중검정법에 LP E (local pooled error) 통계량을 적용함으로써 다중비교 검정력을 평가하였다. 또한 Sun과 Cai (2007)는 Z 통 계량 기반 Lf dr 통계량을 적용한 다중검정법을 제안하였으며 P 값 기반 다중검정법과 비교하여 검정력 을 평가하였다. 여기서 Lf dr 통계량은 Efron(2001, 2010)에 의해 제안되었으며 최근 널리 쓰이고 있는 추세이다.
본 연구에서는 주로 사용되는 다중검정법을 설명하고 모의실험과 실제데이터 분석을 통해 여러 다중 검정법을 비교하고자한다. 2절에서는 다중검정문제와 오류율에 대해 설명한다. 3절에서는 다중검정시 이용되는 통계량들을 설명하고 4절에서 여러 가지 다중검정법을 소개한다. 5절에서는 앞에서 논의한 다 중검정법들에 대해 모의실험을 통해 비교하고 6절에서는 애기장대 유전자 데이터에 다중검정법을 적용 하고 비교하고 해석한다. 마지막으로 7절에서 간단한 결론과 추후 연구에 대한 논의를 한다.
2. 다중비교와 오류율
다중비교가설검정시 m개 유전자에 대한 관심 가설은 다음과 같다. 각 유전자 genej, j = 1, 2, · · · , m 에 대해 차별화 여부에 대한 각 가설을 고려하고자한다.
H0j: genej가 다르게 발현되지않았다 (nondifferentially expressed) vs.
H1j: genej가 다르게 발현되었다 (differentially expressed).
m개 가설검정에 대한 결과로 Table 2.1과 같이 정리할 수 있다. 여기서 m은 가설검정의 개수로 즉 유 전자 수이다. R은 귀무가설을 기각하는 개수로 관측할 수 있는 확률변수이고, U, V, S, T 는 관측할 수 없는 확률변수이다.
Table 2.1 Results from testing m null hypotheses simultaneously Number not rejected Number rejected
True null hypotheses U V m
0Non-true null hypotheses T S m
1= m − m
0m − R R m
여러 개 가설검정을 동시에 다룰 경우 적절한 오류율에 대한 정의가 필요하며, 다음과 같이 정의된다.
2.1. 오류율
(1) 집단별 오류율 (FWER; family-wise error rate) : 다중비교 가설검정시 최소한 하나 또는 그 이 상의 제 1종 오류가 발생할 확률을 의미 한다.
F W ER = P r (V ≥ 1) = P r (Reject any true H0j, j = 1, . . . , m) . (2.1) (2) 위발견율 (FDR; false discovery rate) : 귀무가설을 기각한 경우 실제 귀무가설이 참인 오류를
범할 확률이다.
Q = V
R, F DR = E V R
(2.2) 이 때, R = 0이면 Q = 0으로 정의한다.
(3) 위비발견율 (FNR; false nondiscovery rate) : 귀무가설을 기각하지 않은 경우 실제 귀무가설이 참이 아닌오류를 범할 확률이다.
F N R = E
T m − R
(2.3) 이 때 m − R = 0이면 F N R = 0이 된다.
3. 다중검정 통계량
다중검정을 위한 기존 연구 방법을 살펴보고 특징을 파악하기 위해 다중검정법에 이용되는 통계량에 대해 정리하고자한다. 통제 (control) 그룹에는 n1 개 개체가 있으며 처리 (treatment) 그룹에는 n2개 개체가 있다. 통제그룹의 데이터는 X = (xjk), j = 1, · · · , m, k = 1, · · · , n1 으로 m × n1 행렬로 구성되며, 처리그룹의 데이터는 Y = (yjk), j = 1, · · · , m, k = 1, · · · , n2 으로 m × n2 행렬로 구성 된다. 데이터 구조와 통계량에 대한 표기는 Table 3.1에서 보여준다.
Table 3.1 Data structure and notations of statistics
Raw data Statistics
Gene num. Control Treatment T stat. mod. T stat. P value Z stat. LP E stat.
1 x
11, · · · x
1n1y
11, · · · y
1n2t
1d
1p
1z
1lpe
12 x
21, · · · x
2n1y
21, · · · y
2n2t
2d
2p
2z
2lpe
2. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
m x
m1, · · · x
mn1y
m1, · · · y
mn2t
md
mp
mz
mlpe
m3.1. T 통계량
통제그룹과 처리그룹의 비교를 위한 j번째 유전자에 대한 T 통계량 (T statistic)은 다음과 같다.
tj= xj− yj
spjp(1/n1+ 1/n2), s2pj= (n1− 1)s21j+ (n2− 1)s22j
(n1− 1) + (n2− 1) (3.1) 여기서 xj는 통제그룹의 j번째 유전자에 대한 평균이고 yj는 처리그룹의 j번째 유전자에 대한 평균이 다. s21j는통제그룹의 j번째 유전자에 대한 분산이고 s22j는 처리그룹의 j번째 유전자에 대한 분산이다.
s2pj는 j번째 유전자의 두 그룹에 대한 통합된 (pooled) 분산이다.
3.2. 수정된 T 통계량
Tusher 등 (2001)은 각 유전자의 변동성을 고려한 수정된 T 통계량 (modified T statistic)을 제안하 였으며 다음과 같다.
dj= xj− yj sj+ s0
, sj= v u uta
"n1 X
k=1
(xjk− xj)2+
n2
X
k=1
(yjk− yj)2
#
(3.2)
여기서 a = (1/n1+ 1/n2)/(n1+ n2− 2)이며, s0는 dj의변동계수를 최소화하는 값으로 sj의 분위수로 정의된다.
3.3. P 값
P 값 (P value)은 귀무가설이 옳다는 가정 하에 얻어진 검정통계량보다 더 극단적인 결과가 나올 확 률로, 양측 검정일 경우 다음과 같다.
pj(t) = 2 × min{P r(T ≤ t|H0), P r(T ≥ t|H0)} (3.3) P 값은 확률이므로 (0, 1) 사이의 값을 가지며, pj(t) ∼ U (0, 1)을 따른다.
3.4. Z 통계량
Z 통계량, z1, . . . , zm은 4절 다중검정법의 식(4.6)에서 설명하는 혼합 모형에서 얻은 값으로, j번째 유전자에 대하여 두 그룹을 비교하기 위해 구한 T 통계량에 대해 zj = Φ−1(F (tj))으로 구한 값이다.
여기서 F 는 tj의 분포함수이고 Φ는 표준정규변수의 누적분포함수이다.
3.5. LP E 통계량
LPE (local-pooled error test) 방법은 Jain 등 (2003)에 의해 제안되었으며 실험상황에 따라 분산변 동이 클 때반복수가 작은 경우에도 다중비교로서 효과적인 방법이다. 기존의 방법들과는 달리 변동성 에 대한 보정을 하였으며, 분산변동이 큰 경우 유의한 유전자를 선별하지 않게 되는 경향이 있다. LP E 통계량은 유전자들 간의 오차와 발현 값이 비슷한 유전자들의 반복에 따른 오차에 기반한 추정량으로 실 험상황에 따라 분산이 동일하지 않은경우에도 유용하다. 구간별로 로그 값 (log-intensity)이 정규분포 를 따른다면, 반복수가 작아도 LP E 통계량은 정규성을 만족한다. LPE 방법은 자료의 구간별 오차추 정값을 구하여 검정에 사용하며, 통계량을 구하는 과정은 다음과 같다.
(1) 각각의 실험 조건에 대해 MA plot을 그린다. MA plot은 마이크로어레이 데이터의 분포를 그래 프로 나타내고, 이 그래프로 데이터가 표준화 되어있는지를 알 수 있다.
M = log2(xjk/yjk) = log2xjk− log2yjk
A = log2√
xjkyjk=1
2(log2xjk+ log2yjk) (3.4) 여기서 xjk는통제그룹 j번째 유전자의 k번째 표본의 측정값을, yjk는 처리그룹 j번째 유전자의 k번째 표본의 측정값을 나타낸다.
(2) 모든 반복된 실험으로부터 기준오차분포 (baseline error distribution)를 계산한다. 이 분포는 각 조건에서 두 단계 과정을 거쳐 추정된다.
(i) MA plot에 대하여 A에 대한 분위수로 구간을 나눈 후 각 구간 내의 오차 추정값을 구한 다. 여기서 분위수는 A에 대해 같은 수의 유전자를 포함하도록 정한 것이다.
(ii) 분위수 오차추정값 (quantile error estimate)의 비모수회귀 적합을 한다.
(3) 각 유전자에 대해 LP E 통계량을 구한다.
lpej= med1j− med2j
σpj
(3.5) 여기서 medij, i = 1 (통제그룹), 2 (처리그룹), j = 1, 2, · · · , m는 j번째 유전자의 i번째 그룹 의 중앙값이고, σpj는 j번째 유전자의 두 그룹에 대한 통합된 (pooled) 표준편차 이다.
σpj= s
π 2
σ21j(med1j) n1
+σ2j2 (med2j) n2
(3.6)
여기서 σij2(medij), i = 1, 2, j = 1, 2, · · · , m는 j번째 유전자의 i번째 그룹의 lpe 기준오차분포 로부터 구한 중앙값에서의 분산추정량이다.
(4) LP E 통계량에 대하여 F W ER 또는 F DR을 조절하여 P 값 조정을 한 후 검정한다.
4. 다중검정법
대량 유전자 데이터에 대한 연구 진행과정에서 앞에서 정의한 오류율과 통계량을 적용한 다중검정법 연구가 활발히 진행되었다. 널리 쓰이는 다중검정법으로 P 값 기반 여러 가지 다중검정법과 Z 통계량 기반 다중검정법을 설명하고 각 특성을 파악하고 장단점을 설명하고자한다.
4.1. P 값 기반 다중검정법 4.1.1. Bonferroni 방법
Bonferroni (1960) 방법은 다중비교 가설검정에 사용되는 고전적인 F W ER 조절방법으로 제 1종 오 류는 다음과 같이 α 로 조절된다.
F W ER = P r
m0
[
j
pj≤ α m
!
≤
m0
X
j
P r
pj≤ α m
≤ m0
α m ≤ mα
m= α (4.1) 각각의 가설들은 실험별 오류율인 αE(= α/m) 하에서 검정되며, 또한 다음과 같이 나타낼 수 있다.
F W ER = P r (V ≥ 1)
= P r
m
[
j=1
[reject H0j|H0jis true]
!
= 1 − P r
m
\
j=1
[accept H0j|H0jis true]
!
= 1 −
m
Y
j=1
(1 − αE)
= 1 − (1 − αE)m< α (4.2) F W ER = α로 놓고 α = 1 − (1 − αE)m를 풀면 αE = 1 − (1 − α)m1이다. 예를 들어, α = 0.05, m = 1000인 경우 αE= 0.0000513이 되어 각 실험별 오류율이 매우 작아진다. 따라서 Bonferroni (1960) 방 법은 고정된 유의수준 α에서 m이 클수록 귀무가설을 기각하기 어려운 다중검정이다.
4.1.2. Holm 방법
Holm (1979)의 방법은 F W ER을 고려한 방법으로 m개의 동시에 일어나는 다중비교 가설검정시 수 정된 P 값으로 제 1종 오류를 조절하며, 각각의 가설에 대하여 통계량을 순차적으로 배열 후 검정된다.
순차적으로 가설을 기각하는 Holm의 절차는 다음과 같다.
(1) p(1)≤ p(2)≤ · · · ≤ p(m)을 관측된 순서통계량 수정되지 않은 P 값 이라고 하자.
(2) j∗= min{j : p(j)>(m−j+1)α }이라 하자. j(= 1, . . . , j∗− 1) < j∗일 때 귀무가설을 기각한다. 만 약 어떠한 j∗도 존재하지 않으면 모든 귀무가설을 기각한다.
이와 같은 과정에서의 Holm의 수정된 P 값은
pe(j)= max
k=1,...,j{min((m − k + 1)p(k), 1)} (4.3) 이다.
고전적인 Bonferroni 방법에서는 각각의 가설에 대한 통계량이 α/m과 비교되어 귀무가설의 기각여 부가 결정되었지만 Holm 방법 (sequentially rejective Bonferroni test)에서는 각각의 통계량이 α/(m−
j + 1)와 비교되므로 Bonferroni 방법을 적용했을 때 보다 좀 더 많은 가설을 기각하게 된다. 거의 모든 귀무가설이 참일 때, Bonferroni 방법과 Holm 방법에서의 검정력의 차이는 크지 않지만 많은 귀무가설 이기각될수록 두 방법의 검정력 차이는 커진다. Bonferroni 방법에서처럼 Holm 방법의 큰 장점은 검 정통계량의 유형에 제약을 받지 않아 유연성이 있다는 점이다.
4.1.3. Benjamini와 Hochberg 방법
Benjamini와 Hochberg (1995)는 독립인 검정통계량들에 대하여 F DR을 조절하는 다음의 절차를 고 안하였다. 이 절차는 P 값이 있는 경우에만 가능한 방법이다.
(1) p(1)≤ p(2)≤ · · · ≤ p(m)은 수정되지 않은 P 값으로 순서통계량이다.
(2) jBH∗ = max{j : p(j)≤ mjα}를 구한다.
(3) jBH∗ 이 존재하면, p(1) ≤ p(2) ≤ · · · ≤ p(jBH∗ )에 해당하는 귀무가설을 기각한다. 만약 jBH∗ 이 존 재하지 않으면 어떠한가설도 기각하지 않는다.
이러한과정에서 Benjamini와 Hochberg의 수정된 P 값은 다음과 같이 정의된다.
pe(j)= maxh minm
kp(k), 1i
(4.4) Bonferroni 방법에서는 각각의 가설에 대한 제 1종 오류를 mα으로 조절하지만 Benjamini와 Hochberg 방법에서는 각각의 가설을 mjα로 조절한다. 따라서 Benjamini와 Hochberg 방법은 Bonferroni 방법보 다통계적으로 유의미한 유전자를 가능한 한 많이 식별하며 검정력을 높인다.
4.1.4. Benjamini와 Yekutieli 방법
Benjamini와 Yekutieli (2001)는 상호 관련이 있는 구조에서 F DR을 조절하는 방법을 고안하였으며, 수정된 절차를 위한 수정된 P 값은 다음과 같이 정의된다.
pe(j)= min
k=j,...,m
"
min m Pmj=11j k p(k), 1
!#
(4.5) Benjamini와 Hochberg (1995) 방법에서는 p(k)에 m/k의 패널티 (penalty)가 주어지지만, Ben- jamini와 Yekutieli 방법에서는 p(k)에 mPm
j=1 1
j/k의 패널티 (penalty)가 주어진다는 점에서 Ben- jamini와 Hochberg 방법과 차이가 있다.
4.2. Z 통계량 기반 F DR 다중검정법
Sun과 Cai (2007)는 다중검정문제를 가중 분류문제로 다루어 F DR 조건하에서 F N R을 최소화하는 Z 통계량 기반 방법을 제안하고 P 값 기반 F DR 조절방법보다 효율적임을 보였다. θ1, . . . , θm은 관측
되지않은 확률변수로 서로 독립인 Bernoulli(p)를 따른다고 하자. 관측값 Xj는 다음과 같은 혼합모형 을 따른다고 할 수 있다.
Xj|θj∼ (1 − θj)F0+ θjF1 (4.6) 즉 Xj의 주변분포는 F (x) = (1−p)F0(x)+pF1(x)이고, 확률밀도함수는 f (x) = (1−p)f0(x)+pf1(x)이 며 여기서 f 는 연속함수이다. 목표는 θi = 0 (null)와 θi= 1 (nonnull)을 분리해내는 분류문제로 다중 검정문제를 해결하는 것이며 이때의 결정규칙 (decision rule)을 δ = (δ1, . . . , δm) ∈ I = {0, 1}m으로 표현할 수 있다. 여기서 결정규칙 δ(x)는 검정통계량 T (x) = [Ti(x) < ci : i = 1, . . . , m]와 문턱값 (threshold)에 의존하여 정의된다.
δ(x) = I(T (x) < c) = [I(Ti(x) < ci) : i = 1, . . . , m] (4.7) 그러므로 δ는 가중분류 (weighted classification) 문제와 다중비교문제에 사용될 수 있다. T (Xi) ∼ G = (1 − p)G0+ pG1라고 가정하며, 여기서 G0는 T (Xi)의 귀무가설하에서의 분포이고 G1은 T (Xi)의 대립가설하에서의 분포이다. 그러면 T (Xi)는 확률밀도함수 g = (1 − p)g0+ pg1을가지며 T (Xi)의 우 도비 g1(t)/g0(t)는 t에 대해 감소한다. Sun과 Cai (2007)는 p, f0, f1이 알려져 있는경우 최적의 결정 규칙 (oracle rule)은
δi= I
Λ(xi) = (1 − p)f0(xi) pf1(xi) < 1
λ
, i = 1, . . . , m (4.8) 임을보였다. Z 통계량 기반 다중검정 문제를 해결한 방법은 다음과 같다:
(1) tj를 j번째 유전자에 대하여 두 그룹을 비교하기 위해 구해진 T 통계량이라고 할 때, T 통계량은 zj= Φ−1(F (tj))으로 변형된다. 여기서 F 와 Φ는 각각 tj와 표준정규변수의 누적분포함수이다.
이 때 Z 통계량, z1, . . . , zm은 혼합모형 식(4.6) 에서 얻은 랜덤표본이다.
(2) 다중검정문제를 위한 최적의 결정규칙은 다음과 같다.
δλ(α)[Λ, 1/λ(α)] = [I{Λ(z1) < 1/λ(α)}, . . . , I{Λ(zm) < 1/λ(α)} (4.9) 여기서 Λ(z) = Lf dr(z)/[1 − Lf dr(z)]이고, Λ(z)는 Lf dr(z)에서 단조 증가 (monotone increas- ing) 함수이며, 기각역 1/λ(α)는 명확하지 않다 (not obvious).
(3) Lf dr(z) = (1 − p)f0(z)/f (z)으로 Local F DR이며, Lf dr 통계량을 다음과 같이 나타낸다 (Efron, 2001, 2010).
TbOR(zj) =
"
(1 −p) bbf0(zj) f (zb j)
#
∧ 1 (4.10)
여기서 OR은“Oracle”을 나타내며, 추정하고자 하는 모수를 모두 알고 있음을 나타낸다. bp, bf0, fb1은 p, f0, f1에 대한 일치추정량 (consistent estimator)이다. 귀무가설하에서 Z 통계량이 (또 는 f0가) N (µb0,bσ20) 분포를 따른다는 가정하에 귀무가설이 아닌 경우의 비율로 p를 추정하고b f 은 커널밀도함수 추정량을 사용할 수 있다. Tb OR(Zi)는 주변분포함수 GOR = (1 − p)G0OR+ pG1OR으로 분포되며, 여기서 G0OR와 G1OR은 TOR(Zi)의 귀무가설과 대립가설하에서의 주변분포 함수이다. TOR(Zi)의 확률밀도함수가 g = (1 − p)go+ pg1이고, TOR(Zi)는 단조우도비 (mono- tone likelihood ratio; MLR)의 가정을 만족한다고 가정한다. 즉 g1(t)/g0(t)는 t에서 감소한다.
(4) 위에서 정의한 결정규칙
δ(TOR, λ∗) = {I[TOR(zj) < λ∗], j = 1, . . . , m} (4.11)
의 mFDR (marginal FDR)은
QOR(λ∗) = (1 − p)G0OR(λ∗)
GOR(λ∗) (4.12)
이다. 여기서 QOR에 대한 추정통계량은
QbOR(λ∗) = Pm
j=1I{ bTOR(zj) < λ∗} bTOR(zj) Pm
j=1I{ bTOR(zj) < λ∗} (4.13) 으로 구할 수 있다. 문턱값은 bλ∗OR = sup{t ∈ (0, 1) : bQOR(t) ≤ α}로 추정한다. bTOR의 순서통계량들의 집합 R = { [Lf dr(1), . . . , [Lf dr(m)}에서 검정값을 고려하며, 추정된 mF DR은 QbOR( [Lf dr(q)) = 1qPq
j=1Lf dr[(j)로 줄여서표현할 수 있다. 이때 제안하는 절차는 다음과 같다.
q = max
"
j : 1 j
j
X
l=1
Lf dr[(l)≤ α
#
(4.14)
이면 Hj, j = 1, . . . , q 를 모두 기각하며, F DR이 α로 조절된다. Z 통계량 기반 Lf dr(z) 통계량 은우도비 (likelihood ratio; LR)에 따라 순서대로 배열되므로 만약 대립가설의 분포가 귀무가설 분포에대하여 대칭이 아니라면 P 값 기반 순서통계량과는 다르다. Lf dr(z) 통계량을 사용할 경 우 기각역이 비대칭이므로 좀 더 극단에 있는 값을 채택하고, 좀 덜 극단에 있는 값은 기각하는 것 이가능해지므로 P 값 기반 절차보다 효율적으로 검정할 수 있다.
5. 모의실험
실제 유전자 데이터에 적용하기에 앞서 모의실험을 통해 앞 절에서 설명한 다중검정법들의 결과에 대 한 비교를 하고자한다. 다중비교 검정 모의실험 데이터는 다음과 같이 발생하였다. 통제그룹의 데이터 는 Xjk
iid∼ N (0, 1), j = 1, . . . , m, k = 1, . . . , n1이며, 처리그룹의 데이터 Yjk는 다음과 같이 여러 가지 경우를 고려한다. 여기서 j = 1, . . . , m, k = 1, . . . , n2이다.
(1) Yjk
iid∼ N (0, 1) (2) Yjk
iid∼ N (1, 1) (3) Yjk
iid∼ N (2, 1) (4) Yjk
iid∼ N (3, 1) (5) Yjk
iid∼ N (4, 1)
여기서 m은 가설의 개수를 나타내며, n1은통제그룹의 표본 수를, n2는 처리그룹의 표본 수를 나타낸 다. 각 모의실험에서 m = 1000, n1 = 5, n2= 5인 랜덤 데이터를 생성하였으며 100번 반복 실험을 수 행하였다.
다중검정법의 결과 비교를 위해 각 실험상황에서 귀무가설 기각 개수, 민감도 (sensitivity)와 특이도 (specificity)를 계산하였다. 민감도는 귀무가설이 거짓일 때 귀무가설을 기각한 경우를 나타내며, 특이 도는 귀무가설이 참일 때 귀무가설을 채택한 경우를 나타낸다. 이 때 민감도와 특이도는 0 에서 1 사이 의값을 가진다.
민감도 = S/m1, 특이도 = U/m0 (5.1)
검정 결과 귀무가설의 과도한 기각으로 민감도가 커지고, 너무 적은 수의 귀무가설 기각으로 특이도가 커지는 문제가 있기 때문에 다중검정법의 검정력 평가 시 두 값을 모두 고려해야한다.
Table 5.1은 처리그룹에서 m1 = 100개의 데이터가 통제그룹의 데이터와 다르다고 가정할 경우 각 방 법별 기각 개수를 나타낸 표이며, Table 5.2와 Table 5.3은 Table 5.1의 결과에 대한 민감도와 특이도를 계산한 표이다.
모의실험 결과 4절에서 소개한 다중검정법들 중 T 통계량 기반 Benjamini와 Hochberg 방법에서 선 별된 가설의 개수가 가장 많았으며, LP E 통계량 기반 Bonferroni 방법이 가장 적은 수의 가설이 선별 되는경향을 보였다. 각 검정법의 기각된 가설수를 살펴보면 raw P 값의 경우 그룹 간 동일한 분포를 가 정했음에도 많은 수의 가설이 기각되었으며, 그룹 간 평균의 차가 있을 때 과도한 수의 가설이 기각되었 다. T 통계량 기반 Benjamini와 Hochberg 방법을 적용했을 때 그룹 간 평균의 차이가 2일 때 가정된 차별화 된 수만큼 가설을 선별했으며, 민감도와 특이도에서도 높은 값을 나타냈으나, 그룹 간 평균의 차 이가 3 또는 4 일 때에는 가정된 차별화 된 수보다 많은 가설을 선별하였다. 그룹 간 평균의 차이가 4일 때 T 통계량 기반 Bonferroni 방법과 Holm 방법, LP E 통계량 기반 Benjamini와 Hochberg 방법 그 리고 Z 통계량 기반 다중검정법에서 가정된 차별화 된 수만큼 가설을 선별하였으며, 민감도와 특이도에 서도 높은값을 나타내었다. Z 통계량 기반 다중비교 검정 시에는 그룹 간 평균의 차가 크지 않을 때 문 턱 값이 정의되지 않는 문제로 차별화된 가설을 선별할 수 없었으며, 따라서 민감도와 특이도가 계산되 지 않았다. 그러한 경우는 NA로 표기되었다.
Table 5.1 Numbers of rejected hypotheses from multiple testing methods with 100 repetitions in simulation (m
1= 100, m = 1000)
Treatment group α T stat. LPE stat. Z stat.
raw p Bonf. Holm BH BY Bonf. BH BY
N (0, 1) 0.05 84.8 3.8 3.8 8.1 3.2 0.01 0.01 0 NA
0.10 138.0 4.7 4.7 12.0 4.3 0.01 0.01 0 NA
N (1, 1) 0.05 118.2 8.6 8.7 23.2 9.3 0.03 0.03 0 NA
0.10 176.7 10.4 10.5 33.9 12.1 0.06 0.06 0.01 NA
N (2, 1) 0.05 162.6 32.6 32.7 79.4 46.1 2 9.4 1.0 NA
0.10 214.8 37.0 37.3 99.9 54.9 3.35 20.1 1.9 0.02
N (3, 1) 0.05 176.6 74.9 75.3 117.5 93.6 26.8 78.4 46.2 14.4
0.10 224.6 79.6 80.1 132.4 100.5 33.3 88.1 58.3 70.4 N (4, 1) 0.05 176.0 98.3 98.7 122.5 107.0 79.9 99.8 94.5 85.7 0.10 223.9 100.3 100.6 134.4 110.8 84.5 101.7 96.7 101.9
Table 5.2 Sensitivity analysis of multiple testing methods with 100 repetitions in simulation (m
1= 100, m = 1000)
Treatment group α T stat. LPE stat. Z stat.
raw p Bonf. Holm BH BY Bonf. BH BY
N (0, 1) 0.05 0.082 0.004 0.004 0.008 0.003 0.0001 0.0001 0 NA
0.10 0.137 0.005 0.005 0.011 0.004 0.0001 0.0001 0 NA
N (1, 1) 0.05 0.399 0.050 0.050 0.119 0.052 0.0002 0.0002 0 NA
0.10 0.504 0.058 0.059 0.160 0.067 0.0003 0.0003 0 NA N (2, 1) 0.05 0.871 0.297 0.299 0.621 0.405 0.02 0.093 0.010 NA 0.10 0.926 0.333 0.336 0.714 0.471 0.033 0.197 0.019 0.0002 N (3, 1) 0.05 0.994 0.718 0.722 0.953 0.858 0.268 0.778 0.462 0.144
0.10 0.998 0.757 0.762 0.976 0.895 0.333 0.859 0.582 0.704
N (4, 1) 0.05 1 0.953 0.955 0.999 0.989 0.798 0.989 0.945 0.852
0.10 1 0.965 0.966 0.999 0.993 0.845 0.995 0.966 0.982
Table 5.3 Specificity analysis of multiple testing methods with 100 repetitions in simulation (m
1= 100, m = 1000)
Treatment group α T stat. LPE stat. Z stat.
raw p Bonf. Holm BH BY Bonf. BH BY
N (0, 1) 0.05 0.915 0.996 0.996 0.992 0.997 1 1 1 NA
0.10 0.862 0.995 0.995 0.988 0.996 1 1 1 NA
N (1, 1) 0.05 0.913 0.996 0.996 0.987 0.996 0.999 0.999 1 NA
0.10 0.860 0.995 0.995 0.980 0.994 0.999 0.999 0.999 NA
N (2, 1) 0.05 0.916 0.997 0.997 0.981 0.994 1 0.999 1 NA
0.10 0.864 0.996 0.996 0.968 0.991 0.999 0.999 0.999 0.02 N (3, 1) 0.05 0.914 0.997 0.997 0.975 0.991 1 0.999 0.999 0.740
0.10 0.861 0.996 0.996 0.961 0.988 0.999 0.997 0.999 0.998 N (4, 1) 0.05 0.916 0.997 0.997 0.975 0.991 0.999 0.999 0.999 0.999 0.10 0.862 0.996 0.996 0.962 0.987 0.999 0.997 0.999 0.996
6. 실제 데이터 분석
실제 유전자 데이터 선별 문제에 대해 4절에서 설명한 다중검정법들을 적용하여 결과에 대한 비교를 하고자한다. 두 그룹 애기장대 (Arabidopsis) 유전자 데이터에 대해 다중검정법을 수행하여 차별화된 유전자들 선별 결과를 비교해보고자 한다. 연구 결과 비교를 위해 통계 프로그램 R 버전 3.01을 사용하 였으며 R 패키지로는 multtest, LPE를 이용하였다.
6.1. 애기장대 유전자 데이터 분석 6.1.1. 애기장대 유전자 데이터 설명
애기장대는 피자식물로서 염색체수가 적고 생활환이 짧아 유전학자들에 의하여 유전자량이나 유전자 의 상호작용 등에 가장 많이 연구되는 식물 중 하나이다. 본 연구에 사용된 애기장대 데이터는 DFPM ([5-(3, 4-dichloropheny1) furan-2-yl]-piperidine-1-ylmethanethione) 처리에 반응하는 유전자 선별을 위해 실험하여 얻어진 자료이다. DFPM은 비생물학적 환경 (abiotic) 스트레스 신호전달과정과 식물의 면역 신호전달과정 사이의 상호작용의 기작 연구에 유용하게 사용되는 신 합성물질이다. 통제그룹과 처 리그룹이각각 3개의 표본으로 구성되어 있으며, 각 표본에 총 22,810개의 유전자 프로브 (probe)를 포 함한 데이터가 분석에 사용된다 (Kim 등, 2011; Kim 등, 2012).
6.1.2. 애기장대 유전자 데이터의 다중검정 결과
애기장대 유전자 데이터에 대하여 T 통계량과 수정된 T 통계량을 통한 P 값 기반 다중검정법과 LP E 통계량을 적용한 다중검정법, 그리고 Z 통계량 기반 Lf dr 통계량을 적용한 다중검정법에 대한 검정력을 비교하고자 한다.
애기장대 유전자 데이터에 P 값을 기반으로 하고 F DR과 F W ER을 조절한 다중비교방법을 적용하 였다. Figure 6.1과 Figure 6.2는 각각 T 통계량과 수정된 T 통계량을 적용한 가설검정 결과를 나타내 며, 다중검정법에 따라 (T 통계량, -log(수정된 P 값))를 그린 그림이다. T 통계량이 크고 P 값이 작을 수록 귀무가설을 기각하게 되어 차별화된 유전자라고 할 수 있으며 따라서 y축의 값이 클수록 차별화된 유전자가 되며, 각 다중검정법에 따라 수정된 P 값이 다르므로 검정 결과 차별화된 유전자 개수가 다르 게 나타나게 된다.