유전자 공동발현 연관성 측정법 - Prediction method of condition-specific protein-protein interactions usin

유전자 공동발현 연관성 측정법은 모두 6 가지 방법을 이용하였으며, 크게 상관성 (Correlation) 및 상호정보량 (MI, mutual information)에 기반하는 방법 두 가지로 나뉠 수 있다 (Song 등, 2012). 상호정보량에 기반하는 방법은 최대정보계수 (MIC, maximal information coefficient), 상보정보량 (MI), 상호정보량-커널 (MIk, MI by kernel density estimator)이며, 상관성에 기반한 방법은 피어슨 상관계수 (Pearson correlation coefficient), 스피어맨 상관계수 (Spearman correlation coefficient), 코사인 상관계수(Cosine correlation)를 사용하였다 (Reshef 등, 2011).

Fig. 5. Gene co-expression measures of known condition-specific PPIs. 상관계수에 기반한 방법과 상호정보량에 기반한 분석 각각 3 개, 총 6 개를 이용하여 유전자 공동발현 연관성을 측정하였다.

1. 피어슨 상관계수

상관계수분석이란 변수간의 관련성을 분석하기 위해 사용하는 방법으로서, 하나의 변수가 다른 변수와 관련성이 있는지를 알 수 있고, 또 관련 정도가 어느 정도인지 알아보기 위한 방법이다. 피어슨 상관계수는 상관계수분석에서 자주 이용되는 계수이며 상관계수 r 은 [-1, 1]의 값을 갖는다. r 의 값이 1 에 가까울수록 두 변수는 양의 상관관계를 나타내게 되고, 서로 유사하다는 것을 의미한다. 반면 r 이 -1 에 가깝다면 두 변수의 관계는 음의 상관관계가 되며 서로 반대방향으로 관계가 있다는 것을 의미한다. r 이 0 에 가깝다면 두 변수 사이에 별로 관계가 없음을 의미한다. N 개의 원소를 갖는 두 벡터 X 와 Y 사이의 피어슨 상관계수는 다음과 같이 정의된다.

) )

4. 상호정보량

상호정보량이란 한 랜덤 변수가 다른 랜덤 변수에 대해 담고 있는 정보량을 의미하며, 어떤 확률 분포에 대해 엔트로피 (Entropy)라고 불리는 양을 통해서 측정할 수 있다. 이 엔트로피는 랜덤 변수의 불확실성에 대한 척도이며, 상호정보량(I)은 한 랜덤 변수(X)에 대한 지식으로 인해 다른 랜덤 변수(Y)에 대한 불확실성이 줄어드는 정도를 의미한다. GEP 데이터에서의 두 유전자의 발현값의 패턴 역시 같은 맥락에서 연관성으로 측정할 수 있다. 상호정보량은

„0‟부터 양의 정수값을 가질 수 있으며, 0 에 가까울수록 두 변수사이의 독립성이 큰 정수값을 가질수록 종속성이 커진다.

5. 커널상호정보량

본 방법은 연속형 변수를 k 개로 분류한 후, Kernel density estimator 를 이용하여 확률밀도함수를 추정한 후 적분된 값에 대하여 상호정보량을 계산하게 된다.

6. 최대정보계수

이 방법은 두 랜덤 변수로 구성된 데이터가 있을 때 각각의 변수에 대하여 적당한 grid 형태로 구간을 나누어서 정보량이 최대가 되게 하는 지점을 찾는 것을 나타낸다. 이 방법은 선형 및 비선형 데이터 모두에서 숨겨진 관계를

찾아내는데 일관적인 결과를 나타내었으며, 여러 형태의 데이터에 걸쳐 사용될 수 있다.

E. 조건 특이적인 단백질 상호작용 예측을 위한 유전자 공동발현 연관성 측정법

문서에서 Prediction method of condition-specific protein-protein interactions using gene expression profiles (페이지 25-29)