영상유전체학에서 유전자 집합 농축 분석의 반복 신뢰도
우보영1 · 이명은2,3 · 김종효1,2,3
1서울대학교 융합과학기술대학원, 2서울대학교병원 영상의학과, 3차세대융합기술연구원
Repeatability of Gene Set Enrichment Analysis in Radiogenomics
Boyeong Woo1, Myungeun Lee2,3, Jonghyo Kim1,2,31Graduate School of Convergence Science and Technology, Seoul National University, Korea,
2Department of Radiology, Seoul National University Hospital, Korea, 3Advanced Institute of Convergence Technology, Korea
=Abstract=
Purpose: Radiogenomics has drawn significant research attention recently. Gene Set Enrichment Analysis (GSEA) is currently one of the most widely adopted gene analysis methods in radiogenomics. However, some studies have raised questions about the repeatability of GSEA. In this regard, this paper introduces gene set analysis, discusses how gene set analysis might be used in radiogenomics, and assesses the repeatability of GSEA through a simple experiment.
Materials and Methods: For assessing the repeatability of GSEA, we used gene expression data of 30 glioblastoma multiforme (GBM) patients from The Cancer Genome Atlas (TCGA). The corresponding brain MR images were obtained from The Cancer Imaging Archive (TCIA). We measured the area and uniformity of enhancing lesion and the area of necrotic lesion from axial T1 post-contrast image, classified the samples into those with low values and those with high values, and carried out repeated analysis-5 times each-using GSEA.
Results: In our repeated analysis using GSEA for the area of enhancing lesion, the 5 results were all the same, but for the area of necrotic lesion, the results varied a little each time. And when we ran the experiment for the uniformity of enhancing lesion, we found the 5 results to be very different from each other. This was thought to be because the false discovery rate (FDR) q-value, which is used by GSEA to show statistical significance, came out different every time.
Conclusion: We have confirmed that the repeatability of GSEA may vary widely depending on image features. Nevertheless, gene set analysis has the potential for further improvement, and radiogenomics also is constantly improving, so we expect to see more radiogenomics researches utilizing gene set analysis come out in the upcoming years.
Key Words: Radiogenomics; Gene set analysis; GSEA; Reliability; Repeatability
통신저자: 김종효
(03080) 서울특별시 종로구 대학로 101, 서울대학교병원 영상의학과 Tel. (02) 2072-3677, Fax. (02) 747-1762
E-mail: [email protected]
서 론
최근 유전체 분석 기술이 크게 발전하면서 여러 질병에 서 유전자의 역할에 대한 연구가 많이 이루어지고 있다.
일례로, The Cancer Genome Atlas (TCGA)(1)는 2005 년부터, International Cancer Genome Consortium (ICGC) (2)는 2008년부터 여러 종류의 암 환자들의 유전체 자료를 모아 분석하고 공유하고 있다. 영상의 학 분야에서도 CT나 MRI 에서 보이는 병변의 특징들 과 유전자 발현의 상관관계를 연구하는 '영상유전체학 (radiogenomics)'이 태동되어 많은 주목을 받고 있다 (3). 영상검사는 병변의 위치와 전체적인 모습을 확인할 수 있다는 장점이 있지만, 많은 경우에 정확한 진단을 위 해 조직 검사를 필요로 한다는 한계점이 있었는데, 영상 지표(imaging marker)와 분자 지표(molecular marker) 간의 연관성을 발견해 낸다면 비침습적으로 정확한 진단 을 내리는 것이 가능하게 될 수도 있다. 더불어 질병의 여 러 특징들을 추출해 냄으로써 질병의 원인을 이해하고 더 효과적인 치료법을 개발하는 데에도 도움이 될 것으로 기 대하고 있다 (3).
의학에서의 유전체 연구는 유의 유전자(differentially expressed genes)를 발견하여 질병의 생물학적 과정 (biological processes)을 알아내는 것을 주된 목적으로 하며, 이 때 발견하고자 하는 유의 유전자는 특정 질병의 유무등 표현형이 다른 두 종류의 표본에서 다르게 발현된 유전자이다 (4). 반면 영상의학에서는 영상 특징(image features)을 이용해 병변들을 유의미한 유형들로 분류하 고 병리학적 소견과 연관짓는 것을 주로 연구하고 있다.
영상유전체학은 이같이 별도의 영역에서 발전되어온 두 학문의 성과를 결합하는 시도로서, 유전체 발현 양식에 따 라서 다르게 나타나는 영상 특징들, 또는 영상 특징들에 따라서 다르게 발현되는 유의 유전자를 찾아내어 상호 연 관성을 규명하는 것이 주된 목적이라고 할 수 있다. 그러 므로 영상유전체 연구를 하기 위해서는 영상 분석 기술뿐 만 아니라 적절한 유전체 분석 방법에 대한 이해도 필요하 다.
초기 유전체 연구는 개별 유전자 발현의 통계적 유의성 을 분석하는 데 초점이 맞춰져 있었던 반면, 최근에는 유 전자들을 개별적으로 분석하기 보다는 생물학적으로 유 의미한 유전자 집합(gene set)을 분석하는 방법이 많이 활용되고 있다 (4). 이렇게 함으로써 검정력(statistical power)도 좋아지고 결과를 해석하기에도 더 용이하기 때 문이다. 영상유전체 연구에서도 개별적인 유전자 보다는
유전자 집합 분석(gene set analysis)의 활용이 많다 (5).
본 고에서는 영상유전체학을 연구하는 입장에서 유전자 집합 분석에 대한 기초적인 이해를 돕고자 유전자 집합 분 석 방법의 배경을 소개하고, 공개된 유전체 및 영상데이터 를 이용하는 실험적 절차를 설명한다. 또한 이 실험을 통 해 저자들이 발견한 유전자 집합 분석의 한계점과 유의점 을 제시하며, 앞으로의 전망에 대해서 논의한다.
마이크로어레이 실험 방법의 한계점
마이크로어레이 기술의 발전은 값싸고 용이한 유전자 발현 자료의 습득을 가능하게 해 주었으며, 이에 따라 유 전자 발현 자료를 효과적으로 분석하여 유의미한 생물학 적 정보를 습득하는 것이 주요 과제로 대두되었다. 보통 유전체 실험에서는 만 개 이상의 유전자들의 발현 자료를 얻게 되는데, 이 안에서 표현형과 밀접하게 연관되어 있 는 몇 개의 유전자들을 신뢰성 있게 찾아내는 것은 간단 한 일이 아니다. 특히 모든 유전자들을 개별적으로 분석했 던 기존의 방식에는 몇 가지 중요한 한계점들이 있다. 통 계적으로는, 하나의 실험에서 수많은 가설 검정을 하게 되 므로 귀무 가설이 참이더라도 기각할 가능성이 높다는 문 제점이 있다. 이와 같은 문제를 다중 비교 문제(multiple comparisons problem)라고 하며 이를 보정하기 위해 family-wise error rate (FWER)이나 false discovery rate (FDR) 같은 교정 방법들이 많이 이용된다. 하지만 이 렇게 통계적 유의성을 교정하고 나면 유의한 유전자가 정 작 하나도 남지 않게 될 수도 있다 (4). 마이크로어레이 실 험에 내제하는 잡음과 비교했을 때 유전자 발현의 차이가 크지 않을 수 있기 때문이다. 또한 생물학적인 관점에서 는, 유전자들을 독립적인 개체로 취급하여 분석하면 유전 자들 간의 상호작용을 충분히 고려하지 않게 된다는 문제 점이 있다. 이러한 한계점들을 보완하기 위해 유전자들을 생물학적으로 유의미한 집합 단위로 분석하는 방법들이 개발되었다.
유전자 집합 분석 방법
현재 보편적으로 가장 많이 쓰이는 유전자 집합 분석 도 구는 MIT의 Broad Institute에서 개발한 GSEA(그림 1) 이다 (http://www.broadinstitute.org/gsea) (6-8). 따 라서 본 논문은 GSEA 방법 위주로 유전자 집합 분석을 설 명한다. 실전에서는 GSEA외에도 여러 프로그램들이 사용 되고 있는데, 프로그램마다 조금씩 다른 가정과 유전자 집 합, 계산법을 이용하며 경우에 따라 각각 다른 결과를 낼 수 있다. GSEA 이외에 자주 쓰이는 유전자 집합 분석 도
구를 표 1에 간단히 제시한다.
GSEA는 농축 점수(enrichment score)라는 것을 이 용하여 유전자 집합을 분석한다 (6). 농축 점수를 계산하 기 위해서 GSEA는 일단 표본의 종류와 유전자 발현 사이 의 상관관계가 높은 순서로 유전자들을 나열한다. 이렇게 나열된 유전자 목록을 따라 내려가며 유전자 집합에 속해 있는 유전자가 나타났을 때는 점수를 올리고 유전자 집합 에 속해 있지 않은 유전자가 나타났을 때는 점수를 내린 다. 이 행보 중 절대값이 가장 높았을 때의 점수가 해당 유 전자 집합의 농축 점수가 된다 (그림 2). 유전자 집합에 속 해 있는 유전자들이 유전자 목록의 위 부분이나 아래 부분 에 농축되어 있다면 농축 점수가 클 것이다. GSEA는 이러 한 집합들이 표본의 종류와 높은 상관관계가 있을 것이라 고 본다. 농축 점수의 통계적 유의성은 순열 검정을 이용 해 계산된다. 표본의 종류를 임의로 섞은 뒤 농축 점수를
다시 계산하여 농축 점수의 영 분포를 얻은 후 관찰된 농 축 점수를 영 분포에 비교하여 p값을 계산하는 방법이다.
그런데 많은 유전자 집합을 분석하게 되었을 때에는 다중 비교 문제를 보정해야 하므로 농축 점수를 유전자 집합의 크기에 맞게 정규화한 뒤 정규화된 농축 점수들에 대해서 FDR을 구하여 p값을 교정한다.
유전자 집합 분석 도구들(표 1)은 표현형과 상관관계가 있는 유전자 집합을 찾고자 하는 공통된 목표를 갖고 있 지만, 검정하고자 하는 귀무 가설은 조금씩 다르다. 유전 자 집합 분석 도구들이 검정하는 귀무 가설은 크게 세 가 지로 분류할 수 있다 (4). 가장 많이 이용되는 귀무 가설 은 한 유전자 집합의 표현형과의 연관 정도가 나머지 유 전자 집합들의 그것과 같다는 것이다. 이러한 귀무 가설 을 이용한 방법은 경쟁적(competitive)이라고 할 수 있으 며, ErmineJ, ADGO, GeneTrail, Babelomics가 이 종류 Fig. 1. Example use of GSEA [7].
에 해당한다. 또 다른 귀무 가설은 한 유전자 집합에 표현 형과 상관관계가 있는 유전자가 없다는 것이다. 이러한 방 법은 자족적(self-contained)이라고 하며, globaltest와 SAM-GS가 이에 해당한다. 마지막으로는, 앞의 두 가지 방법이 혼합된(mixed) 듯한 방법이 있다. 표현형과 상관 관계가 있는 유전자 집합이 없다는 귀무 가설을 이용하며, 농축 정도는 경쟁적인 방법으로 계산하지만 통계적 유의
성은 모든 유전자 집합들에 대하여 자족적인 방법으로 계 산하는 것이다. GSEA와 GSA가 이에 해당한다.
유전자 집합 분석에서 분석 방법만큼이나 중요한 것은 관련 있는 유전자끼리 모아서 구성한 유전자 집합 데이 터베이스라고 할 수 있다. 이용자가 직접 유전자 집합들 을 만들어서 분석할 수도 있지만, 대개는 이미 공개된 많 은 유전자 집합의 데이터베이스를 이용하게 된다. GSEA Fig. 2. Example result of GSEA [7].
Table 1. Typical Gene Set Analysis Tools
이름 플랫폼 특징 참고 문헌
GSEA Java, R 본문 참조 [6]
globaltest R 일반화 선형 모형을 이용해 분석 [9]
ErmineJ Java Over-representation 분석, resampling 기반 방법 등 다양한 분석 방법 사용 [10]
ADGO Web Korean Bioinformation Center (KOBIC)에서 개발. 통계 분석으로 Z-test 사용 [11]
GeneTrail Web Over-representation 분석과 농축 분석 둘 다 제공 [12]
SAM-GS MS Excel Add-In 유전자 집합에 속한 유전자들의 발현이 표현형에 따라 달라지지 않을 것이라는 귀무 가설 검정 [13]
GSA R 농축 점수 대신 "maxmean" 점수 사용 [14]
Babelomics Web 정렬되어 있는 유전자 목록을 이용하여 농축 분석 실행. Logistic 회귀 사용 [15]
는 MSigDB (7)라는 데이터베이스를 함께 제공한다. 위 치나 기능별로 모아 놓은 유전자 집합도 있고 GO (16)나 KEGG (17) 같이 이미 쓰이고 있는 데이터베이스에서 가 져온 유전자 집합도 있다. MSigDB는 계속 업데이트 되고 있다.
유전자 집합 분석의 한계와 비평
유전자 집합 분석이 주는 장점이 크지만 다양한 비판도 함께 존재한다. 일단은 계산 방법이 다소 복잡하며, 통일 된 계산 방법이나 표준화된 분석 방법이 없어서 사실상 같 은 데이터를 가지고도 연구자마다 다른 결론에 도달할 수 있다. 특히 통계적 유의성을 계산하는 방법에 대해서 의견 이 분분한데, 표본만 확률화(randomization)해야 한다는 의견과 표본과 유전자 모두 확률화해야 한다는 의견이 있 다 (4). 유전자들 간의 상관관계를 보존하기 위해서는 유 전자들을 확률화하지 않아야 한다는 주장이 현재는 더 지 지를 받고 있지만, 표본만 확률화하는 방법도 문제가 없는 것은 아니다. 표본이 많지 않을 때는 확률화를 실행해도
신뢰할 만한 통계적 유의성이 나오지 않을 수 있기 때문이 다. 때문에 현재 GSEA는 기본적으로는 표본 확률화를 사 용하게 되어 있지만, 유전자 확률화도 함께 제공하고 있 다.
유전자 집합 분석의 반복 신뢰도의 실험적 평가 우리는 영상유전체 연구에서 GSEA를 사용하게 되었 을 때에도 이와 같은 한계점들이 나타날지 확인하기 위해 반복 신뢰도를 검증하는 실험을 수행하였다. 실험을 위해 The Cancer Genome Atlas (TCGA)에서 (1) 30 뇌종양 (glioblastoma multiforme, GBM) 환자의 유전자 발현 자료를 다운로드하였고, 해당 환자들의 뇌 MR영상은 The Cancer Imaging Archive (TICA)에서 (18) 다운로드하 였다. GBM은 환자 예후가 좋지 않고, multi-parametric MRI 를 통해 다양한 영상특징을 얻을 수 있을 뿐 아니라 여러 기관에서 유전체 연구가 활발하게 이루어지고 있어 서 영상유전체학적 연구를 하기에 적합한 분야라고 생각 하였다.
Fig. 3. Segmentation of GBM. Segmentation was carried out using the drawing tool in 3D Slicer [20]. The green area indicates contrast-enhancing lesion, and the pink area indicates necrotic lesion.
GBM의 영상특징에 관해서는 VASARI (19)를 비롯한 다양한 특징평가 방식이 연구되고 있는데, 이 연구에서는 기존 연구들에서 자주 사용된 단순한 영상특징을 이용하 여 영상유전체 분석에 있어서 GSEA의 반복 신뢰도를 평 가하였다.
GBM은 T1 대조 영상에서 고리 모양의 조영증강을 보 이는 것이 특징인데, 이에 우리는 Axial T1 대조 영상에서 조영증강병변(enhancing lesion)과 괴사병변(necrotic lesion)을 따로 분할했다 (그림 3). 분할은 3D Slicer(20) 의 그리기 도구를 이용하여 진행하였다. 가장 면적이 넓은 면에서 조영증강병변의 면적과 균일성(uniformity) 그리 고 괴사병변의 면적을 측정하였으며, 중앙값을 기준으로 값이 낮은 그룹과 높은 그룹으로 나눈 뒤 (그림 4) GSEA 로 5번씩 반복 실험을 하였다.
GSEA는 분석 결과를 그룹별로 각각 보여 주는데, FDR 이 25% 미만인 유전자 집합을 통계적으로 유의한 것이라 고 표시한다. 반복 실험의 결과는 표 2에 정리하여 표시하 였다. 조영증강 병변의 면적으로 실험했을 때에는 유의한 유전자 집합이 면적이 낮은 그룹에서는 5번 모두 0개로, 높은 그룹에서는 5번 모두 4개로 나타났으며, 높은 그룹 에서 나타난 4개의 유전자 집합은 모두 같은 것이었다. 괴 사 병변의 면적이 낮은 그룹에서는 유의한 유전자 집합이 1개 또는 2개로, 높은 그룹에서는 5번 모두 0개로 나타났 다. 괴사 병변이 작은 그룹의 경우에 가장 낮은 FDR 값은 10% 정도(0.061-0.215)였지만, 두 번째로 낮은 FDR 값 은 25%에 더 가까웠다(0.196-0.387) (그림 5). 마지막으 로, 조영증강 병변의 균일성이 낮은 그룹에서는 유의한 유 전자 집합이 모두 0개로, 높은 그룹에서는 적게는 0개에 서 많게는 193개까지 불균형하게 나왔다 (그림 6). 균일성 이 높은 그룹의 경우에 각각의 결과에서 가장 낮은 FDR 값은 20%에 가까웠으며(0.193-0.279), 가장 낮은 FDR
값이 나온 유전자 집합은 5번 모두 다른 것이었다.
고 찰
우리는 GSEA를 같은 자료와 조건으로 반복 실행하였을 때 결과가 크게 변동하는 경우를 확인하였다. 이렇게 간단 한 실험만으로 도구의 신뢰성을 평가하기 어렵긴 하지만, 결과를 보면 GSEA에서 계산해 주는 통계적 유의성에 대 해서 의문이 생긴다. 이렇게 실행할 때마다 결과가 다르 게 나오는 것은 앞서 언급한 대로 확률화하는 방법에 의 해 생긴 문제일 가능성이 높다. 실제로 ADGO에서 확률 화가 아닌 Z-test를 이용해 통계 분석을 하면 반복 실험을 했을 때 통계적 유의성이나 결과에는 변화가 생기지 않는 다 (11). 또한 GSEA에서 사용하는 cutoff인 FDR 25%에 대해서도 의문을 가질 수 있다. 통계적으로 유의한 유전자 집합 중 4분의 1은 오류에 의한 잘못된 결과일 것이라고 가정해야 하기 때문이다. 원인이 무엇이든, 영상유전체 연 구에서 GSEA를 사용하게 될 때에는 결과의 통계적 유의 성에 주의를 기울이고, 결과가 의심스러울 때는 반복 실험 을 통해 결과를 재확인하는 것이 바람직할 것이다.
영상유전체학은 영상의학 분야에서 새로운 지평을 개척 할 잠재성이 인정받고 있으며 연구자들의 많은 관심을 모 으고 있다. 하지만 영상의학 분야에서만 연구하던 사람들 에게는 아직 유전체 분석 방법들이 다소 생소할 수 있다.
특히 최근에 개발되어 많이 사용되고 있는 유전자 집합 분 석에 대해서는 경험이 없는 사람들도 있을 수 있다. 따라 서 본 고에서는 유전자 집합 분석의 배경과 분석 방법에 대해 간략히 소개하고 그 한계를 함께 논하였다. 유전자 집합 분석은 유전자들을 개별적으로 분석하던 기존 방법 의 문제점들을 극복하기 위해 개발되었지만, 유전자 집합 분석 방법에서도 여전히 많은 한계점들이 제기되고 있으
Table 2. Result of repeated gene set enrichment analysis. The table shows the number of statistically significant gene sets
Area of enhancing lesion #1 #2 #3 #4 #5
Low 0 0 0 0 0
High 4 4 4 4 4
Area of necrotic lesion #1 #2 #3 #4 #5
Low 1 1 2 2 1
High 0 0 0 0 0
Uniformity of enhancing lesion #1 #2 #3 #4 #5
Low 0 0 0 0 0
High 77 193 161 0 144
A
B
C
Fig. 4. Example cases with (A) low area (left) and high area (right) of contrast-enhancing lesion, (B) low area (left) and high area (right) of necrosis, (C) low uniformity (left) and high uniformity (right) of contrast-enhancement.
며, 우리 또한 실험을 통해 GSEA의 한계점들을 확인할 수 있었다.
결 론
유전자 집합 분석법은 영상유전체학에서 영상특징과 유 전체 데이터간의 연관성을 조사하는 도구로서 유용하게 쓸수 있는 도구로 받아들여지고 있다. 그러나 아직은 유전 자 집합 분석이 표준화 되지 않았으며 분석의 신뢰도에 대 한 우려가 존재하므로, 유전자 집합 분석의 사용에 있어 서 충분한 주의를 기울여야 할 것이라고도 생각한다. 우리 의 실험에서도 이러한 반복신뢰도가 영상특징에 따라 크 게 달라짐을 확인하였다. 앞으로 유전자 집합 분석과 더불 어 영상유전체학의 개발과 발전이 계속된다면 여러 질병 의 원인과 치료법을 찾는 데에 이용되고 나아가는 맞춤 의 학(precision medicine)의 발전에도 발판을 마련해 줄 것 으로 기대한다.
사 사
본 논문은 보건복지부 보건의료연구개발사업으로 지원 된 연구결과입니다 (No. HI16C1127, 한국인 호발만성질 환 위험예측과 질병위험 아틀라스 구현을 통한 개인 맞춤 형 예방관리서비스모형 개발).
참 고 문 헌
1. The Cancer Genome Atlas (TCGA). http://
cancergenome.nih.gov
2. International Cancer Genome Consortium (ICGC).
http://icgc.org
3. Kuo MD, Jamshidi, N. Behind the numbers: decoding molecular phenotypes with radiogenomics-guiding principles and technical considerations. Radiology 2014;270(2):320-5
4. Nam D, Kim SY. Gene-set approach for expression pattern analysis. Brief Bioinform 2008;9:189-197 5. Jamshidi N, Diehn M, Bredel M, et al. Illuminating
radiogenomic characteristics of glioblastoma multiforme through integration of MR imaging, messenger RNA expression, and DNA copy number variation. Radiology 2014;270(1):1-2
6. Subramanian A, Tamayo P, Mootha VK, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci USA 2005;102:15545-50
7. Gene Set Enrichment Analysis (GSEA). http://www.
broadinstitute.org/gsea
8. Wikipedia article on Gene Set Enrichment Analysis.
http://en.wikipedia.org/wiki/Gene_set_enrichment 9. Goeman JJ, van de Geer SA, de Kort F, et al. A global
test for groups of genes: testing association with a clinical outcome. Bioinformatics 2004;20:93-99
10. Lee HK, Braynen W, Keshav K, et al. ErmineJ: tool for functional analysis of gene expression data sets. BMC Fig. 5. Variability of FDR q-value. For the low group for the
area of necrotic lesion, the lowest q-value and the second lowest q-value varied as shown on the graph. The dashed line shows the 25% threshold, which is the cutoff value used by GSEA.
Fig. 6. Repeatability of GSEA. For the high group for the uniformity of enhancing lesion, the number of statistically significant gene sets varied as shown on the graph. The solid line shows the mean, and the dashed line indicates the standard deviation.
Bioinform 2005;6:269
11. Nam D, Kim SB, Kim SK, et al. ADGO: analysis of differentially expressed gene sets using composite GO annotation. Bioinformatics 2006;22:2249-53
12. Backes C, Keller A, Kuentzer J, et al. GeneTrail- advanced gene set enrichment analysis. Nucleic Acids Res 2007;35:W186-192.
13. Dinu I, Potter JD, Mueller T, et al. Improving gene set analysis of microarray data by SAM-GS. BMC Bioinform 2007;8:242
14. Efron B, Tibshirani R. On testing the significance of
sets of genes. Ann Appl Stat 2007;1:107-129
15. Montaner D, Dopazo J. Multidimensional gene set analysis of genomic data. PLOS ONE 2010;5:e10348 16. Gene Ontology (GO). http://geneontology.org
17. Kyoto Encyclopedia of Genes and Genomes (KEGG).
http://www.genome.jp/kegg
18. The Cancer Imaging Archive (TCIA). http://
cancerimagingarchive.net
19. VASARI Project. http://wiki.cancerimagingarchive.net/
display/Public/VASARI+Research+Project 20. 3D Slicer. http://www.slicer.org
대한의학영상정보학회지│2016;22:29-37
=초록=
배경: 본최근 의학 영상과 유전체 정보 간의 상관관계를 연구하는 영상유전체학(radiogenomics)이 주목을 받고 있다. 유전자 집합 농축 분석(Gene Set Enrichment Analysis, GSEA)은 유전자 발현 데이터를 분석하 여 표현형이 다른 두 종류의 표본들 간에 발현 값들이 통계적으로 중요한 차이를 나타내는 유전자 집합을 추 출하는 분석 기법으로, 현재 영상유전체학에서 유전자 분석에 가장 많이 이용되는 방법들 중 하나이다. 하지 만 GSEA의 반복 신뢰도에 대한 의문도 제기되고 있다. 이에 본 논문은 유전자 집합 분석에 대해서 소개하고, 영상유전체학에서 유전자 집합 분석이 어떻게 사용될 수 있는지 설명하며, 간단한 반복 실험을 통해 GSEA의 반복 신뢰도에 대해서 평가한다.
대상과 방법: GSEA의 반복 신뢰도 검증을 위해서 우리는 The Cancer Genome Atlas (TCGA)에서 받은 30 뇌종양 환자의 유전자 발현 자료를 이용하였다. 해당 환자들의 뇌 MR영상은 The Cancer Imaging Archive (TICA)에서 받았다. Axial T1 대조 영상에서 조영증강병변(enhancing lesion)의 면적과 균일성, 그리고 괴사 병변(necrotic lesion)의 면적을 측정하여 값이 낮은 그룹과 높은 그룹으로 나눈 뒤 GSEA로 5번씩 반복 실험 을 하였다.
결과: 조영증강병변의 면적을 이용하여 GSEA를 반복 실행하였을 때에는 결과가 5번 모두 동일하게 나왔지 만, 괴사병변의 면적으로 실험했을 때는 조금씩 다른 결과가 나오는 것으로 확인됐다. 한편, 조영증강병변의 균일성으로 실험했을 때는 5번의 결과가 서로 매우 다르다는 것을 발견했다. 이는 GSEA에서 통계적 유의성 을 나타내기 위해 사용하는 false discovery rate (FDR) 값이 실행할 때마다 다르게 나왔기 때문으로 생각된 다.
결론: 우리는 실험을 통해 GSEA의 반복신뢰도가 영상특징에 따라 크게 달라짐을 확인하였다. 그러나 유전자 집합 분석도 아직은 더 발전할 가능성이 있으며 영상유전체학 또한 발전을 계속하고 있는 만큼, 앞으로 유전 자 집합 분석을 통한 영상유전체 연구가 더 많이 이루어질 것으로 기대한다.