2017년 국가별 인간 유전체 연구 현황

(1)

2017년 국가별 인간 유전체 연구 현황 안준용 Page 1 / 17 BRIC View 2017-T03

2017년 국가별 인간 유전체 연구 현황

안 준 용

UCSF Weill Institute for Neurosciences University of California, San Francisco

E-mail: [email protected] 요약문 유전체 기술의 발달과 데이터 공유의 증가로 집단 유전학과 인간 유전학에 대한 연구가 활발해지고 있다. 이에 따라 몇몇 국가들이 수년 전부터 차세대 유전체 기술을 이용한 연구를 시작하였고, 각 국가에서 일어나는 사회현상에 대한 집단 유전적인 근거를 제시하거나, 인종 계통에 관한 유전적 조성을 연구하기 시작했다. 또한 기존에 구축한 코호트 연구를 통해, 특정 국가에서 흔하게 발견되는 질병이나 형질에 대한 연구를 진행 중이다. 이 보고서는 국가 단위의 유전체 프로젝트의 타당성과 각국의 사례, 운영 및 활용방안에 대하여 살펴본다.

Key Words: 국가 유전체 프로젝트, genome project, next generation sequencing, whole genome sequencing, 유전학

목 차

1. 서론 2. 국가 유전체 프로젝트의 당위성 2.1 유전학 연구를 위한 타당성 2.2 질병 연구 및 유전체 의학을 위한 타당성 3. 국가별 유전체 프로젝트 사례 3.1 아이슬란드 3.2 네덜란드 3.3 영국 3.4 일본 3.5 미국 BRIC View 동향리포트

(2)

2017년 국가별 인간 유전체 연구 현황 안준용 Page 2 / 17 3.6 핀란드 3.7 스웨덴 3.8 중국 4. 국가 유전체 프로젝트의 운영과 향후 방향 4.1 컨소시엄 간 협력과 공유를 통한 분석 수준 향상과 재현성 확보 4.2 유전체 분석 표준의 필요성 4.3 데이터 양식(Data modalities)에 대한 고려 5. 결론 6. 참고문헌

1. 서론

지난 10년여 동안, 집단유전학(population genetics)과 유전체학(genomics)의 발전으로 인해, 인간 질병 및 형질에 관한 유전적인 요인을 밝히는 연구가 발전할 수 있었다. 이는 마이크로어레이(microarray) 혹은 차세대 유전체 분석 기술(next generation sequencing) 등의 유전체 기술 진보의 영향도 있었지만, 다양한 연구배경과 주제를 가진 연구자들과 기관들이 협력해 가설을 검정하거나 새로운 모델 혹은 방법론을 제시한 결과이기도 하다. Genome-wide association studies (GWAS)는 심혈관 질환, 비만, 치매, 조현병, 우울증과 같은 질병뿐만 아니라, 키, 체질량 지수, 인지능력과 같은 형질에 기여하는 유전력(heritability)를 산출하고, 연관된 유전 좌위(loci) 및 common variant를 보고했다[1]. Whole exome sequencing (WES)-단백질을 암호화 하는 전사체 부위를 해독하는 유전체 기술-연구는 질병을 일으키거나 질병 및 형질에 대한 penetrance가 높은 rare variant들을 선별할 수 있게 하였다[2].

유전체 데이터의 양과 표본수의 증가, 연구 방향에 관한 상호 이해가 증진되면서, 유전체 연구 컨소시엄 간의 데이터 공유가 활발해졌다. 이로 인해, 인간 유전학에 대한 이론들을 집단 수준에서 검증할 수 있게 되었고, 질병의 유전적 병인(genetic aetiology)에 관한 새로운 가설들을 수립했다. 미국 사이먼즈 재단의 자폐 연구 계획(Simons Foundation Autism Research Inititative)과 미국 국립 정신보건원(The National Institute of Mental Health)의 지원 하에, 2012년 자폐증 환자와 그 가족 1000명 이상의 WES 분석이 이루어졌다[3–5]. 이 연구는 아버지의 나이가 많아짐에 따라 생식세포에서 발생하는 de novo variant의 숫자가 증가하는 양상을 발견하게 된다. 이 결과는 같은 해, 아이슬란드 국가 유전체 프로젝트인 deCODE genetics에서 재현되었다[6]. 마찬가지로, 정신질환 유전체 컨소시엄(Psychiatric Genomics Consortium)은 다섯 가지 정신질환들 - 주의력 결핍 및 과잉 행동 장애(ADHD), 자폐증, 조현병, 우울증, 양극성 장애의 GWAS 연구들의 데이터와 방법론을 공유하였고, 이를 바탕으로 이 질환들과 연관된 유전적 좌위들이 질환 간에 중첩되는 좌위들과 질환간의 상대적인 유전적 기여도를 보고하였다[7]. 이 연구를 통해, 2013년 미국 국립 정신보건원은 기존에 정신질환 진단 시 사용되는 정신 장애 진단 통계 편람 5판(DSM-5)외에, 정신질환의 유전학, 분자생물학적인 증거들을 적극 반영해야 한다는 Research Domain Criteria [8]를 개발하기 시작했다.

(3)

2017년 국가별 인간 유전체 연구 현황 안준용 Page 3 / 17

유전체 연구 컨소시움인 1000 Genome Project은 5종류의 인종과 26종류의 세부 인종에 대한 유전체 정보를 제공한다[9]. 이 컨소시엄은 2009년부터 2015년까지, 각 인종별 low coverage (2-4X depth) WGS (whole genome sequencing) 데이터를 단계적으로 공개하기 시작했다. 이를 통해, 연구자들은 인종(Ethnicity 혹은 race)마다 특이적으로 발견되는 변이(예. fixed allele)나 집단 내의 1% 미만의 빈도수로 나타나는 rare variant의 분포를 보고했다[1,10]. 또한 1000 Genome Project 내의 WGS 데이터는 유전적으로 유사한 인종간의 유전형을 추정하는 imputation의 참조 자료로 활용되고 있다. 현재, 여러 국가들은 각 국가를 거주하는 인종에 대한 유전적인 조성 및 특징에 대한 유전체 프로젝트를 진행하고 있고, WGS 데이터의 생산과 분석에 힘쓰고 있다(그림 1). 그림1. 현재까지 진행된 국가별 유전체 프로젝트 일반적으로 유전체 연구는 사회 구성원을 유전적으로 묘사할 수 있는 기회를 제공한다. 양적 형질(quantitative trait) 혹은 공통 질병에 대한 연구는 국가를 구성하는 사회 구성원들의 유전적인 분포도를 이해하는 수단으로 사용된다. 따라서, 유전체 데이터는 국가는 사회구성원들의 건강과 복지를 위한 유용한 자원으로 활용될 수 있다. 특히, 이와 같은 장치를 통해, 유전적인 분포도에서 극단치(outlier)에 해당하는 구성원들-희귀 질환 환자 등은 일차적인 혜택을 받게 된다. 다시 말해, 국가 유전체 프로젝트는 한 국가를 구성하는 인종 배경에 대한 반영임과 동시에, 현재 국가가 당면하고 있는 사회적인 현상을 이해하는 도구가 된다. 이 글에서 필자는 국가 유전체 프로젝트의 당위성과 현재 진행되고 있는 국가 단위의 유전체 프로젝트를 소개한다. 각 프로젝트의 목적과 방향, 활용 계획을 연구 사례와 게재된 연구들을 바탕으로 정리한다.

(4)

2. 국가 유전체 프로젝트의 당위성

2.1 유전학 연구를 위한 타당성

유전체 연구는 한 영토에 거주하는 주민들의 유전적인 배경을 살펴보거나, 국가 내에서 일어난 사회 현상에 대한 결과를 유전적 조성을 토대로 파악한다. 아이슬란드, 네덜란드를 비롯한 유럽 국가들은 유전체 정보를 통해, 각 국가에 장기간 거주한 인종에 대한 이해를 시도하였다. 아이슬란드는 북유럽에서 이주한 후부터 현재까지 기록된 가족력과 지리적으로 고립된 인종 특성을 이융하여, 인간 유전학 및 집단 유전학에 관련된 기초적인 질문들을 연구하였다[11–13]. 한편, 네덜란드는 도시국가 형태를 유지해온 역사를 근거로 하여, 11개 지역을 세부 인종들로 간주하고, 국가 유전체 프로젝트에 참여시켰다[11]. 마찬가지로, 핀란드와 스웨덴의 국가 유전체 프로젝트는 영토 내 이주 및 fitness에 영향을 미칠 수 있는 몇몇 역사적인 사건을 바탕으로 각 국민의 이질적인 유전적인 조성을 밝혀냈다[14,15]. 영국은 다인종 경시적 코호트 연구인 Born in Bradford을 통해, 영국 Bradford에 거주하는 파키스탄계 영국인을 주목했고, 이들의 유전적 거리가 가까울 것이라는 가설을 수립하였다. 코호트에 포함된 3,222명의 WES을 분석함으로써, homozygous variant가 실제 형질이나 질병과 연관이 있는지에 대해 조사하였고, 이들의 개인유전체에 발생하는 runs-of-homozygosity를 측정하였다[16]. 유전자형은 이론적으로 인구 집단 내 무작위로 분포한다. 그러나, 실제 인구 집단에서, 인류는 특정 유전자형을 갖게 하거나 유전적 조성을 바꾸도록 선택되어왔다. 따라서, 특정 인종을 대상으로 한 유전학 및 유전체학 연구는 유전적인 조성을 연구함으로써, 집단 이주, 동류 결혼 (assortative mating) 및 플린효과(Flynn effct)와 같은 사회적인 현상을 추적한다. 가령 유전체 데이터를 바탕으로, 초기 식민 시대의 집단 이주와 정착 시대의 인구 병목이 유전적 조성에 미치는 영향을 연구하거나[17], 학력에 의한 동류 결혼이 인구 유전체 내에 어떠한 방식으로 남아있는가에 대한 질문을 한다[18]. 최근 아이슬란드 연구는 WGS와 마이크로어레이 데이터를 이용하여, 고학력자들의 만혼 양상을 보고했고, 이로 인해 지적 능력과 연관된 변이들이 아이슬란드 인구 집단 내에서 낮은 정도로 감소하고 있음을 보고했다[19]. 일본의 경우, 2011년 토호쿠 대지진을 겪은 주민들이 실제 건강에 이상이 있는지에 대한 장기간 추적연구를 시작하였다. 이를 통해, 다양한 생물학 정보를 수집하고 오믹스(omics) 유전체 분석을 통해 재난으로 인한 유전적 병인이나 건강 격차 (health disparity)에 대하여 조사한다[20].

2.2 질병 연구 및 유전체 의학을 위한 타당성

국가 유전체 프로젝트는 어떤 인종에게 흔하게 발견되는 질환에 대한 보건, 유전학적 지표를 마련하고, 질병 위험요인을 규명하는 것을 목표로 한다. 인류 집단에서 매우 낮은 빈도수로 나타나는 변이(rare variant)들은 다수가 인종 특이적이다[21,22]. 인종 특이적인 rare variant는 질병이나 형질에서 common variant 혹은 de novo variant로 설명할 수 없는 유전적 기여도를 설명할 수 있을 것으로 기대한다. 예를 들어, 이탈리아 사르디니아(Sardinian)섬 주민들의 저밀도

(5)

지질단백질(low-density lipoprotein; LDL) 연구 - DL콜레스테롤 수치가 매우 높은 주민 256명에 대해 LDL GWAS 연관 좌위 5곳을 resequencing한 결과 - 에서와 같이 선례를 찾을 수 있다. 이 연구는 이탈리아인의 1000 Genome Project 유전체를 이용한 genotype imputation으로 위험 변이에 대한 정확한 실험 방법을 설계 할 수 있었다[23].

질병 연구 및 개인 맞춤형 의료를 위한 유전체 연구는 매력적으로 보이는 프로젝트로 여겨지지만, 정확한 가설과 연구 방향이 없이는 성과를 내기 어렵다. 이를 위해서는, 특정 인종의 유전체 데이터를 연구하는 것이 특정 질병을 연구하는 것에 타당한지를 고려해야 한다. 질병과 연관된 변이(associated variant)나 질병을 일으키는 변이(causal variant)들은 여러 가지 종류가 있다. GWAS를 이용한 common variant 탐색과 가계도 WES 분석을 이용한 de novo variant는 현재까지 가장 잘 연구된 변이들이며, 대규모 코호트 연구에서 유전학적 구성(genetic architecture) 및 effect size가 잘 알려진 변이들이다(표1). 반면에, rare variant는 특정 인종에 대한 정확한 유전적 조성 정보 없이 통계적 검정력을 산출하기 어렵다[24,25].

이 변이의 종류들은 인종 특이적인 특성을 없거나 미미하며[26,27], 인종의 여부와 상관없이 임상 유전체에 활용이 가능한 결과이다. 이와 반대로, 인종 특이적인 rare variant는 특정 인종 집단에서 흔하게 발견되는 질병이나 형질에 대한 유전적 요인을 설명해줄 것으로 기대한다. 하지만, 일반적으로 rare variant가 질병 혹은 형질에 대해 어느 정도의 effect size를 갖는지 정교하게 측정하기는 어렵거나, 매우 많은 수의 표본을 필요로 한다. 2016년, 당뇨병 연구에 관한 다국적 유전체 컨소시엄 T2D-GENES consortium은 다인종의 WGS, WES 데이터를 분석한 결과, 인종 특이적인 rare variant의 association을 찾으려 노력했으나 아직까지 검정력이 미미한 수준이다[28].

따라서, 국가가 질병연구와 임상 유전체를 위해 유전체 프로젝트를 시작해야 한다는 명분은 국가 영토에 거주해온 인구의 유전적 특성을 고려하는 것, 역학 코호트 연구와의 연계, 혹은 인종의 유전적 특성에 대한 유전적인 가설이 충분히 뒷받침 되어야 한다. 예를 들어, 아이슬란드는 국가 유전체 프로젝트에서 그들의 인구 집단이 유전적으로 균일하다는 점을 고려하여, 건강과 질병에 큰 영향을 미치는 protein-truncating variant가 실제 국민의 건강에 영향을 미치는지를 조사하였다[12]. 이 연구에서 연구자들은 2,600여명의 WGS 데이터를 생산했고, 이를 이용해 기존에 수집한 십만 명의 유전형 데이터를 imputation을 했다. 그리고 풍부한 가족력 정보와 표현형 데이터, 사망률을 집계하여 실제 이러한 종류의 변이가 질병에 영향을 미치는지, 얼마만큼 낮은 빈도수가 변이의 penetrance에 기여하는지, homozygous variant - 지리적인 근접도와 유전적인 근접도로 치환되는 변이의 종류 - 가 실제 질병에 대해 높은 effect size를 갖는지에 대하여 조사하였다. 이 연구의 성공 요인은 단순히 양질의 최신 WGS 데이터를 사용했던 것에 기인하지 않는다. 이들은 기존 유전학 연구(유전형 수집 및 유전적 근사도 추정)을 적극적으로 활용한 것, 아이슬란드 상황에 부합하는 유전적인 가설과 적합한 실험 설계가 이뤄졌다는 점에 있다.

(6)

2017년 국가별 인간 유전체 연구 현황 안준용 Page 6 / 17 표 1. 질병 유전학 연구에서 보고되는 변이 종류와 특성 종류 변이의 유전 전달 방식 (transmission) 대립유전자 빈도 (Allele frequency) 인종간 차이 유전체 데이터 형식 유전체 1 개 당 변이의 수 변이의 위험도 및 effect size Rare variant 부모 0.1-1% 미만 있음 WES; WGS; Exome array 인종, 표본수에 따라 다양 미확인 Common variant 부모 1-5% 이상 대체적으로 인종 비특이적[27] GWAS; resequencing; WGS 3-4 백만개 작음 De novo variant 생식세포(germline) 혹은 접합체 생성 이후 (post-zygotic) NA 없음[29] Pedigree 기반 WES; WGS 40-80 개 (single nucleotide variant 와 1-50bp insertion/deletion 에 한정)[30–32] 큼 (germline de novo variant 에 한정) Homozyg ous variants 부모 다양 있음 Pedigree WES 및 WGS 인종과 표본수, runs-homozygosity 의 크기에 따라 다양 다양 Copy number variation 부모, 생식세포(germline) 혹은 접합체 생성 이후 (post-zygotic) 다양 있음[33] Microarray, WES, WGS 160 개[9] 큼 (De novo CNV 의 경우; inherited CNV 의 경우 effect size 에 대한 정확한 측정이 없음)[34] Copy neutral structural variation 부모, 생식세포(germline) 혹은 접합체 생성 이후 (post-zygotic) 알려진 바 없음 있을 것으로 추정 WGS[35] 알려진 바 없음 Genome-wide rate 에 대한 정확한 측정이 없음

(7)

3. 국가별 유전체 프로젝트 사례

3.1 아이슬란드

아이슬란드는 현재 국가 수준의 유전체 연구를 선도하는 국가이며, 또한 현대 인간 유전학의 많은 기여를 해온 국가이다. 인간게놈프로젝트의 초안이 발표되기 전, 1996년 무렵, deCODE Genetics (https://www.decode.com)라는 아이슬란드의 벤쳐 회사가 미국 내 자본의 도움을 받아 설립되었다. 이 회사는 국민을 상대로 한 유전체 분석을 하겠다는 계획을 발표했다[36]. 이 계획이 타당했던 이유는, 아이슬란드는 9세기 북유럽에서 2만명 가량이 이주하여 시작된 국가이면서, 지리적인 고립으로 인한 genetic admixture가 적은 small founder의 유전적 모델로 적합한 인구 집단이었기 때문이다. 게다가, 아이슬란드는 이주 이후로 가족에 대한 정보를 기록하고 후세에게 물려주는 등 가족력에 대한 풍부한 정보를 보유하고 있다. deCODE Genetics는 아이슬란드의 풍성한 가족력 정보와 유전적으로 균일한 인구집단이라는 이점을 이용해, 유전체 연구를 하는 것이 질병이나 형질에 대한 유전적 기여도를 찾는데 충분하다고 판단했다. 이후 몇 세대 동안, 이들은 집단 유전학에서 갖는 여러 가지 이론들과 가설들을 실험하였다. 가령, 발달성 질환이나 선천성 희귀질환에서 큰 영향을 미치는 것으로 보고된 생식세포의 de novo variant가 부모의 나이와의 상관 관계를 보고하였다[6]. 최근에는 조부모를 포함한 3세대 가족의 유전체 데이터를 이용하여, 감수분열의 유전자 재조합 시 일어나는 gene conversion 양상을 발견하고[37], de novo variant 혹은 부모 나이와의 관계를 가설로 제시하기도 했다[38]. 또한 protein truncating variant에 대한 아이슬란드 인구 내의 분포[12]를 근거로 알츠하이머 질병에 대한 아이슬란드인들에게 특이적으로 나타나는 유전형과 이들의 effect size를 산출하였다[21]. deCODE Genetics는 현재 아이슬란드인 2500명 이상의 WGS 데이터와 10만명 이상의 마이크로어레이 데이터를 보유하고 있다[39].

3.2 네덜란드

네덜란드 2009년 국가 유전체 프로젝트 Genome of the Netherlands (GoNL; http://www.nlgenome.nl/)를 지원하기 시작하였다. GoNL은 the Netherland Biobanking and BioModelcular resources Research Infrastructure (BBMRI)의 지원 사업 의 일부이다[40]. BBMRI는 네덜란드 내의 180군데의 샘플 수집처에서 60만명 이상의 생물학 시료를 수집하였고, 10-15만명의 SNP microarray 데이터를 생산중이다(2014년 기준)[11]. GoNL은 네덜란드 11개 지역의 원주민들에 대한 유전체 분석을 시행하였고, 2014년 769명의 WGS 분석을 공개하였다. 이는 231 삼인 가족 (부모–자녀; trio)와 일난성 쌍둥이 8가족, 이란성 쌍둥이 11가족을 포함한다. 이러한 실험 설계를 통해, haplotyping의 정확성과 효용성을 높였다. 네덜란드는 해수면보다 낮은 국토 때문에 역사적으로 많은 피해를 입었고 이에 따른 여러 사회문화 현상들이 발생했다. 치수정책(하천 및 해수면 관리)가 국민들의 거주지 선택에 변화를 주거나, 인구 이동에 영향을 미쳤다. GoNL은 이점을 토대로, 역사적인 홍수나 해수면 변화에 따른 유전적 조성의 변화가 있을 것이라는 가설을 수립했고, identity-by-descent 분석을 이용하여 살펴보았다[41]. 이 뿐만 아니라, GoNL는 네덜란드 인종에 대한

(8)

보다 정확한 변이의 빈도수를 제공함으로써, 네덜란드 내의 지적장애인 50명에 대한 WGS 분석에 활용되었다[31].

3.3 영국

영국은 Genomics England (https://www.genomicsengland.co.uk)라는 국가 유전체 프로젝트를 운영하고 있다. 2012년 영국 정부는 The National Health Service (NHS)의 자연과학 연구계획의 일환으로 임상 유전체 생산 및 표준화를 계획한다. Genomics England는 영국인 인구 중, 0.05% 미만의 유병률을 갖는 8,000개 이상의 희귀 질환 혹은 영국인에게 많이 발견되는 7개의 암 종류들을 연구한다. 연구 인프라와 유전체 데이터 생산은 Wellcome Trust, the Wellcome Trust Sanger Institute (WTSI) 그리고 미국 유전체 회사 Illumina와 파트너쉽을 맺었다. 이와 더불어, 유전체 데이터 활용 및 참여에 대해서는 Genomics Expert Network for Enterprises 컨소시엄을 통해 산업체들과 협력하거나, 타국의 유전체 연구 기관과 제휴를 맺었다. 이로 인해, Genomics England는 2015년 호주 Garvan 연구소와 임상유전체 서비스를 위한 제휴를 맺었다[42].

이외에도 영국은 2010년 Wellcome Trust의 연구 지원을 통해 UK10K 프로젝트(www.uk10k.org)를 진행하고 있다[43]. 이는 영국의 연구진들이 1000 Genome Project에 대거 참여한 이후 계획되었다. 이를 통해, 영국인에게 특이적으로 발견되는 양적 형질에 초점을 맞추었고, 이에 대한 유전력 및 유전적인 기여도를 찾기 위해 이 프로젝트를 시작했다. UK10K는 두개의 역학 코호트들(Avon Longitudinal Study of Parents and Children[44]과 TwinsUK[45])을 바탕으로 시작하였다. 이 프로젝트는 healthy individual을 3,781명에 대한 low coverage WGS 데이터 (~7x)와 high coverage WES 데이터(~80x)를 생산하여, 1000 Genome Project보다 더 정확한 방식으로 rare variant (allele frequency 0.1% 미만)을 분석했다. 또한 WGS, WES 데이터를 이용해, 역학 코호트에서 생산된 genotyping 데이터에 대해 보다 정교한 imputation이 가능하도록 하였다[46]. 국가 유전체 프로젝트로서, UK10K가 성공적인 이유는 오랜 기간 동안 수집된 광범위한 역학 데이터 및 표현형 테이터를 수집했다는 점과 이를 토대로 유전형에 부합하는 표현형을 분석하려 했다는 점이다[47–49]. 또한 1000 Genome Project와 같은 기존의 유전체 프로젝트의 전승을 따르고, Genomics England와 같은 후속 프로젝트에 분석방법과 인적자원을 계승하였다. 또한, 이 프로젝트는 영국 국가 단위의 발달성 장애연구 컨소시움 Developmental Disorders (DDD) study의 유전체 분석에 도움을 주었다[49].

3.4 일본

일본은 2012년 도호쿠 지방에 Tohoku Medical Megabank Organization (ToMMo; http://www.megabank.tohoku.ac.jp/english/)를 설립함으로써, 의학과 유전체 정보를 수집하는 생물학 자원 센터를 설립했다. 2014년, 토호쿠 지역 일본인 1,070명의 WGS 데이터를 생산하고 학계에 진행 상황을 보고하였다[50]. 이 프로젝트에서 high-coverage 데이터(~32X)를 이용해, 낮은 위양성률(false-discovery rate)로 인종 특이적인 rare variant와 복제수 변이를 찾는 등, 향후 유전체

(9)

분석을 위한 기초를 마련했다. 이와 더불어, 일본은 ToMMo의 데이터를 the integrative Japanese Genome Variation Database (https://ijgvd.megabank.tohoku.ac.jp/)를 통해 공유하고, 수집된 정보를 학계에 보고하였다[51].

3.5 미국

미국은 역사적으로 다양한 유전체 연구를 지원해왔다. 최근 주목할 만한 움직임은 2016년 미국 인간 유전체 연구소(The National Human Genome Research Institute; NHLBI)가 계획한 임상연구와 진단에 사용할 WGS 연구이다(https://www.genome.gov/10001691/nhgri-genome-sequencing-program-gsp/). 이 프로젝트는 두 가지 영역을 포함한다. Centers for Common Disease Genomics(CCDG)는 공통질병에 대한 양적 형질 연구 및 연관 변이 탐색을 진행하고, Centers for Mendelian Genomics (CMG)는 단일유전자에 의해 발생하는 Mendelian disease에 대한 유전체 연구를 한다. CCDG와 CMG는 가계도 유전체 분석을 바탕으로 하며, 1000 Genome Project 혹은 the NHLBI GO Exome Sequencing Project (ESP)와 마찬가지로 여러 인종을 포함한다.

이와 더불어, CCDG와 CMG 프로젝트는 대규모 코호트의 방대한 양의 WGS 데이터와 multi-sample joint-genotyping 등과 같은 대규모 컴퓨팅이 필요한 현안들을 함께 다룬다. 방대한 데이터가 발생하는 분석 단계 및 데이터 공유를 위해, 클라우드 컴퓨팅을 활용한 분석 방식이 개발 중이고, Scala 혹은 Spark와 같은 대용량 데이터 처리 기술이 활용, 표준화 할 계획이다. CCDG 프로젝트의 책임자 중 하나인 미국 MIT 브로드 연구소의 Benjamine Neale은 최근 논문을 통해, 대용량 WGS 데이터 처리 기술에 관해 간략히 기술하였다[52].

한편 The National Heart, Lung, and Blood Institute (NHLBI)는 Trans-Omics for Precision Medicine (TOPMed; https://www.nhlbi.nih.gov/research/resources/nhlbi-precision-medicine-initiative/topmed) 프로젝트를 시작해, 정밀의료(precision medicine)에 사용할 다양한 형식의 유전체 데이터(WGS, RNASeq, methylation, metabolomics, epigenomics, and proteomics)들을 제공할 계획이다. NHBLI는 TOPMed 프로젝트에 60여개 이상의 중소규모 질병 컨소시엄들을 참여시킬 계획이고, 이를 통해 6만명 가량의 WGS 데이터 생산을 위한 표본을 수집하였다.

3.6 핀란드

핀란드는 Sequencing Initiative SUomi (SISU)라는 국가 유전체 프로젝트를 운영하며, FINRISK라는 임상, 역학 코호트 연구 그리고 근로자들의 만성질환을 추적하는 Health 2000 역학 연구와 함께 진행되고 있다. 최근 bioRxiv에 공개된 preprint에서, SISU는 1,463명의 핀란드인의 low coverage(~4.6X)의 WGS 데이터를 공개하였다[14,53]. 이 연구는 영국의 UK10K에서 제공된 1,463명의 영국인 WGS 데이터와 비교하였고, 핀란드인이 역사적으로 겪은 여러 번의 genetic bottleneck과 지리적으로 고립되었다는 유전적인 특성을 찾게 되었다. 또한 핀란드인에게 나타나는 founder effect[54]을 바탕으로, 핀란드인들에게 특이적으로 발견되는 protein-truncating 변이 및 기타 rare variant의 분포도를 산출하였고, 향후 rare variant 기반 질환 연구에 대한 기초를

(10)

마련하였다.

3.7 스웨덴

스웨덴은 국가 유전체 프로젝트 SweGen (https;//swefreq.nbis.se)를 운영하고 있다[55]. 이는 분자생물학 국가 연구기관인 Science for Life Laboratory에 의해 진행되며, 비영리 재단인 the Knut and Alice Wallenberg Foundation과 정부 연구재단의 The National Research Council 지원으로 이뤄진다. 스웨덴은 2011년 인구의 0.05% 가량의 유전형 정보를 수집하였고, 스웨덴 북부와 나머지 지역의 유전적 차이가 있음을 밝혔다[15]. 이러한 데이터를 기반으로, SweGen은 스웨덴 인구의 참조 코호트 작성을 시작했다. 코호트 수집은 두 가지 역학 코호트들 - the Swedish Twin Registry[56]와 the Northern Sweden Population Health Study[57] - 과 함께 이뤄졌으며, 이를 통해 1,000명의 표본을 모집했다. SweGen은 high coverage WGS 데이터(20x)를 생산했고, SweFreq (https://swefreq.nbis.se)를 통해 각 변이들의 allele frequency를 공개했다.

3.8 중국

중국은 차세대 유전체 분석 방법이 나오는 초기부터 많은 인프라와 인력을 투자하는 국가였다. 여러 유전학 연구 컨소시엄과 네덜란드 등 몇몇 국가 프로젝트들은 베이징 유전체 연구소(Beijing Genomics Institute; BGI)에서 유전체 데이터를 생산하였다. 이러한 규모와 사업성에도 불구하고, 중국이 국가 단위 인간 유전체 프로젝트 혹은 인간 유전학 연구에 기여한 정도는 많지 않다. 중국은 2011년 Cognitive Genomics 프로젝트를 시작하고, WGS 분석을 통해 “영재"들에게만 나타나는 유전자 혹은 지능에 기여하는 유전력을 찾겠다는 선언을 했다. 이 프로젝트는 집단유전학 및 cognitive genetics 연구자들에게 회의적이었으며[58], 현재까지 분석 방법이나 연구 결과에 대한 보고가 이루어지지 않았다. 반면에, 중국 이외의 여러 유전학 컨소시엄들은 데이터 공유와 협력 연구를 통해, 인지기능 및 지능에 관한 유전력 및 연관 좌위들을 보고했다[59–61]. 중국은 전례 없는 수준의 국가 유전체 생산 능력을 보유하고, 인력을 투자했으며, 많은 양의 유전체 데이터를 생산한다고 언론에 등장한다[62]. 하지만, 실제 어떤 방식으로 얼마만큼의 데이터를 생산했는지 학계를 통한 보고를 찾기 어렵다. 유전체 데이터 생산력을 제외하고, 연구 방향성과 가설의 부재, 공유를 통한 품질 비교와 재현성 부족은 Cognitive Genomics와 같이 야심찬 프로젝트를 성공적으로 이끌지 못하게 만든 원인이 되었다. 몇몇 언론 보도를 통해, 중국은 2015년부터 600억 위완화를 투자해, 정밀의료를 향한 15년 계획을 발표하였다[63,64].

(11)

2017년 국가별 인간 유전체 연구 현황 안준용 Page 11 / 17 표 2. 국가별 WGS 데이터 생산 및 분석 방법 요약 국가 WGS 데이터 생산 플랫폼/생산지 Mapping 방식 Variant calling 방식 Haplotyping Genotype imputation Structural variation 분석 아이슬란드 Illumina/ 국내 생산 bwa GATK Unified genotyper 완료 완료 예정

네덜란드 Illumina/ 중국 BGI bwa

GATK Unified genotyper 완료 완료 완료 영국 UK10K Illumina/ 영국 WTSI 와 중국 BGI bwa Samtools; bcftools 완료 완료 완료 일본 Illumina/ 국내 생산 bwa-mem Bcftools; GATK Unified genotyper 완료 완료 예정 핀란드 영국 UK10K와 동일 완료 완료 완료 스웨덴 Illumina/ 내부 생산 bwa-mem GATK Haplotype Caller 예정 예정 예정

4. 국가 유전체 프로젝트의 운영과 향후 방향

4.1 컨소시엄 간 협력과 공유를 통한 분석 수준 향상과 재현성 확보

역사적으로 집단유전학과 유전체 연구는 코호트 수집부터, 유전체 데이터 생산, 분석에 이르기까지 여러 연구 배경을 가진 인적 자원들이 참여해왔다. 이에 참여한 사람들과 데이터들이 여러 컨소시엄과 프로젝트에 공유되고, 이동하면서 새로운 가설과 과학적인 질문들을 시도하고, 실험하게 된다. 현재 운영되는 여러 나라들의 유전체 프로젝트 대부분이 이러한 문화를 바탕으로 이뤄지고 있다. 네덜란드의 GoNL의 경우, 자국 이외의 해외 유수 유전체 인력을 프로젝트에 포함시킴으로써 분석 수준 향상 및 다변화를 모색했다. Structural variation 연구로 유명한 미국 MIT 브로드 연구소의 Steven McCarroll 박사나, 동 연구소 출신의 네덜란드인 Paul de Bakker 박사, The Howard Hughes Medical Institute 및 University of Washington의 Evan Eichler 박사 등을 참여시켰다. 또한 네덜란드는 Radboud 대학의 Joris Veltmam 박사를 포함한 지적장애 유전체 연구를 선도적으로 해온 그룹 중 하나이고, 이러한 경험을 프로젝트 간에 공유함으로써 WGS 연구의 기술적, 인적 자원을 확보 할 수 있었다.

유전체 데이터 및 연구 방법을 다국적 유전체 컨소시엄과 공유함으로써, 유전체 분석의 수준의 향상 및 재현성을 모색한다. 가령, WES의 다국적 컨소시엄 The Exome Aggregation

(12)

Consortium (ExAC)은 다양한 나라의 중소규모의 WES 연구들에서 생산된 raw 데이터를 취합했다. 이들은 수년동안, 표준화되고 재현 가능한 유전체 분석방법을 개발하고, 이를 데이터와 함께 일반에게 공개하였다[65]. ExAC의 노력으로 인해, 임상 및 예방 의학에서 WES 결과를 활용하는데 도움을 주었고, functional consequence가 분명한 protein truncating 혹은 missense 변이에 대한 genome-wide null model을 예측 할 수 있게 되었다[65–67]. 아이슬랜드 deCODE Genetics의 경우, SNP 마이크로어레이 데이터를 정신질환 유전체 컨소시엄과 공유하여, 조현병 GWAS 연구에 참여하였다[68].

4.2 유전체 분석 표준의 필요성

몇몇 국가 유전체 프로젝트들은 유전체 데이터가 임상이나 연구에 사용되기 전, 충분한 경쟁력과 품질을 갖도록 살펴보았다. 미국 국립 표준기술 연구소(National Institute of Standards and Technology; 이하 NIST)는 Genome in a Bottle (https://www.nist.gov/programs-projects/genome-bottle)이라 불리는 산학연계 컨소시엄을 통해, 유전체 연구에서 사용되어야 하는 최소한의 품질을 확보하도록 노력했다[69]. NIST는 HapMap 프로젝트 샘플 혹은 3인 가족들을 여러 유전체 해독 플랫폼에서 데이터를 생산했고, raw 데이터를 공개하였다. 이로 인해, 타 국가기관이나 학계, 회사들이 데이터 생산 없이, 분석방법들을 비교할 수 있는 자리를 마련했다. 네덜란드의 GoNL은 국가 유전체를 보고하는 연구 논문에서, 구조 변이를 탐색하기 위해, 1000 Genome Project와 마찬가지로 가능한 모든 분석 방법과 알고리즘을 사용했고, 이를 적절하게 비교하였다[41]. 마찬가지로, 영국의 경우, UK10K, DDD, Genomics England 등 대규모 WES 및 WGS 연구에서 기술적인 보완과 품질 비교를 하려고 노력했다.

유전체 분석 표준의 필요성은 단순히 유전체 분석기술의 정확도만을 위함이 아니다. 국가 단위 컨소시엄의 지속적인 데이터 관리와 차후 컨소시엄간의 연계성을 높이고, 데이터 생산과 재생산/분석에 들어가는 비용을 효율적으로 관리할 수 있다. 가령 다음과 같은 상황을 가정해보자. 2012년에 기관A는 특정 코호트 100명의 WGS 데이터을 생산했다. Illumina에서 얻어진 데이터는 BWA와 GATK Unified genotyper에 의해 individual genotyping 방식을 이용하였다. 이후 2016년, 기관B는 50명의 WGS데이터를 Illumina 유전체 플랫폼을 이용해 생산했다. 기관 B는 BWA-Mem, GATK Haplotype caller와 multi-sample joint genotyping을 이용하였다. 기관C는 이 두 가지 데이터를 수합하여, 한국인에게 rare variant에 관한 프로젝트를 진행하려고 한다. 이 과정에서 고려해야 할 사항은 다음과 같다. Rare variant calling 시, 데이터의 두 가지 형식에 의해 발생할 수 있는 정확도의 오차 범위는 얼마만큼이 될까? Burden 및 association test의 유의한 결과가 실제 true positive인가, 아니면 데이터의 형식 및 품질의 차이로 발생하는 bias인가?

4.3 데이터 양식(Data modalities)에 대한 고려

국가별 유전체 연구 프로젝트에서 살펴보았듯이, 유전체 데이터뿐만 아니라, 여러 가지 형식의 기타 오믹스 데이터 그리고 임상 및 역학 데이터를 수집하여 활용하고 있다. 그러므로

(13)

데이터를 생산, 수집, 분배하는 과정은 일정한 방식을 통해 이뤄져야 하고, 데이터 활용 시, 각 데이터가 갖는 고유한 성질을 이해한다. 대표적으로, 2016년 미국 Icahn School of Medicine at Mount Sinai 연구진이 58여만명의 유전체 데이터를 수집하여, 질병을 일으킬 수 있는 complete penetrance mutation에도 해당 질병을 겪지 않았다고 보고한 사람들을 조사했다[70]. 이 연구는 수십여개의 코호트 연구들과 3종류 이상의 유전체 데이터 형식들 간의 차이를 적절히 통제하고 가설 검정에 활용했다는 점에서 의미가 있다.

5. 결론

이 보고서는 현재 국가 단위로 진행 중인 인간 유전체 프로젝트에 대하여 정리하였다. 지금은 유전체 기술이 생물학, 의학 연구 및 임상에 활발히 이용되는 시대이다. 하지만 동시에 언론과 대중에 많은 주목을 받으면서, 기술에만 의존하는 지나친 낙관론이 등장하기도 한다. 하지만, 생의학을 포함한 과학 연구는 가설과 데이터의 상호작용으로 발전해왔으며[71], 유전체 연구도 임상 및 질병연구뿐만 아니라 집단 유전학, (인간)유전학, 유전체학, 생명정보학을 위한 자원으로 활용되어야 함을 강조한다. 국가 유전체 프로젝트는 막대한 연구비, 인프라 그리고 인적 자원을 필요로 한다. 몇몇 국가의 사례에서 보았듯이, 성공적인 프로젝트를 위해, 각 국가에 부합하는 연구 방향성과 활용방안에 대해 분명한 계획을 제시해야 한다. 네덜란드 및 핀란드와 같이 프로젝트의 진행계획에 대해 학술지에 게재해야 하며, 국제 학계와 논의할 수 있는 통로를 만들어야 한다[11,72]. 이런 과정을 통해, 연구자들은 학계에서 활용되거나 논의되는 사안에 대하여, 프로젝트에 적용할 수 있으며, 정부는 연구자들이 프로젝트를 주도적으로 진행할 수 있는 자리를 마련해준다. 마지막으로, 이 보고서는 다음과 같은 사항들을 심도있게 논의하지 않았음을 밝힌다. 1. 국가 유전체 프로젝트에 포함된 개인 유전체 정보 공개 범위 그리고 이와 관련된 규제. 2. 국가 유전체 프로젝트가 산업체 혹은 다국적 유전학 컨소시움과 연계하는 방식(예: Common-wealth를 통한 Genomics England와 호주 Garvan 연구소의 제휴; EXaC 컨소시엄과 스웨덴, 핀란드의 유전체 데이터 공유)과 그리고 이와 관련된 규제. 3. 국가 유전체 프로젝트가 산업체와의 협력을 통한 수익 창출 모델 및 기대 효과 4. 국가 유전체 프로젝트에서 역학 코호트 수집과 활용방안 및 사례에 대한 세부 사항 5. 체세포 변이(somatic variant)를 연구를 바탕으로 한 암 유전체 연구 결과 및 이에 관한 국가 유전체 프로젝트의 효용성 6. 국가 유전체 프로젝트를 참조한 질병의 후보유전자 발굴에 관한 유전체 연구 및 임상 유전체 연구에 대하여 제한적으로 논의하였다. 하지만, 이를 토대로 후보유전자의 분자적 기작을 밝힌 연구들에 대해서는 논의하지 않았다.

7. 집단 유전학과 유전체학에서 사용되는 race, ethnicity, 혹은 ancestry와 같은 용어들에 대하여 인종으로 번역했다. 위의 용어들은 문화적, 사회적, 정치적으로 다양한 의미를 내포하며, 여러가지

(14)

방향으로 해석이 가능함을 밝힌다[73].

6. 참고문헌

[1] Visscher PM, Yang J. A plethora of pleiotropy across complex traits. Nat Genet 2016;48(7):707–8.

[2] Minikel EV, Vallabh SM, Lek M, et al. Quantifying prion disease penetrance using large population control cohorts. Sci Transl Med 2016;8(322):322ra9.

[3] Sanders SJ, Murtha MT, Gupta AR, et al. De novo mutations revealed by whole-exome sequencing are strongly associated with autism. Nature 2012;485(7397):237–41.

[4] O’Roak BJ, Vives L, Girirajan S, et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature 2012;485(7397):246–50.

[5] Neale BM, Kou Y, Liu L, et al. Patterns and rates of exonic de novo mutations in autism spectrum disorders. Nature 2012;485(7397):242–5.

[6] Kong A, Frigge ML, Masson G, et al. Rate of de novo mutations, father’s age, and disease risk. Nature 2012;488(7412):471.

[7] Cross-Disorder Group of the Psychiatric Genomics Consortium, Lee SH, Ripke S, et al. Genetic relationship between five psychiatric disorders estimated from genome-wide SNPs. Nat Genet 2013;45(9):984–94.

[8] Insel TR. The NIMH Research Domain Criteria (RDoC) Project: precision medicine for psychiatry. Am J Psychiatry 2014;171(4):395–7.

[9] 1000 Genomes Project Consortium, Auton A, Brooks LD, et al. A global reference for human genetic variation. Nature 2015;526(7571):68–74.

[10] Buchanan CC, Torstenson ES, Bush WS, Ritchie MD. A comparison of cataloged variation between International HapMap Consortium and 1000 Genomes Project data. J Am Med Inform Assoc 2012;19(2):289–94. [11] Boomsma DI, Wijmenga C, Slagboom EP, et al. The Genome of the Netherlands: design, and project goals. Eur J Hum Genet 2014;22(2):221–7.

[12] Sulem P, Helgason H, Oddson A, et al. Identification of a large set of rare complete human knockouts. Nat Genet 2015;47(5):448–52.

[13] Anon. Letters from Iceland. Nat Genet 2015.

[14] Chheda H, Palta P, Pirinen M, et al. Whole genome view of the consequences of a population bottleneck using 2926 genome sequences from Finland and United Kingdom. 2016.

[15] Humphreys K, Grankvist A, Leu M, et al. The genetic structure of the Swedish population. PLoS One 2011;6(8):e22547.

[16] Narasimhan VM, Hunt KA, Mason D, et al. Health and population effects of rare gene knockouts in adult humans with related parents. Science 2016;352(6284):474–7.

[17] Casals F, Hodgkinson A, Hussin J, et al. Whole-Exome Sequencing Reveals a Rapid Change in the Frequency of Rare Functional Variants in a Founding Population of Humans. PLoS Genet 2013;9(9):e1003815. [18] Abdellaoui A, Hottenga J-J, Willemsen G, et al. Educational attainment influences levels of homozygosity through migration and assortative mating. PLoS One 2015;10(3):e0118935.

[19] Kong A, Frigge ML, Thorleifsson G, et al. Selection against variants in the genome associated with educational attainment. Proc Natl Acad Sci U S A 2017.

(15)

2017년 국가별 인간 유전체 연구 현황 안준용 Page 15 / 17 [20] Kuriyama S, Yaegashi N, Nagami F, et al. The Tohoku Medical Megabank Project: Design and Mission. J Epidemiol 2016;26(9):493–511.

[21] Tennessen JA, Bigham AW, O’Connor TD, et al. Evolution and functional impact of rare coding variation from deep sequencing of human exomes. Science 2012;337(6090):64–9.

[22] Telenti A, Pierce LCT, Biggs WH, et al. Deep sequencing of 10,000 human genomes. Proc Natl Acad Sci U S A 2016;113(42):11901–6.

[23] Sanna S, Li B, Mulas A, et al. Fine mapping of five loci associated with low-density lipoprotein cholesterol detects variants that double the explained heritability. PLoS Genet 2011;7(7):e1002198.

[24] Auer PL, Lettre G. Rare variant association studies: considerations, challenges and opportunities. Genome Med 2015;7(1):16.

[25] Heinzen EL, Neale BM, Traynelis SF, Allen AS, Goldstein DB. The genetics of neuropsychiatric diseases: looking in and beyond the exome. Annu Rev Neurosci 2015;38:47–68.

[26] Acuna-Hidalgo R, Veltman JA, Hoischen A. New insights into the generation and role of de novo mutations in health and disease. Genome Biol 2016;17(1):241.

[27] Gravel S, Henn BM, Gutenkunst RN, et al. Demographic history and rare allele sharing among human populations. Proc Natl Acad Sci U S A 2011;108(29):11983–8.

[28] Fuchsberger C, Flannick J, Teslovich TM, et al. The genetic architecture of type 2 diabetes. Nature 2016;536(7614):41–7.

[29] Wang T, Guo H, Xiong B, et al. De novo genic mutations among a Chinese autism spectrum disorder cohort. Nat Commun 2016;7:13316.

[30] Michaelson JJ, Shi Y, Gujral M, et al. Whole-genome sequencing in autism identifies hot spots for de novo germline mutation. Cell 2012;151(7):1431–42.

[31] Gilissen C, Hehir-Kwa JY, Thung DT, et al. Genome sequencing identifies major causes of severe intellectual disability. Nature 2014;511(7509):344–7.

[32] Francioli LC, Polak PP, Koren A, et al. Genome-wide patterns and properties of de novo mutations in humans. Nat Genet 2015;47(7):822–6.

[33] Sudmant PH, Rausch T, Gardner EJ, et al. An integrated map of structural variation in 2,504 human genomes. Nature 2015;526(7571):75–81.

[34] Ruderfer DM, Hamamsy T, Lek M, et al. Patterns of genic intolerance of rare copy number variation in 59,898 human exomes. Nat Genet 2016;48(10):1107–11.

[35] Brand H, Collins RL, Hanscom C, et al. Paired-Duplication Signatures Mark Cryptic Inversions and Other Complex Structural Variation. Am J Hum Genet 2015;97(1):170–6.

[36] Pálsson G. Decode Me! Curr Anthropol 2012;53(S5):S185–95.

[37] Helgason A, Einarsson AW, Guðmundsdóttir VB, et al. The Y-chromosome point mutation rate in humans. Nat Genet 2015;47(5):453–7.

[38] Halldorsson BV, Hardarson MT, Kehr B, et al. The rate of meiotic gene conversion varies by sex and age. Nat Genet 2016;48(11):1377–84.

[39] Gudbjartsson DF, Helgason H, Gudjonsson SA, et al. Large-scale whole-genome sequencing of the Icelandic population. Nat Genet 2015;47(5):435–44.

[40] Brandsma M, Baas F, De Bakker PIW, et al. How to kickstart a national biobanking infrastructure – experiences and prospects of BBMRI-NL. Nor Epidemiol 2012;21(2).

(16)

2017년 국가별 인간 유전체 연구 현황 안준용 Page 16 / 17 [41] Genome of the Netherlands Consortium. Whole-genome sequence variation, population structure and demographic history of the Dutch population. Nat Genet 2014;46(8):818–25.

[42] Standing Committee on Health. Inquiry Into Chronic Disease Prevention and Management in Primary Health Care.; 2016.

[43] UK10K Consortium, Walter K, Min JL, et al. The UK10K project identifies rare variants in health and disease. Nature 2015;526(7571):82–90.

[44] Boyd A, Golding J, Macleod J, et al. Cohort Profile: The ‘Children of the 90s’--the index offspring of the Avon Longitudinal Study of Parents and Children. Int J Epidemiol 2012;42(1):111–27.

[45] Moayyeri A, Hammond CJ, Hart DJ, Spector TD. The UK Adult Twin Registry (TwinsUK Resource). Twin Res Hum Genet 2012;16(01):144–9.

[46] Huang J, Howie B, McCarthy S, et al. Improved imputation of low-frequency and rare variants using the UK10K haplotype reference panel. Nat Commun 2015;6:8111.

[47] Lane JM, Vlasac I, Anderson SG, et al. Genome-wide association analysis identifies novel loci for chronotype in 100,420 individuals from the UK Biobank. Nat Commun 2016;7:10889.

[48] Taylor PN, Porcu E, Chew S, et al. Whole-genome sequence-based analysis of thyroid function. Nat Commun 2015;6:5681.

[49] Deciphering Developmental Disorders Study. Prevalence and architecture of de novo mutations in developmental disorders. Nature 2017.

[50] Nagasaki M, Yasuda J, Katsuoka F, et al. Rare variant discovery by deep whole-genome sequencing of 1,070 Japanese individuals. Nat Commun 2015;6:8018.

[51] Yamaguchi-Kabata Y, Nariai N, Kawai Y, et al. iJGVD: an integrative Japanese genome variation database based on whole-genome sequencing. Hum Genome Var 2015;2:15050.

[52] Ganna A, Genovese G, Howrigan DP, et al. Ultra-rare disruptive and damaging mutations influence educational attainment in the general population. Nat Neurosci 2016;19(12):1563–5.

[53] Surakka I, Sarin A-P, Ruotsalainen SE, et al. The rate of false polymorphisms introduced when imputing genotypes from global imputation panels. 2016.

[54] Norio R. The Finnish Disease Heritage III: the individual diseases. Hum Genet 2003;112(5-6):470–526. [55] Ameur A, Dahlberg J, Olason P, et al. SweGen: A whole-genome map of genetic variability in a cross-section of the Swedish population. 2016.

[56] Magnusson PKE, Almqvist C, Rahman I, et al. The Swedish Twin Registry: establishment of a biobank and other recent developments. Twin Res Hum Genet 2013;16(1):317–29.

[57] Johansson A, Marroni F, Hayward C, et al. Common variants in the JAZF1 gene associated with height identified by linkage and genome-wide association analysis. Hum Mol Genet 2009;18(2):373–80.

[58] Yong E. Chinese project probes the genetics of genius. Nature 2013;497(7449):297–9.

[59] Okbay A, Beauchamp JP, Fontana MA, et al. Genome-wide association study identifies 74 loci associated with educational attainment. Nature 2016;533(7604):539–42.

[60] Rietveld CA, Medland SE, Derringer J, et al. GWAS of 126,559 individuals identifies genetic variants associated with educational attainment. Science 2013;340(6139):1467–71.

[61] Johnson MR, Shkura K, Langley SR, et al. Systems genetics identifies a convergent gene network for cognition and neurodevelopmental disease. Nat Neurosci 2016;19(2):223–32.

(17)

2017년 국가별 인간 유전체 연구 현황 안준용 Page 17 / 17 [63] Cyranoski D. China embraces precision medicine on a massive scale. Nature 2016;529(7584):9–10.

[64] Cyranoski D. China’s bid to be a DNA superpower. Nature 2016;534(7608):462–3.

[65] Lek M, Karczewski KJ, Minikel EV, et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature 2016;536(7616):285–91.

[66] Wilfert AB, Chao KR, Kaushal M, et al. Genome-wide significance testing of variation from single case exomes. Nat Genet 2016;48(12):1455–61.

[67] Petrovski S, Wang Q, Heinzen EL, Allen AS, Goldstein DB. Genic intolerance to functional variation and the interpretation of personal genomes. PLoS Genet 2013;9(8):e1003709.

[68] Schizophrenia Working Group of the Psychiatric Genomics Consortium. Biological insights from 108 schizophrenia-associated genetic loci. Nature 2014;511(7510):421–7.

[69] Zook JM, Chapman B, Wang J, et al. Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls. Nat Biotechnol 2014;32(3):246–51.

[70] Chen R, Shi L, Hakenberg J, et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nat Biotechnol 2016;34(5):531–8.

[71] Strasser BJ. Data-driven sciences: From wonder cabinets to electronic databases. Stud Hist Philos Biol Biomed Sci 2012;43(1):85–7.

[72] Palotie A, Widén E, Ripatti S. From genetic discovery to future personalized health research. New Biotechnology 2013;30(3):291–295.

[73] Collins FS. What we do and don’t know about ‘race’, ‘ethnicity’, genetics and health at the dawn of the genome era. Nat Genet 2004;36(11s):S13–5.

※ 본 콘텐츠는 의 후원으로 작성되었습니다.

The views and opinions expressed by its writers do not necessarily reflect those of the Biological Research Information Center. 안준용(2017)2017 년 국가별 인간 유전체 연구 현황. BRIC View 2017-T03

Available from http://www.ibric.org/myboard/read.php?Board=report&id=2685 (Feb 7, 2017) Email: [email protected]