• 검색 결과가 없습니다.

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향

N/A
N/A
Protected

Academic year: 2021

Share "클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향"

Copied!
20
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 1 / 20 BRIC View 2017-T14

클라우드 컴퓨팅 기반

유전체 정보 관리 및 서비스 동향

김 가 경

연세대학교

E-mail: kakyung.kim@gmail.com 요약문 하드웨어의 발전으로 스토리지 및 네트워크 대역폭의 비용이 내려가고 있으며 차세대 게놈 시퀀싱의 비용도 급감하고 있다. 또한 최초의 인간 게놈 데이터를 만드는 작업은 수십 년이 걸렸지만 이제 수일 내에 풀 시퀀싱이 가능함에 따라 유전체 데이터는 기하 급수적으로 증가하고 있다. 그러나 현실적으로 유전체 연구에 필요한 통계 능력을 확보하는 데 필요한 게놈 데이터 및 관련 임상 데이터의 양이 단일 서버의 처리 능력을 초과한다. 그 대안으로 클라우드 컴퓨팅 서비스를 이용하면 직접 머신을 구매하거나 관리할 필요 없이 사용한 만큼만 비용을 지불하면 되는 장점이 있다. 연구자들은 클라우드 컴퓨팅 서비스로 대규모 유전체 유전체학, 시스템 생물학, 생물 의학 분야의 데이터를 쉽게 접근하여 통합적으로 관리, 분석, 공유할 수 있다. 이러한 클라우드 컴퓨팅 서비스는 유전체 정보 관리 및 분석을 위해 점차 확대되고 있으며 국내외의 클라우드 컴퓨팅 기반 유전체 서비스 동향에 대해서 살펴보고자 한다.

Key Words: 클라우드 컴퓨팅(Cloud Computing), 빅데이터(Big Data), 정밀의학(Precision Medicine), 재현성(reproducibility), IaaS (Infrastructure as a Service), PaaS (Platform as a Service), SaaS (Software as a Service), DNAnexus, 구글 지노믹스(Google Genomics), 마이크로 소프트 지노믹스(Micorosoft Genomics), Galaxy CloudMan, Genome Cloud, Bio-Express

목 차

1. 서론

1.1 클라우드 컴퓨팅이란

(2)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 2 / 20 1.2 생명정보 분야의 클라우드 서비스의 대두

2. 해외 유전체 클라우드 동향

2.1 DNAnexus for Genome Centers 2.2 구글 지노믹스 2.3 마이크로소프트 지노믹스 2.4 Galaxy CloudMan 3. 국내 유전체 클라우드 동향 3.1 KT의 GenomeCloud 3.2 KOBIC의 Bio-Express 4. 맺는 말 5. 참고문헌

1. 서론

1.1 클라우드 컴퓨팅이란

클라우드 컴퓨팅(Cloud Computing)은 인터넷 환경에서 제공되는 컴퓨팅, 스토리지, 소프트웨어, 네트워크와 같은 다양하고 편리한 IT 자원, 개발환경, 애플리케이션을 필요한 만큼 제공하고 사용한 만큼 비용을 지불하는 서비스(Resource on Demand)이다. 이는 PC에서 개별적으로 운영체제와 프로그램을 설치하고 각각의 데이터를 개별적으로 관리하던 기존 방식에서 벗어나, 인터넷이라는 네트워크를 통하여 데이터를 저장하고 다양한 IT 리소스들을 물리적인 위치와 상관없이 동적으로 확장할 수 있는 가상화 기술을 활용하여 통합 제공하는 것을 의미한다. 클라우드 컴퓨팅은 하드웨어 또는 소프트웨어 용량을 유지할 필요성을 줄이고 설치, 구성 및 테스트와 같은 시스템 유지 관리를 위한 리소스가 더 적기 때문에 시스템 속도, 민첩성 및 유연성을 향상시킬 수 있다. 이러한 장점을 이유로 다수의 빅데이터(Big Data) 애플리케이션은 클라우드 기술을 기반으로 구성된다[1]. NIST에서는 클라우드 컴퓨팅의 주요 특성을 다음과 같이 기술한다[2]. (1) 주문형 셀프 서비스(On-demand self-service): 소비자는 각 서비스 공급자와의 상호 작용 없이 자동으로 필요에 따라 서버 시간 및 네트워크 저장소와 같은 컴퓨팅 기능을 이용 가능하다.

(2) 광범위한 네트워크 액세스(Broad network access): 네트워크를 통해 시스템 기능을 사용 가능하며 서로 다른 씬 클라이언트 플랫폼(예: 휴대폰, 태블릿, 노트북 및 워크스테이션)의 사용을 촉진하는 표준 메커니즘을 통해 액세스할 수 있다.

(3) 자원 풀링(Resource pooling): 공급자의 컴퓨팅 자원(예: 스토리지, 프로세싱, 메모리 및 네트워크 대역폭) 풀은 다중 소유(multi-tenant) 모델을 사용하여 여러 소비자에게 서비스를 제공하며

(3)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 3 / 20 소비자의 요구에 따라 서로 다른 물리적 및 가상 리소스가 동적으로 할당되고 재할당된다. 고객은 제공된 리소스의 정확한 위치에 대한 인지나 제어 없이 높은 수준의 추상화(예: 국가, 주 또는 데이터 센터)에서 위치를 독립적으로 지정할 수 있다. (4) 빠른 탄성(Rapid elasticity): 필요에 따라 탄력적으로 기능이 제공되고 배포, 확장할 수 있다. 사용자에게 공급될 수 있는 기능이 무제한으로 표시되며 언제든지 필요한 양을 이용할 수 있다. (5) 측정된 서비스(Measured service): 클라우드 시스템은 서비스 유형(예: 저장, 처리, 대역폭 및 활성 사용자 계정)에 적합한 일부 추상화 수준에서 계량 기능을 활용하여 자원 사용을 자동으로 제어하고 최적화한다. 자원 사용이 모니터링, 제어 및 보고되어 활용된 서비스의 공급자와 소비자 모두에게 투명성을 제공한다.

클라우드 컴퓨팅은 모든 것을 서비스로(everything as a service, EaaS) 제공하고자 하며, 하드웨어 자원과 운영체제들을 가상화하여 서비스로 제공하는 방법과 그 위에 개발 플랫폼이나 애플리케이션을 서비스로 제공하는 방법으로 구분한다. IT 자원에 따라 NIST (National Institute of Standards and Technology) 표준 모델은 Infrastructure as a Service (IaaS), Platform as a Service (PaaS), Software as a Service (SaaS)로 크게 세가지로 나뉜다[3].

(1) IaaS: 물리적 서버(CPU, 메모리, 운영체계), 스토리지, 네트워크를 가상화 환경으로 만들어, 필요에 따라 인프라 서비스를 유연하게 제공한다. 사용자들은 운영 체제 이미지와 자신들의 응용 소프트웨어를 클라우드 인프라스트럭처에 설치한다. 아마존 웹 서비스(Amazon Web Services, AWS)에서 제공하는 Amazon Elastic Compute Cloud (EC2)가 대표적인 예이며 단순히 서버 등의 자원을 제공해 주면서 사용자가 디바이스에 제약 없이 데이터에 접근할 수 있도록 해준다.

(2) PaaS: 클라우드 제공자들은 운영 체제, 프로그래밍 언어 실행 환경, 데이터베이스, 웹 서버를 포함한 컴퓨팅 플랫폼을 제공하며, 개발을 위한 플랫폼 구축을 할 필요 없이 필요한 개발 요소들을 웹에서 쉽게 빌려 소프트웨어 솔루션을 개발할 수 있게 한다.

(3) SaaS: 주문형 소프트웨어(on-demand software)로도 불리며, 소프트웨어 및 관련 데이터는 중앙에 호스팅되고 사용자는 웹 브라우저 등의 클라이언트를 통해 접속하는 형태의 소프트웨어 전달 모델로 구분한다. 데이터를 클라우드 제공자의 서버에 저장함으로써 보안의 문제가 발생할 수 있는데 인텔리전트 서드파티 키 관리 시스템을 채택하여 보안 문제를 해결할 수 있다. 네이버 클라우드, 구글 문서 등이 SaaS의 예이다.

(4)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 4 / 20 그림 1. 클라우드 컴퓨팅의 분류. 또한 서비스 제공 주체에 따라 제공 업체가 서버를 구축하여 인터넷 상으로 여러 사용자들에 의해 공유되는 퍼블릭 클라우드(Public Cloud), 기업이나 기관에 의해 인트라넷 상에서 배타적으로 사용되는 프라이빗 클라우드(Private Cloud)가 있다. 최근 비용 절감의 효과를 가져오는 퍼블릭 클라우드와 보안상의 이점을 가지고 있는 프라이빗 클라우드의 장점을 극대화할 수 있는 하이브리드 클라우드(Hybrid Cloud)가 각광을 받고 있다.

1.2 생명정보 분야의 클라우드 서비스의 대두

1990년 초, 미국을 중심으로 한 다국적 컨소시엄에서 최초의 인간 게놈 데이터를 만드는 작업은 수백명의 인원이 투입되어 10년 이상의 기간과 1,000억원 이상의 비용이 소요되었다. 차세대 게놈 시퀀싱(Next Generation Sequencing, NGS)의 기술이 발전해 나감에 따라 2011년 스티브

(5)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 5 / 20 잡스가 췌장암 치료를 위해 풀시퀀싱 유전자 검사비로 10만 달러를 사용했던 것이 지금은 1,000달러 이내로 가능하며 지난 1월 열린 JP모건 헬스케어 컨퍼런스에서 Illumina가 NovaSeq 6000을 발표하면서 100달러 게놈 시대가 열렸다. 이렇듯 NGS의 비용이 낮아짐에 따라 생산되는 유전체 데이터가 기하 급수적으로 증가하고 있다. 유전체 연구를 위해선 1인당 약 300GB에 달하는 데이터를 분석해야 연구에 필요한 결과를 정확히 추출할 수 있다. 10명이면 3TB, 100명이면 약 30TB에 이르는 데이터를 분석해야 한다. 30TB는 MP3 음악파일 75만곡을 저장할 수 있는 분량이다. IT 전문 인프라가 부족한 의료기관이나 연구기관이 이러한 대용량 유전체 데이터를 개별 시스템을 구축해 효율적으로 관리하고, 최신의 분산병렬 컴퓨팅 기술을 이용한 데이터 전송 및 저장에 많은 어려움이 있다. 그러나 클라우드 서비스를 통해 개인이 유전자 분석을 할 수 있고, 정보를 저장할 수 있다. 전통적인 생물정보학과 새로운 클라우드 기반 워크플로우 사이에는 차이점이 있다. 전통적인 경우 데이터를 가공, 분석 및 결과 획득을 위해 연구자가 자신의 컴퓨터와 같은 저장 장치에 직접 다운로드 하거나 업로드 하는 과정을 거침에 따라 일반적으로 느리고 중복되며 높은 IT 자본 지출을 필요로 한다. 반면에, 새로운 클라우드 컴퓨팅 유전체학 모델은 데이터를 다운로드 하는 대신 컴퓨팅(예: 표준 및 사용자 지정 파이프라인, 워크플로우 도구)이 데이터에 제공되는 원 스톱 워크플로우가 특징이다[4]. 또한 과학 연구에서 전통적인 방법에 비해 클라우드 컴퓨팅의 솔루션을 통해 재현 가능한 과학 연구가 가능하며 그 특징은 표 1과 같다[5].

(6)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 6 / 20 표 1. 클라우드에서 재현 가능한 과학 컴퓨팅의 특징 전통적인 방법 클라우드 컴퓨팅 데이터 공유 • 대형 데이터 세트는 표준 인터넷 연결을 통해 공유하기 어려우므로 많은 양의 기술 자원을 확보하고 저장해야 함 • 공용 데이터 세트가 자주 변경되며, 분석에 사용되는 전체 데이터 저장소를 보관하고 공유하기 어려움 • 대형 데이터 세트는 클라우드의 'omnipresent' 리소스로 저장 될 수 있으며 클라우드의 모든 지점에서 직접 쉽게 복사하고 액세스 할 수 있음 • 대규모 공공 데이터 세트의 '스냅 샷'을 신속하게 복사, 보관 및 참조 가능 소프트웨어 응용 프로그램 • 결과의 재현성은 원래 분석이 수행 된 정확한 소프트웨어 환경(즉, 운영 체제, 소프트웨어 및 구성 설정)을 복제해야 하는 경우가 있음. 소프트웨어 또는 프로그래밍 언어 인터프리터의 특정 버전은 종종 재현성이 요구됨 • 분석 파이프라인의 일부로 하나 이상의 시스템에서 정해진 순서로 실행되는 여러 유형의 소프트웨어 또는 스크립트에 의해 분석이 수행됨. 개인 프로그램 또는 스크립트는 출판된 결과와 함께 제공됨. 분석에서 사용된 파이프라인의 재작성에 상당한 기술적 리소스가 필요함 • 표준 소프트웨어 패키지는 과학 도메인의 모든 요구를 충족시킬 수 없음. 연구자는 비표준 소프트웨어 및 전산 파이프라인을 개발하여 일반 도구의 기능을 능가하는 컴퓨팅을 용이하게 함 • 컴퓨터 시스템이 클라우드에 가상화 되어 있어 기본 하드웨어에 대한 걱정 없이 대규모로 복제 할 수 있음. 분석에 사용 된 완전히 구성된 시스템의 스냅 샷을 디지털 시스템 이미지로 신속하게 보관할 수 있음. 클라우드에서 다른 사람들과 복사 및 공유하여 원래 분석에 사용 된 정확한 시스템 환경을 재구성 할 수 있음 • 시스템 이미지는 과학적 영역(예: DNA 시퀀서 데이터의 게놈 시퀀스 어셈블리)에서 일반적인 작업을 용이하게 하기 위해 사전에 표준화 된 방식으로 공통 및 사용자 정의 소프트웨어 및 도구로 환경이 구성 될 수 있음. 사전 구성된 이미지는 재현성과 후속 연구를 촉진하기 위해 공개 자료로 공유 될 수 있음 시스템 및 기술 • 분석을 재현하려면 상당량의 컴퓨팅 리소스를 가진 사람들에게만 국한됨 • 연구자가 분석을 재현하고 필요한 소프트웨어 및 시스템 구성을 복제하기 위해 종종 전문 기술 지원이 필요함 • 클라우드 기반 컴퓨팅 리소스는 동적으로 확장될 수 있음. 연구자는 필요할 때 대규모 컴퓨팅 클러스터를 생성하고 분석 완료 시 해제할 수 있음 • 비 기술자가 완전한 컴퓨팅 파이프라인을 재구성할 수 있는 배포 스크립트와 함께 머신 이미지로 공유 할 수 있음 접근과 보존 • 자금 지원이 중단된 소프트웨어 또는 유지 관리자가 프로젝트를 중단한 후에는 소프트웨어 및 데이터 저장소가 퍼블릭 도메인에서 사라지는 경우가 있음. 이는 리소스에 대한 엑세스 및 공공 투자의 손실을 가져옴 • 연구비로 지원되는 프로젝트의 소프트웨어, 코드 및 데이터를 보관하고 클라우드에서 공개적으로 액세스할 수 있는 리소스로 제공하고 자금을 지원함 • 클라우드 컴퓨팅 제공 업체가 공개 과학 데이터 세트를 무료로 호스팅

(7)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 7 / 20 유전체학 분야에서 빅데이터 기술의 역할은 연구자가 생물학적 정보를 수집하고 분석 할 수 있도록 데이터 저장소, 컴퓨팅 인프라 및 효율적인 데이터 조작 도구를 제공한다. 빅데이터 기술 및 도구는: (1) 데이터 저장 및 검색, (2) 오류 식별, (3) 데이터 분석 및 (4) 플랫폼 통합 배포 라는 크게 네 가지 범주로 나뉘며 다음과 같다[1]. 표 2. 유전체 빅데이터 응용 도구 범주 도구 특징 데이터 저장 검색 CloudBurst • 매핑 프로세스를 병렬 처리하여 대용량 시퀀싱 데이터 읽기의 확장 성을 향상시키는 게놈 매핑 프로그램 • 25 코어 클러스터를 사용하여 7 백만 번의 읽기를 처리하며 단일 코어 컴퓨터보다 거의 24 배 빠름 • 대용량 게놈을 어셈블리 하는 Contrail 및 시퀀싱 데이터에서 단일 뉴클레오티드 다형성(SNP)을 식별하기 위한 Crossbow 와 같은 생물 의학 연구를 지원 DistMap • Hadoop 클러스터에서 분산 형 short-read 매핑을위한 툴킷

• 9 개의 매퍼인 BWA, Bowtie, Bowtie2, GSNAP, SOAP, STAR, Bismark, BSMAP, TopHat 을 제공 • BWA 매퍼는 단일 노드 매퍼보다 13 배 빠른 DistMap 을 사용하여 약 6 시간 만에 5 억 개의 리드 패어(247GB)를 수행 SeqWare • Apache HBase 데이터베이스를 기반으로 구축 된 쿼리 엔진으로, 대규모의 전체 게놈 데이터 세트에 액세스 가능 • 게놈 브라우저와 도구를 통합하기 위한 대화형 인터페이스 제공 • 프로토 타이핑 분석에서 U87MG 및 1102GBM 종양 데이터베이스가 사용되고 Berkeley DB 및 HBase 백 엔드를 비교 The Read Annotation Pipeline® by the DNA Data Bank of Japan (DDBJ) • 차세대 시퀀싱 데이터의 높은 처리량 분석을 위한 클라우드 기반의 파이프라인 • (1) FASTQ 형식의 데이터를 받아들이고 품질이 낮은 base 를 잘라내 기 위해 사전 처리 (2) 게놈 퍼런스레에 매핑하거나 수퍼 컴퓨터에서 수집하는 두 가지 수준의 분석을 지원하는 시퀀싱 데이터 세트를 처리하기 위한 사용자 친화적 인 인터페이스를 제공

• SNP 탐지, RNA 시퀀싱 및 ChIP-seq 분석과 같은 고급 분석을 위해 Galaxy 인터페이스를 사용 • 6.5 시간 만에 347 백만 건의 시퀀싱 읽기를 383MB 기준 게놈에 매핑 Hydra • Hadoop 분산 컴퓨팅 프레임 워크를 사용하는 확장 가능한 단백체질 검색 엔진 • 대량의 펩티드와 스펙트럼 데이터를 확장 가능한 검색을 지원하는 분산 컴퓨팅 환경을 구현하여 대형 펩타이드 및 스펙트럼 데이터베이스를 처리하기 위한 소프트웨어 패키지 • 단백질체 검색은 (1) 펩티드 데이터베이스를 생성 (2) 스펙트럼을 채점하고 데이터를 검색하는 두 단계로 나뉨 • 43 노드 Hadoop 클러스터에서 약 40 분 만에 270 억 펩티드 스코어링을 수행

(8)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 8 / 20 오류 식별

SAMQA

• 시퀀싱 데이터의 오류를 확인하고 대규모 게놈 데이터가 최소 품질 기준을 충족하는지 확인

• 원래 NSQ (National Institutes of Health Cancer Genome Atlas)에서 자동으로 오류를 식별하고 보고하기 위해 만들어짐

• 데이터 이상(예: 시퀀스 정렬/맵 [SAM] 형식 오류, 유효하지 않은 CIGAR 값)을 찾기 위한 일련의 기술 테스트가 포함

• 단일 코어 서버에 비해 23GB 샘플을 거의 80 배 더 빠르게 처리

ART

• 세 가지 주요 시퀀싱 플랫폼인 454 Sequencing™, Illumina 및 SOLiD 에 대한 분석을 위한 시뮬레이션 데이터를 제공 • 판독 오류 및 판독 길이의 프로파일을 내장하고 있으며, 염기 치환, 삽입 및 결손의 세 가지 유형의 염기 서열 분석 오류를 식별 CloudRS • 병렬 처리와 확장 가능한 프레임 워크를 기반으로하는 고속 대량 시퀀싱 데이터의 RS 기반 오류 수정 알고리즘 • GAGE 벤치 마크를 사용하여 6 개의 데이터 세트에서 시스템을 평가한 결과 Reptile 분석법에 비해 높은 정확도 데이터 분석 Genome Analysis Toolkit (GATK) • 대규모 DNA 서열 분석을 지원하도록 설계된 MapReduce 기반 프로그래밍 프레임워크

• SAM, BAM, HapMap 및 dbSNP 를 비롯한 많은 데이터 형식을 지원

• "traversal" 모듈이 시퀀스 데이터를 준비하고 시스템으로 읽어 와서 Ioci 로 데이터를 정렬하는 것과 같이 데이터에 대한 관련 레퍼런스를 제공. "walker" 모듈은 데이터를 소비하고 분석 결과를 제공 The ArrayExpress Archive of Functional Genomics data repository • 높은 처리량의 유전체 데이터를 통합하기 위한 국제적인 협업 • 저장소에는 30,000 회의 실험과 1 백만 개 이상의 분석이 포함됨. 데이터의 약 80 %는 GEO 데이터 저장소에서 추출되었으며, 나머지 20 %는 사용자가 ArrayExpress 에 직접 제출. 매일 1,000 명이 넘는 사용자가 방문하며 50GB 이상의 데이터가 다운로드 됨 • R 및 GenomeSpace 와 연결되어 데이터 전환 및 분석을 지원 BlueSNP • 대규모 유전자형 - 표현형 데이터 세트 간의 연관성을 찾기 위해 통계 테스트에 초점을 맞춘 장 genome-wide association studies (GWAS) 분석을 위한 R 패키지 • Hadoop 플랫폼에서 작동하여 40 개 노드 클러스터에서 34 명의 사람들 중 104 명의 106 개 SNP 에 1,000 개의 표현형을 분석함 Myrna • 대규모 RNA-seq 데이터 세트에서 유전자 발현의 차이를 계산하는 클라우드 기반 컴퓨팅 파이프라인 • 판독 정렬, 정규화 및 통계 모델링을 포함하여 RNA-seq 분석을 위한 여러 기능을 지원

• Amazon EC2 에서 11 억 개의 RNA-seq 리드를 사용하여 테스트한 결과 66 달러로 2 시간 이내에 데이터를 처리

(9)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 9 / 20 Eoulsan

• 시퀀서 읽기에서 데이터 가져 오기, 레퍼런스 게놈으로의 데이터 매핑, 정렬 필터, 전사체 발현량 계산, edgeR 을 사용한 표현 정규화 및 미분 표현의 탐지를 포함한 차등 전사 발현량을 분석

• Amazon Elastic MapReduce 의 독립 실행형, 로컬 클러스터 및 클라우드의 세 가지 모드로 실행 가능 • Amazon EC2 에서 1 억 8,800 만 건의 마우스 샘플 8 개를 사용하여 테스트 한 결과 데이터 처리 비용은 $18-$66 이었으며 총 시간은 109~822 분이 소요 SparkSeq • 대화형 게놈 데이터 분석을 위한 빠르고 정확하며 확장 가능한 클라우드 지원 소프트웨어 패키지 • RNA / DNA 연구를 위한 대화형 쿼리를 제공하며 생물 정보학 파일을 처리하기 위한 Hadoop-BAM 라이브러리를 사용하여 Apache Spark 에서 구현

플랫폼 통합 배포

SeqPig

• Hadoop-BAM 라이브러리를 이용한 Apache Pig 스크립트를 확장하여 대량의 BAM 파일을 분석하고 Pileup, base 빈도 계산, 리드 커버리지 및 분포와 같이 일반적으로 사용되는 처리 도구를 제공 CloVR • 가상 시스템을 통해 배포되는 시퀀싱 분석 패키지 • 로컬 데스크톱 및 클라우드 시스템을 모두 지원하여 고속 대량의 데이터 처리를 지원 • 전체 게놈, 메타게놈, 16S rRNA 서열 분석을 포함하여 몇 가지 자동화된 생물정보학 워크플로우/파이프라인이 가상 시스템에 통합.

• 로컬 시스템 (4 CPU, 8GB RAM) 및 Amazon EC2 클라우드 플랫폼 (80 CPU) 두 시스템 모두에서 이식 가능하며 EC2 인스턴스 약 5 배 빠르게 실행

CloudBioLinux

• 미리 구성된 도구 (예: GATK, Bowtie, Velvet, FASTX) 및 프로그래밍 라이브러리 (예: BioJava, R, Bioconductor)를 비롯하여 시퀀싱 분석을 위해 135 개 이상의 생물 정보학 패키지를 제공하는 가상 시스템 솔루션 • Hadoop 클라우드를 배포하기 위한 간단한 인터페이스를 제공 CloudDOE • MapReduce 를 사용하여 고속 대량의 시퀀싱 데이터를 분석하고, 생물 정보학 연구자를 위해 Hadoop 클라우드를 구성하기 위한 복잡한 절차를 캡슐화하는 사용자 친화적인 도구

• 여러 패키지가 CloudDOE 패키지(CloudBurst, CloudBrush 및 CloudRS)와 통합되며 위저드 및 그래픽 사용자 인터페이스를 통해 작업이 더욱 단순화됨

이제부터 대표적인 국내외 생명정보 분야 클라우드 동향을 살펴보고자 한다.

2. 해외 유전체 클라우드 동향

2.1 DNAnexus for Genome Centers

(10)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 10 / 20 컴퓨팅 및 데이터 저장 요구를 즉시 충족할 수 있는 확장 가능한 인프라를 제공한다. DNAnexus 플랫폼의 특징은 다음과 같다. • 세분화된 인증 및 접근 제어 • 재현성 있고 버전 제어 된 분석 결과 • 보안 및 개인 정보 보호 준수 • 재현성 및 문서화 • 공동 작업자 액세스의 보안 제어 및 감사

• Application Programming Interface (API) 기반의 Laboratory Information Management System (LIMS) 통합

DNAnexus 플랫폼은 DNA 기반 연구 및 개발을 위한 맞춤형 엔드 투 엔드(end-to-end) 솔루션을 가능하게 하며 다음과 같이 전세계 과학 협업을 지원한다. A. 게놈 센터의 다양한 요구를 위한 단일 플랫폼에 대한 지원 DNAnexus에서는 시스템에서 작동하는 코드의 문법을 기술하는 API 기반 플랫폼을 통해 게놈 센터 및 연구실의 다양한 요구에 대해 현재 프로세스와 워크플로우를 클라우드로 마이그레이션할 수 있는 유연성을 제공한다. 각 프로젝트의 요구 사항을 충족시키기 위해 DNAnexus 플랫폼은 수백 명의 공동 연구자를 추가하여 여러 연구자에 대한 통합 지원을 제공한다. 액세스 제어 및 자원 제한은 상세한 가시성 및 제어를 위해 사용자, 조직 및 프로젝트 레벨에서 적용될 수 있다. Linux 쉘 형식의 명령을 줄 도구와 웹 환경이 편리한 온라인 인터페이스를 모두 제공한다. B. 대규모 게놈 데이터 세트 및 복잡한 파이프라인 관리 풍부한 API를 제공하기 때문에 LIMS 시스템을 통해 프로그래밍 방식으로 액세스할 수 있다. 사용자는 보관 정책 및 삭제 정책 시행, 데이터 태그 지정 및 검색, 사용 보고서 생성 및 파이프라인 실행 자동화와 같은 작업을 쉽게 수행할 수 있다. 하나의 안전한 환경 아래에서 데이터 및 전산 도구를 사용하면 복제 또는 불필요한 데이터 전송 없이 재현 가능하고 버전 제어된 분석 결과를 쉽게 얻을 수 있다. The Baylor College of Medicine Human Genome Sequencing Center (BCM-HGSC)에서 대규모 게놈 분석 문제를 보다 빠르고 비용 효과적으로 해결하고 달성하는 데 도움이 되는 클라우드 컴퓨팅의 응용 분야에서 발전을 가져왔다. 이러한 선구자적 연구를 통해 HGSC와 함께 Mercury variant-calling[7] 파이프라인을 DNAnexus 플랫폼에 배치하여 14,000개 이상의 게놈에 대한 데이터 분석을 확장하기도 하였다.

(11)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 11 / 20 C. 기타 서비스

그 외에 제약 회사와 의료 서비스 제공자, 병원 및 임상 실험실을 연결하는 글로벌 네트워크를 제공하여 생물학 제약분야 R&D를 돕는 한편 무제한 스토리지 및 전산 자원을 지원하는 안전한 클라우드 플랫폼을 통해 유전체 기반 진단 파이프라인의 배포를 용이하게 한다.

그 밖에 DNAnexus의 사례 연구 중에 2015년 6월 스탠포드 대학의 Data Coordination on Center (DCC)의 ENCyclopedia of DNA Elements (ENCODE) 프로젝트가 있다[8]. DNAnexus 플랫폼은 ENCODE 데이터에 대한 DCC 생물 정보 분석을 지원하므로 광범위한 연구 커뮤니티에서 소규모 기업의 생물 정보 방법을 사용할 수 있다. 수천 개의 데이터 세트를 처리할 수 있는 확장 가능한 솔루션이 DCC의 핵심 요구 사항이며 버전 제어 파이프라인의 개발을 통해 현재 단계에서 대중에게 공개되는 ENCODE 프로젝트의 데이터가 일관되게 처리되도록 한다. 균일한 메타 데이터 표준 및 생물 정보 분석을 사용하여 프로젝트의 미처리 및 처리된 시퀀스 기반 데이터를 중앙 집중화하는 작업을 수행한다.

2.2 구글 지노믹스

구글은 2008년에 가상 플랫폼 서비스(PaaS)인 구글 앱엔진을 출시했다. 구글 클라우드는 구글의 그 동안 검색, 지도, 유튜브에서 축적한 기술을 가지고 데이터 센터 인프라를 기반으로 연산, 저장소, 네트워킹, 빅데이터, 기계학습 등의 서비스를 제공하는 글로벌 클라우드다. 구글 지노믹스 (Google Genomics)는 구글 서버 안에서 클라우드 시스템을 구축하여 유전자 분석을 할 수 있도록 하고, 정보를 저장할 수 있게 해준다[9]. 이 서비스의 출발은 National Cancer Institute에서 시작한다. 환자 데이터 분석을 하기 위해 The Cancer Genome Atlas (TCGA) 프로젝트를 구성하여 약 13,000여명의 암환자에 대한 대규모 데이터를 분석할 수 있는 회사들과 파일럿 프로젝트를 하였고, 그 중 구글이 선정되었다. 유전자 분석을 통해 맞춤형 의료(Precision Medicine)을 하려는 스탠포드 대학병원에서 최근 구글 클라우드를 이용하여 환자들의 유전자 패턴을 분석(Molecular Profiling)하겠다고 밝혔다 (http://www.mayoclinic.org/diseases-conditions/cancer/expert-blog/molecular-profiling/bgp-20056382). 스탠포드 대학 병원 의사들은 필요에 따라 환자의 시퀀싱을 의뢰할 수 있으며, 이 데이터는 구글 지노믹스 안에서 익명의 다른 스탠포드 환자들의 데이터와 비교 분석된다. 특정 동일 경력을 공유하는 집단과의 분석(예: 대장암을 겪은 집단)을 통해 현재 환자와 가장 유사한 사례를 찾아 처방을 내려 치료의 정확도를 높이는 것이 궁극적인 목적이다. 이 외에도 구글 지노믹스 시스템 안에서 개발된 분석 도구들은 다른 기관 간에도 전문 IT 기술 없이 쉽게 공유가 가능하다. 하드웨어적으로는 Google Compute Engine Virtual Machine (VM) 기술을 이용하여 수천 대에서 수 만대의 컴퓨터를 유저들이 동시 다발적으로 유전자 분석을 할 수 있기 때문에 분석 시간을 대폭 단축시켜준다.

(12)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 12 / 20 레퍼런스 및 주석의 모든 과정을 분석할 수 있으며 다음과 같이 활용할 수 있다.

• Global Alliance for Genomics and Health로부터 표준화 되고 Bigtable과 Spanner와 같은 구글 빅데이터 기술로 만들어진 구글 지노믹스 API를 활용.

• Apache Spark나 파이프라인의 스트림 및 일괄 처리를 모두 지원하는 관리 데이터 처리 서비스인 Cloud Dataflow, 공동 목표에 도달하기 위해 여러 위치에서 컴퓨터 자원 수집하는 Grid Engine cluster로 GATK on Google Genomics 배치에서 데이터를 탐색, 분석, 변환 및 시각화하고 기계 학습 모델을 작성하기 위해 개발된 강력한 대화식 도구인 Cloud Datalab을 제공. 또한 빅데이터를 SQL로 실시간 분석할 수 있는 BigQuery로 유전체 데이터를 빠르게 처리하고 분석. • 빠른 가상 머신, 확장 가능한 저장공간, 대규모 분석 및 운영 작업 이 가능한 Bigtable과 웹 및 모바일 애플리케이션이 가능한 Datastore와 같은 NoSQL 데이터베이스를 선택하여 개개인의 생물정보학 필요성을 위한 구글의 클라우드 인프라를 사용. 구글 클라우드 플랫폼의 작동 과정을 도식화 하면 다음과 같다. 그림 2. 구글 클라우드 플랫폼 워크플로우 [출처: https://cloud.google.com/genomics/overview] 구글 지노믹스는 유전체 분석을 위한 공개 데이터셋을 제공하고 있는데, 그 목록은 다음과 같다. • 1,000 Genomes: 전세계 25개 인구의 약 2,500개의 게놈으로 구성

• Illumina Platinum Genomes: CEPH 가계도 #1463의 6명 데이터. https://www.illumina.com/platinumgenomes.html 참조

(13)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 13 / 20 • Platinum Genomes DeepVariant: Verily DeepVariant toolchain을 사용한 CEPH 가계도 #1463의 6명 데이터

• PrecisionFDA Truth Challenge: PrecisionFDA Truth Challenge의 HG001 (NA12878)과 HG002 (NA24385)의 WGS 데이터로 구성

• Reference Genomes: GRCh37, GRCh37lite, GRCh38, hg19, hs37d5, b37와 같은 레퍼런스 게놈 • MSSNG Database for Autism Researchers: 자폐증 환자 가족의 Illumina 및 Complete Genomics 게놈 데이터

• TCGA Cancer Genomics Data in the Cloud: 33개의 암종에 대한 somatic mutation calls, clinical data, mRNA/miRNA expression, DNA methylation, protein expression의 공공 TCGA 데이터

• Supercentenarian Genomes: 110세 이상의 초고령 17명 게놈

• Personal Genome Project Data: 180명의 Complete Genomics의 게놈

• ICGC-TCGA DREAM Mutation Calling Challenge synthetic genomes: ICGC-TCGA DREAM Mutation Calling challenge의 3쌍의 synthetic tumor/normal쌍

• Simons Genome Diversity Project: 127개의 다양한 개체군으로부터 공개적으로 이용 가능한 279개의 게놈

2.3 마이크로소프트 지노믹스

마이크로소프트 지노믹스(Microsoft Genomics)는 하이브리드 클라우드 인프라를 활용하고 Azure, Azure Pack 또는 Windows Server Hyper-V에서 Linux 또는 Windows 전송 파이프라인을 통해 클라우드 기반 서비스를 구축했다[10]. 클라우드 하드웨어와 함께 고급 소프트웨어 최적화 기술을 적용하며 대규모 게놈을 쉽고 안정적으로 처리할 수 있다. 컴퓨터과학, 기계학습 및 통계에서부터 서열 정렬, 변이 찾기, denovo 시퀀싱 및 전장 유전체 연관 연구인 FaST-LMM 프로젝트를 포함한 유전체학 응용에 대한 서비스를 제공한다.

MIT의 Broad Institute와 Harvard는 AWS, Cloudera, Google, IBM, Intel 및 Microsoft와 협력하여 GATK 소프트웨어 패키지에 대한 클라우드 기반 액세스를 지원한다. 이러한 협력을 통해 GATK Best Practices 파이프라인은 클라우드 서비스를 SaaS를 통해 사용자가 사용할 수 있게 되어 기존 데스크탑 솔루션에 비해 확대된다. Broad는 또한 Apache SparkTM 컴퓨팅 프레임 워크를 기반으로 차세대 GATK를 개발하기 위해 공동 연구자와 협력 할 예정이다. 마이크로소프트는 BWA와

(14)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 14 / 20 GATK의 게놈 리어셈블리를 위해 Broad Institute Best Practices 파이프 라인의 속도를 크게 향상 시켰으며 유전체 데이터를 읽고 처리하는 파이썬 라이브러리 및 API를 제공한다. 오픈 소스 툴은 GitHub 페이지(https://github.com/microsoftgenomics/)에서 찾을 수 있으며, 상업적인 연구는 해당 웹사이트에서 직접 제공한다.

2.4 Galaxy CloudMan

Galaxy의 CloudMan[11]은 클라우드 인프라에 대한 인터페이스를 추상화하는 소프트웨어 패키지로, 사용자가 특정 인프라의 자세한 내용을 몰라도 쉽게 사용할 수 있으며 클라우드 인프라의 장점을 제대로 살린 솔루션이다. CloudMan은 탄력적이고 동적인 리소스 확장을 지원하며 Galaxy와 함께 즉시 사용할 수 있다. CloudMan은 AWS, OpenStack 및 OpenNebula를 비롯한 여러 클라우드 인프라에서 작동한다.

A. Galaxy Standalone image

독립 실행형 Galaxy 이미지가 CloudMan 기반 이미지와 동일한 구성으로 사전 구성되어 있지만 가상 클러스터로 확장할 수 있는 옵션은 제공되지 않는다. NSF Jetstream 클라우드 및 Google Compute Engine 클라우드의 이미지가 존재한다.

B. Globus Genomics

Globus Genomics은 시카고 대학 Computation Institute의 Globus팀이 제공하고 유지 보수하는 비영리 제공 서비스이다. 해당 서비스를 통해 대규모 데이터 관리 및 데이터 분석 기술을 활용한 NGS 분석이 가능하다. 특히 Globus Online의 거대한 데이터 관리 기능과 HTCondor 기술을 사용하여 AWS에서 Galaxy 프레임 워크의 유연하고 직관적인 워크플로우/파이프라인 작성이 가능하며 높은 처리량 컴퓨팅 기능을 결합한다. 연구자로 하여금 다양한 시퀀싱 센터에서 대량의 시퀀스 데이터를 쉽게 전송하고 익숙한 Galaxy 인터페이스를 통해 미리 정의된 모범 사례 분석 파이프라인 중 하나를 사용하여 대화식으로 데이터를 분석이 가능하게 한다.

C. 상업용 클라우드 솔루션

Cloudman과 Globus Genomics 모두 AWS를 사용한다. CloudMan은 OpenStack 또는 OpenNebula 클라우드 관리 프로토콜을 지원하는 모든 클라우드 제공 업체에서 실행할 수도 있다. 여기에는 대다수의 상용 클라우드 제공 업체가 포함되며 클라우드 제공자가 아닌 CloudMan을 사용하여 자신만의 Galaxy 서버를 설정할 수도 있다.

(15)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 15 / 20 표 3. 해외 클라우드 서비스 회사

회사명 웹사이트 특징

FireCloud https://software.broadinstitute.org/firecloud/ Broad Institute 의 클라우드 기반 TCGA 데이터에 대한 암

게놈 분석 플랫폼

BaseSpace http://basespace.illumina.com Illumina 클라우드 기반의 NGS 데이터 관리 및 분석을

위한 유전체 컴퓨팅 환경 Seven

Bridges Genomics

http://www.sbgenomics.com NCI Cloud Genomics Pilot 의 혁신적인 플랫폼을 구축

(October 21, 2014 — Cambridge, MA)

Curoverse http://curoverse.com 테라 바이트에서 페타 바이트까지의 데이터를 관리 및 처리하는 최신 오픈 소스 컴퓨팅 시스템 인 Arvados 를 사용하여 주요 클라우드에서 실행 InsideDNA https://insidedna.me/ 웹 브라우저 또는 터미널 유틸리티를 통해 유전체 데이터를 업로드하고, 1000 개 이상의 생물 정보 도구를 이용하여 CPU 와 RAM 결정 후 결과를 빠르고 쉽게 얻을 수 있으며, 간단한 웹 URL 로 저장되는 iMethod 로 분석을 저장하고 공유가 가능

Pine Biotech http://pine-biotech.com/

간단한 인터페이스와 직관적인 옵션을 통해 오믹스 데이터 및 기계 학습 방법의 분석은 물론 모델링을 결합하여 다양한 데이터 유형에 대한 분석을 통합 BGI Online https://www.bgionline.com/ 설치가 필요 없는 게놈 시퀀싱 및 분석 프로젝트에

도움을 주는 안전한 클라우드 플랫폼 GenoSpace http://www.genospace.com 종양학 및 희귀 질병에 대한 정밀 의학을 위한 클라우드 기반 소프트웨어 Cypher Genomics http://www.cyphergenomics.com 대규모 컴퓨팅 및 기계 학습을 개발 및 적용하여 전체 게놈, 표현형 및 임상 데이터에 대한 세계에서 가장 크고 가장 포괄적 인 데이터베이스를 만든 Human Longevity, Inc. (HLI)와 협력 Era7 http://era7.com NGS, 박테리아 유전체, 클라우드 컴퓨팅, 오픈 서비스를 지향하는 NGS 프로젝트 통합 분석 서비스 제공 Genestack http://www.genestack.com 유연한 데이터 관리 인프라, 시각적 분석 도구, 파이프라인 및 보고서를 제공하는 생물정보학 플랫폼 PierianDx http://pieriandx.com/ 학술 의료 센터, 보건 시스템, 어린이 병원, 종합 암 센터 및 상업 실험실을 통해 정밀 의약 사업을 가속화. 임상 검사를 사내에서 신속하게 또는 한 번에 한 단계 씩 수행하려는 경우 적절한 솔루션을 제공 Eagle Genomics http://www.eaglegenomics.com 데이터 관리 솔루션은 유전체학 연구에 의해 생성 된 기하 급수적으로 증가하는 데이터 양을 효율적으로 분석하고 관리 할 수 있음 Maverixbio http://www.maverixbio.com 최적의 NGS 데이터 분석 기능을 제공하는 연구원 및 의료 서비스 제공 업체를 지원하여 기존 병목 현상을 극복하고 발견 및 진단 결과의 속도를 가속화

(16)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 16 / 20 BioDatomics http://www.biodatomics.com/ BioDT SaaS 를 통해 개인 또는 소규모 그룹에게 BioDT

Pro 의 모든 기능과 속도는 공용 클라우드를 제공 Ion Torrent's Ion Reporter http://www.lifetechnologies.com/ionreporter

Ion Reporter Software™는 Ion S5™, Ion S5™ XL, Ion PGM™ 및 Ion Proton™ 시스템 데이터 분석을 간소화하는 최적화 된 데이터 분석 도구 제품군을 제공

3. 국내 유전체 클라우드 동향

3.1 KT의 GenomeCloud

GenomeCloud[12]는 KT 클라우드의 인프라를 활용한 유전체 분야 응용서비스이다. 오픈소스를 활용한 오픈 그리드 엔진을 이용해 방대한 유전체 데이터를 저렴한 비용으로 분석할 수 있게 돕는다. IT 인프라를 따로 구축할 필요 없이 마우스 클릭으로 유전체 분석이 가능하게 하는 인프라인 ‘g클러스터’와 유전체 데이터 분석플랫폼인 ‘g인사이트’으로 구성되어 있다. g클러스터는 유전체 전체 영역을 분석하는 WGS (Whoe Genome Sequencing), RNA를 분석하는 WTS (Whole Transcriptome Sequencing), 엑솜 영역을 분석하는 WES (Whole Exome Sequencing) 서비스를 제공한다. g인사이트는 유전체를 분석을 위한 도구다. 유전체 분석 솔루션을 웹 플랫폼에 탑재해, 인터넷만 연결돼 있으면 언제 어디서나 유전체 데이터를 분석할 수 있다. 변이를 일으키는 질병/암을 확인하고 생물 학자, 유전 학자 및 병리학자를 위한 통찰력을 제공하는 솔루션이다. 가족 (트리오) 기반 유전병 연구, 질병 관련 정보, 암 운전자 돌연변이 확인, 돌연변이 관련 약품 정보에 대한 서비스를 제공한다. g스토리지는 향상된 보안 표준 및 무제한 용량의 파일 관리 및 데이터 공유를 비용 효율적으로 용이하게 한다. 동료 및 파트너와 데이터 공유가 가능하며 파일 탐색기, IGV (Integrative Genomics Viewer) 보기, 태그 지정, 키워드 검색 등의 기능을 지원하고 있다. KT는 2010년 12월부터 2011년 6월까지 테라젠과 게놈연구재단과 공동으로 한국인 표준 게놈프로젝트(KPGP) ‘차세대 생명 정보 유전체 연구 및 상용화’ 프로젝트를 추진한 바 있다. 당시 KT는 한국인 20명 유전체를 해독하고 분석할 때 KT의 클라우드 컴퓨팅 인프라를 통한 가상화와 고속 데이터 분석 등을 활용해 기존 방법보다 약 30% 이상 빠르게 분석결과를 도출했다.

(17)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 17 / 20 표 4. 게놈클라우드 g클러스터 서비스 클래스 컴퓨팅 자원 저장소 운영체계 클러스터 S/W 응용 대상 c2 8 vCore 16 GB RAM 370 GB Ubuntu 12.04 OGE BWA 작은 용량 데이터

(2 Execute Nodes) Bowtie

c3 24 vCore 48 GB RAM 1.8 TB Vcftools 큰 용량 데이터 (3 Execute Nodes) Human Reference Genome c6 72 vCore 96 GB RAM 3.6 TB TopHat 많은 샘플

(6 Execute Nodes) BreakDancer

cX Customized X-node cluster and additional disk R & R packages (75+) - Galaxy Standard Execute Nodes: 980 GB 개인 또는 실험실 4 vCore 8 GB RAM x 2 Master Node: 8 vCore 16 GB RAM x 1 Galaxy Pro Execute Nodes: 4.5 TB 기업 또는 연구소 8 vCore 16 GB RAM x 6 Master Node: 8vCore 16 GB RAM x 1

3.2 KOBIC의 Bio-Express

KOBIC은 미래창조과학부 산하의 정부출연연구기관인 한국생명공학연구원에 속해 있는 국가생명연구자원정보센터로서, 포스트게놈 다부처 유전체 사업에서 ‘유전체 연구기반 고도화 및 활용 서비스를 위한 차세대 게놈 인프라넷을 구축’하는 과제를 수행하고 있다. 1단계에서는 유전체 분석 서비스 시스템 개발을 위한 개방형 유전체 정보 공동 활용체제를 구축한다. 여기에는 바이오 클라우드 컴퓨팅 기술을 도입한 하드웨어 인프라를 구축하는 것이 포함되며, 연구지원 과제에서 만들어진 분석 파이프라인을 통합지원 과제에서 만들어진 개방형 시스템을 통해 서비스를 제공하는 방식이다. 국내의 취약한 유전체 정보 분석 기술의 발전을 위해 대용량 유전체 데이터 분석 클라우드 서비스를 제공할 것으로 기대를 모으고 있다.

(18)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 18 / 20 KOBIC의 Bio-Express[13]는 Apache Hadoop 기반 클라우드 분석 서비스이며, 생명정보 연구를 위한 컴퓨팅 인프라(Hybrid Cluster) 구축, 데이터를 안전하게 저장하고 공유할 수 있는 기능을 제공하며 데이터 분석부터 결과까지 모든 유전체 관련 종합 분석 서비스를 제공한다. 고속 데이터 전송, 대용량 유전체 데이터 저장소, 최신 분석 프로그램 제공 및 분석 파이프라인 제공, 다중 사용자 서비스 제공, 공동 연구 환경 제공, 자동화된 전산 자원 관리가 가능하다. 그림 3. Bio-Express 워크플로우. [출처: http://bioexpress.kobic.re.kr] 고속 데이터 전송은 KoDS를 통해 가능하며, 통합 자동 분석 프로그램인 CLOSHA의 웹 사이트에 접속하여 회원가입을 통해 간편하게 서비스 이용이 가능하다. CLOSHA 화면은 파이프라인 프로젝트 목록, 파일 탐색기, 파이프라인 모델링 화면 및 실행 도구 모음, 분석 프로그램 상세정보 테이블, 분석 프로그램 인자 값 정보 테이블, 분석 파이프라인 목록, 사용 가능한 분석 프로그램 목록, 파이프라인 프로젝트 작업 실행 내역 및 현재 진행 상태로 구성되어 있다. RNA Sequencing, Epigenome Analysis, Metagenomics, Exome Sequencing, GSA Sequencing, Gender Determination, Sequencing Alignment, Hadoop Base Analysis, WGS에 대한 분석 프로그램 및 파이프라인을 제공하고 있으며 드래그 앤 드롭 방식으로 손쉽게 실행이 가능하며 실시간 분석 상태를 모니터링하고 각 단계별로 생성된 결과가 저장되면 가시화 프로그램을 통해 곧바로 확인 가능하다.

성능 평가 결과 클라우드의 고속전송시스템인 CLOSHA는 Galaxy가 사용하는 FTP에 비해 4.5~5배 정도 속도 향상을 가져왔다. 한 사람의 WGS 데이터 2TB를 FTP로 전송 시 약 38시간

(19)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 19 / 20 소요되던 것이 7.5시간으로 약 5.1배 단축이 되었다. 또한 Galaxy 분석 파이프라인과 성능을 비교하면 약 15% 시간 단축을 가져왔다.

4. 맺는 말

지금까지 국내외 클라우드 컴퓨팅 기반 유전체 서비스 업체를 소개하고 그 특징을 살펴 보았다. 아직까지는 국내의 유전체 분야 클라우드 컴퓨팅 서비스가 해외에 비해 기반이 약하나 앞으로는 그 기반이 더욱 발전될 것으로 예상된다. 유전체 분석 서비스에서 전통적인 경우 연구자가 자신의 컴퓨터에 직접 데이터를 분석하고 결과를 얻음으로써 속도와 경제적인 지출이 컸지만, 클라우드 컴퓨팅 모델은 계산 과정을 다운로드 과정 없이 워크플로우 도구를 통해 한번에 분석이 가능하다. 이를 통해 데이터 공유와 유연한 컴퓨터 자원 관리, 중앙 집중된 보안의 구현이 가능하다. 그러나 클라우드 서비스 제공 업체는 데이터 제어, 감시, 보안 및 기밀 유지, 책임에 대한 위험을 감지하고 이에 대해 고려해야 할 것이다. 국내 클라우드법 상 해외에 유전체 데이터를 저장할 수 없다는 점을 고려해야 한다. 다행히 구글 클라우드와 달리 AWS와 MS Azure는 최근 국내에 데이터센터를 구축했기 때문에 개인 정보 보호나 비식별화 문제만 주의하면 클라우드 서비스를 이용할 수 있다. 앞으로 클라우드 제품 및 기술의 효과를 보증하여 사용자가 신뢰를 갖고 사용할 수 있는 인증 제도를 통해 공급자들은 사용자들의 신뢰를 얻어 좀 더 과감하게 기술을 개발하여 클라우드 컴퓨팅 유전체 산업을 활성화할 수 있을 것으로 기대된다.

5. 참고문헌

[1] Luo, J., et al., Big Data Application in Biomedical Research and Health Care: A Literature Review. Biomed Inform Insights, 2016. 8: p. 1-10.

[2] Mell, P. and Grance, T (September 2011). 《The NIST Definition of Cloud Computing》. National Institute of Standards and Technology: U.S. Department of Commerce. doi:10.6028/NIST.SP.800-145. Special publication 800-145.

[3] Cloud computing wiki. https://en.wikipedia.org/wiki/Cloud_computing.

[4] Dove, E.S., et al., Genomic cloud computing: legal and ethical points to consider. Eur J Hum Genet, 2015. 23(10): p. 1271-8.

[5] Dudley, J.T. and A.J. Butte, In silico research in the era of cloud computing. Nat Biotechnol, 2010. 28(11): p. 1181-5.

[6] DNAnexus. https://www.dnanexus.com/.

[7] Reid, J.G., et al., Launching genomics into the cloud: deployment of Mercury, a next generation sequence analysis pipeline. BMC Bioinformatics, 2014. 15: p. 30.

[8] Kundaje, A., et al., Integrative analysis of 111 reference human epigenomes. Nature, 2015. 518(7539): p. 317-30.

(20)

클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향 김가경 Page 20 / 20 [9] Google Genomics. https://cloud.google.com; Available from: https://cloud.google.com/genomics/.

[10] Microsoft Genomics. https://enterprise.microsoft.com/en-us/industries/health/genomics/.

[11] Afgan, E., et al., Harnessing cloud computing with Galaxy Cloud. Nat Biotechnol, 2011. 29(11): p. 972-4. [12] GenomeCloud. https://www.genome-cloud.com.

[13] Bio-Express. http://bioexpress.kobic.re.kr/.

※ 본 콘텐츠는 의 후원으로 작성되었습니다.

The views and opinions expressed by its writers do not necessarily reflect those of the Biological Research Information Center. 김가경(2017). 클라우드 컴퓨팅 기반 유전체 정보 관리 및 서비스 동향. BRIC View 2017-T14

Available from http://www.ibric.org/myboard/read.php?Board=report&id=2721 (Apr 27, 2017) Email: member@ibric.org

참조

관련 문서

Sequencing results of groEL gene of Anaplasma phagocytophilum detected in blood, kidney and spleen of wild rodents captured in Jeollanam-do area using a

Als Gesamtergebnis bleibt demnach festzuhalten: In Korea und Deutschland wird die PID nun zwar im Grundsatz verboten und strafrechtlich sanktioniert, sie ist aber

For establishing appropriate treatment plans and prognosis, the estimated value of the correlation between the change in hard and soft tissues is required,

period was prolonged unavoidably, (3) by explaining the risk factors associated with the failure to patients honestly, and subsequently performing

We determined the nucleotide sequences of the mitochondrial DNA (mtDNA) control region using cloning and sequencing, and obtained the complete sequence from the cattle bones

◦ 관리계획에서는 공원녹지의 관리 및 정비계획과 공원녹지의 운영에 대한 관리체계 및 관리 효율화에 대한 방안을 마련하여, 다양한 수요계층에 대한 효율적인 프로그램

CT26 tumor bearing mouse에 광역동치료를 시행하고 24시간 경과 후 종양 조직에서 RNA를 분리하여 mRNA-sequencing 법으로 정단부 원형질막 구성요소 관련 유전자

For confirmation of results of direct real-time melting curve analysis, we also performed an in-house JAK2 V617F ASP and a BsaXI-treated nested PCR-direct