43
바이오인포매틱스를 통한
감염병 예측기술의 현재와 미래
안인성한국과학기술정보연구원 데이터기반문제해결연구단
Future Horizon Insight l
미래연구 인사이트
1. 바이오인포매틱스란?
바이오인포매틱스(bioinformatics)란 ‘생물학’을 뜻하 는 ‘Bio’와 ‘정보학’을 뜻하는 ‘Informatics’의 합성어 로 실험실로부터 생성된 다양한 종류의 실험 데이터들 을 정보학 기술을 활용하여 분석하는 분야를 뜻한다. 과 거에는 대다수의 생물학 연구들이 개별 실험실 단위로 이루어졌기 때문에 많은 수의 데이터를 처리하는 기술 이 필요하지 않았으나, 2000년대 들어서면서 급속도로 발전한 인터넷 기술에 힘입어 연구자들은 자신과 유사 한 연구를 하고 있는 그룹들과의 정보교류를 통하여 본 인 실험결과를 검증하고 앞으로의 연구방향을 전략적 으로 결정하고자 하였다. 미국 국립생물공학정보센터 (National Center for Biotechnology Information,
NCBI)
1), 유럽 바이오인포매틱스연구소(European Bioinformatics Institute, EBI)
2), 일본 DNA 정보은행 (DNA Data Bank of Japan, DDBJ)
3)등이 이 시기에 동 분야의 견인차 역할을 했던 대표적인 생물학 데이터 제 공 기관들이다.
바이오인포매틱스 초창기에 연구자들의 가장 큰 관심 사는 내 실험실에서 나온 연구결과를 다른 연구자의 연 구결과와 비교해 보는 것이었다. 그 전에는 학술지 논문 을 통해서만 다른 그룹들과의 차이를 비교해 볼 수 있 었지만, 바이오인포매틱스 기술이 등장한 후에는 연구 자들이 이를 통해 전 세계에서 생산된 실험데이터와 내 가 생산한 데이터를 비교해 보고 이후의 연구방향을 결
42
열분석을 통해서 처음 밝혀내면서 1958년에 노벨 화학 상을 수상하였으며, 이후 한 번에 300개의 염기를 해독 할 수 있는 시퀀싱 방법을 개발하여 1980년에 두 번째 노벨상을 수상하였다. 이때 개발한 시퀀싱 방법은 생거 시퀀싱 방법(Sanger Sequencing Method)으로 명명되 어 생물학 분야에서 바이블처럼 사용이 되었다. 2010 년대에 접어들면서 스위스의 로슈(Roche)사, 미국의 일루미나(Illumina)사, 그리고 라이프테크놀로지(Life Technologies)사는 기존의 생거방법에서 탈피하여 대 량의 유전정보를 단시간에 분석해낼 수 있는 차세대 시 퀀싱 방법(Next Generation Sequencing), 일명 NGS 기술을 실제 실험에 활용할 수 있는 다양한 장비들을 선 보였다. 이 기술에 힘입어 바이오인포매틱스 분야에서 다루게 되는 데이터의 종류와 양은 폭발적으로 증가하 정할 수 있게 되었다. 예를 들어, 이전의 연구가 나무 한
그루 한 그루에 대한 연구였다면, 바이오인포매틱스는 그 나무가 속해 있는 산의 지형과 옆 동네 산까지도 함 께 고려할 수 있도록 연구자들의 시야를 넓혀준 매우 혁 신적인 기술이었다. 이 시기에 위에 언급된 NCBI, EBI, DDBJ 등은 제일 먼저 전 세계 연구자들에 의해서 생산 된 유전체 혹은 단백체 데이터를 수집하고 생물종별로 분류한 데이터베이스를 구축하여 무상으로 제공하였으 며, 동시에 이와 같은 대량의 생물학 정보를 효과적으로 처리하기 위한 다양한 전산학적 도구들이 개발되었다.
바이오인포매틱스 초창기의 유전체 서열분석은 1977 년 영국의 화학자인 프레데릭 생거(Frederic Sanger)가 개발한 시퀀싱 방법에 의해서 이루어졌다. 생거는 인슐 린(insulin)이 51개의 아미노산으로 이루어져 있음을 서
[그림 1] WHE 프로젝트에서 정의한 보건의료분야의 응급정보 및 위험도 평가 과정
출처 : ttp://cordsnetwork.org/wp-content/uploads/2018/03/WHO-Health-Emergencies-Programme.pdf
44 45
Future Horizon Insight l
미래연구 인사이트
였으며, 유전체 이외에도 단백질 구조분석, 세포내 신호 전달경로, 신약개발, 대사체 등의 다양한 분야에서도 대 규모의 데이터들이 실시간으로 축적되면서 바야흐로 생 물정보학 분야에도 빅데이터(Big Data) 시대가 열리게 되었다.
2. 감염병 대유행과 바이오인포매틱스
21세기에 들어서면서 인류는 지금껏 경험해 보지 못 했던 새로운 종류의 바이러스들과의 전쟁을 치루고 있 다. 2002년에 나타난 중증급성호흡기증후군(Severe Acute Respiratory Syndrome, SARS), 2009년 전 세 계적인 대유행을 일으킨 신종플루, 2015년 우리나라에 서 비정상적인 확산사례를 남겼던 중동호흡기증후군 (Middle East Respiratory Syndrome, MERS), 그리고 2019년 중국 우한시로부터 처음 보고가 된 이래 주변
국들을 중심으로 빠르게 확산되어 나가고 있는 코로나 19(COVID_19)
4)에 이르기까지 신종 감염병들은 이전 보다 훨씬 더 빠르고 집요하게 인간사회를 위협하고 있 다.
세계보건기구(World Health Organization, WHO)는 UN 산하의 국제협력기구로 보건의료 분야에서의 글로 벌 컨트롤 타워 역할을 수행한다. WHO는 2016년 제 69차 세계보건협의회(World Health Assembly) 총회에 서 전 세계 질병과 관련된 위험요소를 사전에 파악하고, 위급상황 대처부터 사후처리에 이르기까지 일련의 과 정을 더욱 신속하고 효과적으로 수행하기 위한 협력 프 로젝트를 시작하였는데, ‘WHO Health Emergencies (WHE) Programme’
5)이 그 공식명칭이다. WHE 프로 그램에서는 매일 전 세계로부터 수집되는 수많은 질병 관련 이벤트부터 실제로 질병 유행을 일으킬 수 있는 사
건들까지 어떤 과정을 통해서 수집하고 분석하는지 잘 정의하고 있다(그림 1). 즉, 세계 곳곳으로부터 정기적 으로 수집되는 사건들에 대하여 ‘일상 감시’가 이루어 지고, 이후 다양한 분석과정을 통해서 이들 중 실제로 영향력이 있을 것으로 판단되는 사건들을 필터링한다.
그 후 상대적으로 위험도가 높게 평가된 사건들에 대해 서 현장조사를 실시하고 위험도 수준을 판단하여 ‘질병 Outbreak News’의 형태로 협력국가들에게 리포팅한 다.
[그림 2]는 WHE의 위험도 평가과정을 통해서 초기 조 각정보들이 어떻게 필터링 및 검증되는지를 도식화한 것이다. 이를 보면 일상탐지를 통해서 최초 약 50만 건 의 조각정보들이 모아졌다고 가정했을 때 필터링, 현장 검증, 위험도 분석 등의 프로세스를 거치면서 가장 의 미있는 10개의 사건이 채택된다. 이 과정은 ‘Horizon Scanning’이라고도 불리는 미래예측 분야의 이슈탐 지 과정과 매우 흡사하다. 즉, 수많은 정보의 바다 속에
서 조만간 다가 올 작지만 의미있는 신호(weak signal) 를 찾아낸다. 세계보건기구는 WHE 프로그램을 통하 여 수집된 이와 같은 질병관련 조각정보들을 보다 신 속하고 효과적으로 활용하기 위해서 EIOS(Epidemic Intelligence from Open Source)
6)라 명명한 통합플 랫폼을 개발하여 세계 몇몇 국가들을 중심으로 시범적 으로 서비스하는 중인데, 우리나라는 일곱 번째 시범국 으로 선정된 바 있다. 이 플랫폼은 유럽질병예방통제 센터(European Center for Disease Prevention and Control)
7)의 질병 뉴스정보 제공기관인 MediSys
8)의 보 유 데이터를 기반으로 세계 각국에서 보도되는 다양한 질병관련 정보들을 자동으로 수집 및 가공하여 사용자 에게 제공한다. WHE 프로그램에서 제시하는 위험도 평 가과정의 조각데이터 수집 단계에 대한 자동화 노력이 라고 볼 수 있으며, 아직까지는 수집된 정보들을 보기에 좋게 가공하여 게시하는 수준이나 ICT기술을 실제 질병 모니터링에 능동적으로 활용한 좋은 시도이다.
[그림 2] WHE 프로그램을 통한 감염병 위험도 분석과정 (예시)
출처 : http://cordsnetwork.org/wp-content/uploads/2018/03/WHO-Health-Emergencies-Programme.pdf
46 47
Future Horizon Insight l
미래연구 인사이트
WHE 프로그램에서는 그 밖에도 응급 상황에서 활 용 가능한 의료자원(의료장비, 치료제, 병상 등)에 대 한 현황을 신속하게 모니터링하는 것을 목표로 하는 HeRAMS(Health Resources Availability Mapping System)
9), 아프리카 국가들과 같이 인터넷 서비스나 전기를 안정적으로 공급하기 어려운 지역에서의 감염 병 모니터링을 지원하기 위한 EWARS(WHO’s Early Warning, Alert and Response System)
10), 실시간 데 이터 송수신이 어려운 지역에서의 질병정보 관리를 위 해서 외부현장과 관리기관의 직원을 가상의 서버를 통 해서 연결시켜 주기 위한 VSHOC(Virtual Strategic Health Operations Center)
11)등 보건의료 취약지역을 대상으로 한 원활한 정보 모니터링을 위하여 여러 프로 그램들을 기획하여 추진하는 중이다.
이번 코로나19 사태에서도 나타났듯이 신종 감염병과 의 싸움에서 가장 중요한 무기는 바로 정보력이다. 이
질병의 원인이 되는 병원체가 무엇이며, 어떤 식으로 전 염되는지, 잠복기는 얼마나 되는지, 이 병원체가 가지고 있는 약점은 무엇인지 등에 대해서 얼마나 신속하고 정 확하게 파악할 수 있는지에 따라서 그 싸움의 성패가 좌 우된다. 위에서 언급한 세계보건기구에서 WHE 프로그 램을 통해서 얻고자 하는 것도 바로 보건의료 취약지역 을 포함한 전 세계 모든 지역에서 발생하는 감염병에 대 한 신속하고 정확한 정보를 확보하는 역량인 것이다.
3. 선제적인 감염병 대응 위한 정책제언
과거 사스, 메르스, 그리고 이번 코로나19 사태를 겪 으면서 공통적으로 등장한 질문은 원인이 되는 병원체 가 무엇이며, 어디로부터 왔는가에 관한 것이었다. 이 번 코로나19의 경우, NextStrain
12)이라 명명된 오픈소 스 프로젝트에서는 신종 코로나바이러스의 유전정보가 보고되는 대로 수집하여 기존의 유사 바이러스군과 비
교한 계통학적 분석결과를 실시간으로 공유하였으며, ViPR(Virus Pathogen Resource) 플랫폼
13)에서는 관 련 연구자들의 추가적인 연구를 지원하기 위해서 보고 된 신종 코로나바이러스의 유전자 서열정보를 웹 상에 서 공유하고 있다. 이들은 모두 바이오인포매틱스 기술 이 실제 감염병 대유행에 대한 대응에 어떻게 활용되고 있는지를 잘 보여주는 사례들이다.
4차 산업혁명 시대의 도래와 더불어 감염병 대응 분야 에서도 첨단 인공지능, 빅데이터 등을 활용한 다양한 기 술이 개발되고 있다. 최근에는 ‘알파고’ 이후에 인공지 능 분야에서 핫이슈로 떠오르고 있는 딥러닝 기법을 바 이오인포매틱스 연구에 접목하려는 다양한 시도들이 이 어지고 있으며, 특히 의료영상 분석이나 개인 맞춤형 환 자진단 영역에서는 가시적인 성과도 거두고 있다. 또한 2010년대부터 급속도로 발달한 NGS기술은 인간을 포 함한 지구상의 대다수 생물종에 대한 유전자분석을 단 시간에 가능하게 해주었으며, 그 결과 대량의 유전정보 들이 매 시간 쏟아져 나오고 있다.
이와 같은 거대한 데이터의 바다 속에서 질병에 대한
‘의미있는’ 정보를 찾는 것은 흡사 망망대해에서 원하는 어종을 낚시로 끌어올리는 것과 유사하다. 원하는 어종 에 따라서 포획에 사용되는 도구와 방법이 달라져야 한 다. 바이오인포매틱스는 바로 이와 같은 생물학 분야 정 보의 바다 속에서 필요한 정보를 추출 또는 예측해내기 위한 좋은 그물과 같은 존재가 되어야 한다. 이번 코로 나19 사태에서도 알 수 있듯이 인류와 바이러스 간의 쫓 고 쫓기는 싸움에서 가장 중요한 무기는 바로 정보력이 다. 신종 바이러스는 아직까지 인간이 경험해 보지 못했 던 동물들을 숙주로 삼기 때문에 기존과는 완전히 다른 정보를 가지게 되어, 인체의 면역반응으로부터 전혀 저 지되지 않고 그 결과 종간 장벽을 뛰어넘어 성공적으로
증식하고 전파된다. 바이오인포매틱스 기술은 바로 이 와 같은 신종 바이러스와의 정보전에서 승리하기 위한 최선의 도구이며 향후에는 인공지능 기법을 활용한 더 욱 스마트한 도구들이 우리의 기술력으로 개발되기를 기대해 본다.
1) https://www.ncbi.nlm.nih.gov/
2) https://www.ebi.ac.uk/
3) https://www.ddbj.nig.ac.jp/index-e.html
4) https://www.who.int/emergencies/diseases/novel- coronavirus-2019
5) https://www.who.int/about/finances-accountability/budget- portal/cat_12_rr_2016-17.pdf
6) https://www.who.int/eios 7) https://www.ecdc.europa.eu/en
8) https://medisys.newsbrief.eu/medisys/homeedition/en/home.
html
9) https://www.who.int/hac/network/global_health_cluster/
herams_users_guide.pdf
10) https://www.who.int/emergencies/surveillance/early- warning-alert-and-response-system-ewars
11) https://www.afro.who.int/news/vshoc-training-improve- tanzania-country-office-capacity-international-response- public-health
12) https://nextstrain.org/ncov
13) https://www.viprbrc.org/brc/home.spg?decorator=vipr