인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향

(1)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 1 / 13 BRIC View 2020-T16

인공지능을 이용한 바이오인포메틱스와 데이터 기반

신약개발 연구 동향

표 경 호

연세대학교 의생명과학부/ 유한연세폐암중개연구소

E-mail:

[email protected]

요약문 인공지능을 이용한 신약의 개발은 ‘콜럼버스의 달걀’과 같다. 머신러닝에 관련된 통계학적인 지식들은 이미 보편적인 학문으로 알려져 있지만, 머신러닝의 잠재성을 파악하고, 적용 및 활용하는 사람들은 현재 관련 분야의 전문가로서 자리매김하고 있다. 머신러닝 분석을 요구하는 시대적 상황에 맞게 관련 지식에 연계된 정보들은 인터넷과 서적 그리고 다양한 오프라인 미팅에서 쉽게 접할 수 있게 됨에 따라, 머신러닝에 대해 관심을 갖거나, 활용하는 사람이 늘어나고 있다. 서점의 컴퓨터 전문지식 코너의 베스트 셀러들 가운데, 머신러닝, 딥러닝 관련 서적이 늘어나고 있고, 이는 최근 1_{4차 산업의 중요한} 기술로서, 대중의 관심도를 보여주는 결과이다. 인공지능은 간단한 문제부터 복잡한 문제들을 해결하기 위한 솔루션으로서 인공지능 기술의 발전과 더불어 컴퓨터의 개발의 향상에 따라 의학적인 발달을 촉진하고 있다. 본 동향에서는 내용으로 인공지능 기술을 토대로 하여 약물의 개발 프로세스를 혁신적으로 강화시키고 있는 현주소를 다룰 예정이다. 현재 제약 산업은 R&D 비용의 증가와 최근 개인 맞춤형 치료의 개념이 적용되면서, 새로운 신약 개발의 요구가 늘어나고 있다. 이와 더불어 2_{다중오믹스 연구들을 토대로 한} 빅데이터들은 신약개발에 필요한 중요한 요소 중 하나로서 신약개발활용에 중요한 소스로 활용되고 있다. 본 동향에서는 인공지능을 이용한 바이오인포메틱스와 데이터 기반의 신약 개발 연구 동향에 대해서 다루고자 한다. 인공지능기술이 약물의 개발 프로세스의 효율성을 개선할 수 있는 가능한 방법 그리고 인공지능기반의 약물 발견 회사와 제약산업의 협력 방향에 대한 논의가 포함된다. Key Words: 인공지능, 바이오인포메틱스, 빅데이터, 신약개발 1_{4차 산업혁명: 데이터 혁명을 말하는 것으로, 3차 산업혁명의 결과물인 데이터를 토대로 새로운 형태의 산업이 구성된다. 핵심} 구성요소로는 ‘사물 인터넷’과 ‘인공지능’을 기반으로 하며, 대표적인 사례로는 인공지능기술을 이용한 AI, 알파고가 있다. 산업혁명의 핵심 속성은 ‘지능화’, ‘초연결성’, ‘개인화’ 그리고 ‘융합’이다.

2_{다중오믹스: 다중오믹스는 유전체(genome), 전사체(transcriptome), 단백체(proteome), 대사체(metabolome), 후성유전체(epigenome),} 지질체(lipodome)등으로 구성되어 있으며, 이를 이용하여 새로운 형태의 데이터를 생성할 수 있는 잠재성을 가진다.

(2)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 2 / 13

목 차

1. 의료산업에서의 인공지능의 범주와 머신러닝 그리고 딥러닝 2. 약물의 개발과정 3. 약물의 개발과 비용의 문제 4. 약물개발에서의 인공지능의 적용 4.1. 질병과 타겟과의 연관성 분석 4.2. De novo 디자인 4.3. 약물-표적 상호작용을 위한 접근 방법 4.4. 리드물질의 독성여부 판단법 4.5. 유전체 및 약물의 화학적 특성에 기반한 암세포의 민감도 예측 모델 5. 결론 6. 참고문헌

1. 의료산업에서의 인공지능의 범주와 머신러닝 그리고 딥러닝

인공지능(AI)은 컴퓨터가 인간의 행동을 모방할 수 있는 기술을 의미하며, 이는 ‘관찰’, ‘분석’, ‘회귀’의 의미로서, 의료산업에서 언급하는 인공지능의 적용 범위는 다양하다. 보건업을 수행하는 의사와 간호사 그리고 임상에 관련된 통계 분석의 역할을 사람 대신 컴퓨터가 일을 대신하며, 이 일을 대신하는 컴퓨터의 일처리 플렛폼을 “인공지능”이라고 한다. 인공지능이 의료산업에서 적용되는 범위는 연구 분야를 비롯하여 신약개발, 환자 데이터 수집 및 분석 그리고 위협 요소 확보, 병원 관리 프로그램, 임상의사의 수술 지원 그리고 3_{웨어러블 디바이스(Wearable device)를} 이용한 환자의 건강 추적 관리 등이 이에 포함된다. [1]. 인간의 행동을 모방하는 인공지능은 기계 학습, 즉 머신러닝(machine learning, ML)이 데이터에서 반복적으로 학습하는 알고리즘을 사용한다. 컴퓨터는 명시적으로 프로그래밍을 하지 않고도 데이터 내부에서 숨겨진 패턴을 식별하여 이를 적용함으로서 반복적이거나, 새로운 패턴들을 발견할 수 있는 기능을 수행할 수 있다. 머신러닝은 지도형 학습(Supervised machine learning), 비지도형 학습(Non-supervised machine learning) 그리고 강화 학습(Reinforcement learning)으로 크게 3 가지로 구분이 되어 진다. 지도 학습은 입력 및 출력 소스의 데이터를 기반으로 하여 예측 모델이 되며, 이는 분류(classification)과 회귀(regression)로 구성된다. 예를 들면 이미 환자의 예후가 존재하는 임상데이터에서 임상적인 마커들이 존재한다면, 이 가운데 환자의 예후를 결정지을 수 있는 주요인자들을 인공지능을 이용해 발굴할 수 있으며, 3_{웨어러블 디바이스: 신체에 부착하여 컴퓨팅 행위를 할 수 있는 모든 전자기기를 지칭하며, 일부 컴퓨팅 기능을 수행할 수 있는}

어플리케이션까지 포함한다. 피트니스와 웰빙기능이나 헬스케어/ 의료 기능이 포함되어 있어 wBAN (wireless body area network)와 유헬스케어(ubiquitous healthcare) 기술이 융합된 형태로 착용하고 있는 전자기기가 정확하게 신체 상황을 측정하여 환자 및 의사에게 전달이 가능하다.

(3)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 3 / 13 신약에 대하여 임상적으로 중요한 요소 대한 예측이 가능하다 (예:4_{ADME). 비지도학습에서는} 입력데이터를 주로 사용 하며, 각 데이터의 일정 특성을 파악하여 그룹화하고, 성질을 구분 지을 수 있는 주요 요소를 분석하는 것을 기반으로 한다. 강화 학습은 주로 주어진 환경 내에서 의사결정을 내리고 실행을 극대화함에 따라, 분석의 효율을 최대치로 끌어올릴 수 있는 학습 방법이다. 딥러닝은 머신러닝 알고리즘 중 한 가지로서 방대한 양의 실험 데이터에서 적응하고 학습하는 인공신경망을 사용한다. 빅데이터 및 관련 데이터 마이닝 등을 통해 잠재적으로 새로운 약물을 발굴하고, 개별적으로 또는 조합으로 사용할 경우 그리고 개인맞춤형 약물을 개발하기 위한 복잡성 가운데에서 결과를 확보하는 데 유용하게 사용되고 있다 [그림 1]. 그림 1. 보건 향상을 위한 인공지능과 머신러닝 그리고 딥러닝의 정의와 범주

2. 약물의 개발과정

신약이 개발되기 위해서는 피드백 중심의 약물 개발 프로세스가 필요하다. 대량의 약물 라이브러리 스크리닝, 타겟 단백질과 리간드 사이의 3D 모델링, 타겟의 생물학적인 연관성을 유추할 수 있는 대한 문헌 분석 등이 중심을 이룬다. 연구 방법론적인 측면에 있어서 신약개발 시간과 노력을 감소시키기 위한 오토메이션기술과, 컴퓨터공학기술이 포함되어 있는 De novo 신약 디자인 기술은 새로운 신약의 개발에 큰 역할을 수행한다 [2].

4_{ADME: 약물동태학에서의 흡수(Absorption), 분포(distribution), 대사(metabolism), 배설(excretion)을 의미하며, 이는 조직에서의 약물의} 반응과 독성 등에 영향을 미친다.

(4)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 4 / 13 약물 개발 첫 단계는 생물학적인 활성을 갖는 새로운 화학적 화합물의 선별과 생물학적 활성 검증이다. 이 프로세스를 통해 5_{리드 물질을 확보하게 되며, 두 번째로는 앞서 확보된 리드} 물질의 생물학적인 영향과 리드 물질의 신약으로서의 영향도를 측정한다. 생물학적인 영향을 검증하기 위한 세포주 및 동물모델을 사용하기도 하지만, 최근에는 데이터베이스의 양이 방대해지고, 오믹스 데이터 등이 확보되면서, 생물학적인 영향을 간접적으로 예측하고, 좀 더 세밀한 수준에서의 실험 설계가 가능해졌다. 세 번째 단계로는 앞서 생물학적인 영향이 검증된 리드 물질의 최적화 과정을 진행하게 된다. 타겟 효소에 대한 반응성을 최적화하고, 기존의 리드 물질보다 독성이 낮은 물질로 화학구조를 변화 시키는 절차가 포함될 수 있다. 이 모든 검증을 마친 최종 약물은 임상 진입을 위한 전임상 연구에 진입하게 된다 [2].

3. 약물의 개발과 비용의 문제

앞서 약물을 개발하는 단계에서 ‘비용’은 큰 변수로 작용한다. J Health Econ 에서 2003 년 발행되어 2020 년 3 월 8 일 기준 5,430 회 인용된 한 논문에 의하면 68 개의 신약 연구개발 비용에 대한 사전 승인에 관련된 비용만 2 억 9 천만 달러가 소요된다고 보고하였다 [3-5]. 세계 제약산업은 Big Pharma 에 의해 주도되고 있으며, 산업 구조적 특성으로 후발 진입이 어렵다. 신약은 신물질신약과 개량 신약으로 나뉘어 진다. 개량신약은 신물질 신약에 비해서 개발 기간이 짧고(3-5 년), 비용도 상당히 낮으며 (0.02-0.03 억 불), 적은 비용으로 상당기간 독점적 권리가 있다는 장점이 있지만, 개량 신약은 후발주자로 진입할 가능성이 높다 [3]. 따라서 새로운 기전의 신물질신약에 대한 연구가 초기 시장을 점유할 수 있는 방향이지만, 높은 개발비용(5-10 억 불)과 긴 허가 기간(10 년)으로 바이오텍으로서는 쉽게 진입하기 어려운 관문이다. 최근 비용적 측면의 진입장벽을 크게 낮출 수 있는 부분이 AI 를 활용한 신약개발이다 [2]. 인공지능을 이용하여, 표적에 대한 반응도와 약물에 의한 off-target 독성과 약물 대사를 예측할 수 있기 때문에, 초기 리드 물질부터 최적화 과정까지 그 비용을 감소가 가능하다 [2].

4. 약물개발에서의 인공지능의 적용

성공적인 신약을 개발하는 것은 어려운 일이며, 이것은 타겟하는 효소가 가진 활성화에 연관된 화학 반응이 가능한 공간의 크기 제약으로 인해 발생한다. AI 를 통합한 신약개발 기술은 약물의 식별 및 검증, 신약의 설계와 신약에 대한 용도 변경, R&D 효율성 개선 그리고 병용 치료 가능성 여부 등 어디서나 적용 가능한 다목적 도구로서 사용되고 있다 [그림 2]. 인공지능이 가진 특성을 통해 사람이 실험을 통해 나타날 수 있는 오차와 개입을 최소화 할 수 있다. 다음은 타겟을 발굴하는 것으로부터 시작해서 리드 물질을 디자인하는 방법 그리고 리드 물질에 대한 최적화 공정, 독성 여부의 검증을 위한 필터링 등에 적용되는 인공지능 기술들을 소개하고자 한다. 5_{리드 물질(lead compound): 생물학적 활성 혹은 치료로서 유용한 가능성을 가진 화학적 화합물 혹은 약물을 지칭한다. 이 물질에 대한} 화학적 개선을 위하여, 화학적 변형이 필요할 수 있다.

(5)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 5 / 13 그림 2. AI 기술 기반의 보건관련 바이오텍과 스타트업 그리고 제약회사와의 협력 관계도

4.1. 질병과 타겟과의 연관성 분석

약물의 표적 확인 및 이를 검증하는 부분은 앞에서 언급된 바와 같이 R&D 에서 리드 물질을 도출하는데 중요한 프로세스다. 약물의 표적과 질병 사이에 연관성을 나타내는 특정한 유전자/ 단백질을 확인할 수 있다면, 초기에 질병 억제를 위한 표적 설정에 중요성을 확인 할 수 있다. 2016 년 JTM 에서 보고된 오픈 타겟 플랫폼은 질병을 제어할 수 있는 유전자를 예측할 수 있는 충분한 가능성을 보여주었다 [6]. 이들이 사용한 머신러닝 방법으로는 random forest (RF), support vector machine (SVM), neural network 그리고 gradient boosting 방법을 적용하였다. 2017 년에 NAR 에 개재된 DisGeNET 웹 기반의 질병과 유전자 그리고 돌연변이에 대한 통합적인 플랫폼을 통해 손쉽게 질병과의 관계를 확인할 수 있다 [그림 3] (링크: https://www.disgenet.org/search). 크게는 질병-유전자, 돌연변이-유전자의 관계를 토대로 하여 분석이 되어 있다. DisGeNET 은 R 패키지로도 제공이 되고 있다 (링크: https://bitbucket.org/ibi group/disgenet2r).

4.2. De novo 디자인

De novo 디자인을 이용한 새로운 신약개발에 있어서는 in silico 기술을 토대로 하여 가상의 화학물과 타겟 간의 관계를 분석할 수 있는 새로운 기술이다. 이러한 방법을 통해서 lead 물질이 타겟에 적용될 수 있는 정도와 off-타겟에 binding 하여 독성을 일으킬 수 있는지에 대한 부분을 예측할 수 있다. 예컨대 LigBuilder 2.0 는 De novo 약물디자인을 할 수 있는 시스템이다 [2]. 이

(6)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 6 / 13 시스템의 특징은 타겟하는 효소에 대한 특정 리간드를 무작위적으로 적용하여, 단백질의 구조와

표면에서의 결합 부위의 위치와 모양을 감지하는 절차 등이 포함되어 있으며, ADMET 및 약물의 유사도에 따른 필터링이 가능하다. 이때 hydrocarbons, amines, alcohol, aldehydes, ketones 등 다양한 building block 의 단편들이 적용되어, 최적화된 리간드를 제시하고, 제시된 단백질의 결합력을 포함하여, lock-key 매칭, synthesizability 예측 등이 포함된다. 리눅스 기반에서 작동하며 사용 방법 등에 대한 부분은 다음 사이트에서 확인할 수 있다 (링크: http://repharma.pku.edu.cn/lig-builder/overview.html). 이미 이 기술은 10 년 전에 개발되어 적용되고 있었다. 최근에 개발된 Lig-builder V3 가 2020 년 2 월에 공개되었다 [7]. LigLig-builder 2.0 에 비하여 개선된 점은, 다중 타겟 분석이 추가되어 소개되었다. 다중 타겟 분석기술을 이용하여 HT 급 수준의 De novo 분석이 가능하다. 논문에서 HIV 의 역전사 효소 및 프로테아제와 리드물질과의 결합을 MM/ GBSA 결합 자유에너지를 토대로 하여 밝혀냈으며. 관련 사이트는 다음과 같다 (링크: http://www.pkumdl.cn:8080/ligbuilder3/). 그림 3. 유전자 및 돌연변이와 연관된 Web 기반의 분석플렛폼(DisGeNET)

4.3. 약물-표적 상호작용을 위한 접근 방법

리드 물질을 확보하기 위한 약물-표적 상호작용을 위한 접근법 중 한 가지로 KronRLS-MKL 가 2016 년에 제안되었다 [8]. 이 방법은 약물과 표적 간의 상호작용을 확인할 수 있는 시스템으로서, 약물 표적을 예측하여 중요도를 나타내는 가중치가 적용된다. 이 시스템은 다음과 같은 홈페이지에서 확인이 가능하다(링크: www.cin.ufpe.br/~acan/kronrlsmkl/). 약물-표적과의 상호작용 즉 DTI 를 예측하기 위한 다양한 방법들이 존재한다. 3D 기반의 모델 방법을 토대로 분석이 가능하다. 이 방법은 기존의 3D 를 이용한 리간드 기반 도킹 기반의 방법에 비하여 정확도는 떨어지지만, 상호작용을 확인하는데 적합한 모델로 인정되고 있다.

(7)

4.4. 리드 물질의 독성 여부 판단법

신약개발에 있어서 상당히 비용을 차지하고 있는 것이 임상시험이다. 임상시험에 있어서 약물의 유효성도 중요한 역할을 하지만, 약물 독성 또한 임상시험의 성공 여부를 판가름 지을 수 있는 중요한 부분이다. 전임상을 통해 확인되는 독성은 임상시험을 위한 참고자료일 뿐, 임상시험을 실제로 수행하기 전에 독성 특성을 가진 화합물을 식별하는 것은 어려웠다. 하지만 최근 인공지능기술을 이용하여, 약물의 독성을 예측하는 기술이 적용되고 있다. 인공지능을 이용한 약물의 유사성 발굴기술은 약물의 초기 단계에서 독성 분자를 걸러내는 유용한 방법이다. Lipinski 가 제안한 Ro5 는 약물 독성을 예측하는 주요 지표로 사용되어지고 있다. 2 단계 시험 이상에 도달한 임상 약물을 분석하여 얻은 경구 활성 약물과 관련된 4 가지 물리 화학적 특징들로 독성물질이 선별된다. 이 개념은 약물 개발 파이프라인에 널리 채택되어 왔으며, 실용적인 필터 세트를 제공함으로서 약물 발견 프로세스를 향상시켜 왔다 [9-11]. 하지만, 과정을 통과한다고 해서 약물의 임상 안전성을 보장하지 않는다. 이후 Veber 나 Ghose 에 의하여 수정된 새로운 세트가 제안되어 표면적과 같은 생체 용적 등, 더 많은 속성을 포함하게 되었고, 기존의 Lipinski 가 제안한 개념에서 보완된 약물 유사성에 대한 정량적인 평가가 제안되어 왔다 [12-13]. 물론, 이러한 시스템들의 적용했음에도 불구하고, 임상시험 등에 영향을 미치는 다른 요인들도 여전히 존재한다. 이를 해결하기 위한 방법으로 ProOCTOR 을 이용한 새로운 방법이 제안되었다 [14]. 이 모델을 적용하기 위해, AACT 데이터베이스에서 ClinicalTrials.gov 의 데이터를 사용하였고, 독성으로 인하여 실패한 임상시험을 확인하기 위하여 특정한 키워드를 사용한 선별작업이 진행된다. 선별에 사용한 약물과 더불어 임상 실패 사유로 ‘종료’, ‘일시 중단’ 혹은 ‘철회’와 같은 주석을 가진 내용들을 실패한 것으로 표시하여 식별하였다. 약물 독성에 대한 데이터는 FDA 의 승인된 의약품 데이터베이스인 Drug bank 4.0 에서 확보하여 분석하였다. Drug bank 에서 확보한 데이터 가운데에서 SDF 파일을 받아 ‘분자량’, ‘극성 표면적’, ‘수소결합 공여체 및 수용체 수’ 등의 요소들을 추출하였으며, 해당 정보가 누락되었을 경우를 대비하여 PubChem 이나, R 의 ChemmineR 을 사용하여 값을 계산하여 정보 내의 NA 수치를 채워나갔다. 본 시스템이 가진 새로운 적용 방법으로 유전자와 유전자의 상호작용을 네트워크화하는 방식이 채택되었다. 유전자의 네트워크 정도는 특정 유전자가 가지고 있는 네트워크를 지표들을 중심으로 계산되었으며, R 패키지인 igraph 가 활용되었다. 유전자의 발현 정도를 확인하기 위하여, GTEx 프로젝트(링크: http://www.gtexportal.org/home/)에서 기인한 RNA seq 데이터의 발현량 (RPKM)을 사용하였으며. 이 데이터에서는 30 개의 조직에 포함되어 있는 2,921 개의 샘플이 사용되었다. ExAC 데이터베이스(링크: http://exac.broadinstitute.org/)도 함께 사용하였다. 이 데이터베이스는 각 유전자에 대해 돌연변이 및 타겟 손실 빈도가 포함되어 있는 결과를 사용하여 이를 백분율화하여 사용하였다. 앞서 확보된 이러한 데이터베이스들을 중심으로 머신러닝 기반의 분석 방법을 사용하여 중요도에 대한 수치를 적용하였으며, 이는 앙상블 decision tree 기반의 random forest 모델을 적용되었다. 그 결과 기존에 독성 필터에 사용되어 왔던

시스템인 Lipinski 와 Veber 그리고 Ghose 에 비하여 상당히 유의도가 높은 예측율을 보였으며, 이러한 접근방식을 평가하기 위하여 독립적인 데이터셋을 통해 본 시스템을 평가하여 그 결과를 검증했다.

(8)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 8 / 13 그림 4. ProOCTOR 를 이용한 신약의 독성평가 플렛폼은 기존의 Ro5 등의 독성평가 예측시스템에 비해 향상된 결과를 보여준다.

4.5. 유전체 및 약물의 화학적 특성에 기반한 암세포의 민감도 예측 모델

최근 항암제의 연구들이 활발하게 이루어지고 있다. 특히 항암제 시장에서 암의 억제 기전에 연관되어 있는 표적 치료제의 개발이 항암제와 항암제 내성 기전을 극복하기 위한 방안으로 연구가 진행됨에 따라서, oncogen 이나 tumor suppressor 유전자에서 연관된 다른 신호전달에도 관심을 갖게 되었다. 이 연구에서 사용한 방법으로는 머신러닝 기법 중 Elastic net 을 이용한 회귀법을 이용하여, 약물유전자형 연관성을 확인하였고, PARP 억제에 대한 민감성을 실험적으로 검증하는 계기가 되었다. 이러한 방법을 통해 개인 맞춤형 암 치료를 위한 바이오마커의 발굴을 위한 알고리즘으로 활용할 수 있음을 보여주었다. 해당 실험에서는 HT 기술과 인간 암세포를 이용하여 실험을 진행 각 약물에 대한 IC50 에 영향을 줄 수 있는 세포주/ 화합물에 대한 반응 매트릭스를 구축하였다. 총 639 개의 암세포와 유전체 데이터 그리고 131 가지의 약물에 대한 IC50 데이터를 포함하였다. 하지만 6_{SMILES (분자 입력 라인 입력 시스템)의 형식이 맞지 않는 20 가지 약물을} 제외하고, 유전체의 누락 등을 통해 639 개 암세포주 가운데 조건을 만족하는 608 개로 분석을 진행하였다. 머신러닝에 적용할 수 있는 Feature 로서, 암세포의 77 종의 주요 돌연변이, MSI 그리고 약물의 화학적 특성이 포함되어 있다. 약물의 화학적 특성은 PaDEL software 를 이용하여 SMILES 시스템에서 689 개의 chemical feature 들을 적용하였으며, 최종적으로 827 개의 feature 들이 작용되었다. 머신러닝은 RF 및 regression 모델 등을 적용, 이들 모델 대한 검증은 8 folds CV 를 통해 검증하여 최적화된 모델로서 Elastic net 이 가장 신뢰도가 높았다. 여기에 적용된 모델을 사용하기 위해 다음 사이트에서 다운받을 수 있다 (링크: http://www.cancerrxgene.org/) [15].

6_{simplified molecular-input line-entry system (SMILES)를 데이터에 대한 부분이 자주 언급된다. SMILES 는 아스키 문자열로 구성되어} 있으며, 복잡한 화학구조식을 문자열을 통해 2 차원 혹은 3 차원 모델로 변형이 가능하다. 다음과 같은 기호들 [. _ = # $ : / |] 등을 통해 원자의 결합을 표현한다. 예를 들면 포도당(C6H12O6)는 SMILES 문자열로

(9)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 9 / 13 그림 5. 항암제에 대한 민감도를 분석한 데이터로 24 가지 대표적인 신호전달에 연관된 518 가지 약물에

대하여 총 446,146 개의 dose response 데이터가 축적되어 있고, 이와 연관되어 570,161 개의 유전체 데이터가 포함되어 약물에 대한 반응을 예측한다.

4.6. Deep learning 을 이용한 신약개발

딥러닝은 인공신경망모델(ANNs)의 한 종류로서, 많은 수의 layer 와 nonlinear processing unit 으로 구성된다. 초기의 ANN 은 1943 년에 Warren McCulloch 와 Walter Pitts 에 의하여 개발되었다 [16]. 일반적으로 ANNs 는 input (입력) layer 와 hidden layer 그리고 output layer 로 구성되며, 뉴런이라고 불리는 node 로 구성이 되어 있다. Nonlinear processing unit 은 sigmoid 나 gaussian function 이 이용된다. 초기 ANN 알고리즘의 문제점으로 야기되는 overfitting 이나 dimin-ishing gradients 등이 보고되었지만, 이후 SVM 이나 RF 와 같은 머신러닝 알고리즘으로 교체되어 사용하다가, 최근 하드웨어와 소프트웨어의 급진적인 발전에 따라 ANN 을 적극적으로 활용하고 있고 기대 이상의 능력을 보여 주어 딥러닝의 르네상스로 불려지고 있다. 오래된 모델인 ANN 을 현재 딥러닝에 적용하는 이유는 다음과 같다. 기존의 ANN 과 크게 달라진 부분으로는 신경망의 크기와 복잡성이다. 딥러닝이 가능하게 된 원동력으로, CPU 와 GPU 의 급격한 연산 계산능력의 발전속도는 ANN 의 신경망을 확대하여 분석하기에 충분하였으며, dropout 과 droupConnect 방법 등을 이용하여 overfitting 의 문제가 해결되는 등, 딥러닝으로서의 성능이 충분히 향상될 수 있는 계기가 마련되었다. 현재 딥러닝으로 사용되고 있는 주요 플랫폼으로는 텐서플로(TensorFlow) [17], Caffe, PyTorch, Keras 와 Theano 등이 인기 있는 딥러닝 패키지로 사용되고 있다. 딥러닝의 종류에

(10)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 10 / 13 따라, 7_{deep neural network (DNN),}8_{convolutional neural network (CNN),}9_{recurrent neural (RNN)로} 구분된다.

위의 딥러닝 기술을 토대로 신약개발에 관련된 연구들의 사례를 확인해보면, Dahl 등은 Merck Kaggle 챌린지 데이터셋에서 제공하는 2D topological descriptor 를 이용하여 DNN 을 적용해, 기존에 발표된 15 개의 타겟 중 13 개에서 좀 더 높은 타겟을 선별하였다 [18]. 기존의 방식은

머신러닝 중 RF 를 적용한 모델이었다. 특히 학습에 있어서 중요한 부분을 4 가지 언급하였는데, “feature selection”이라는 단계가 굳이 필요 없다는 점, dropout 을 이용하여 overfitting 을 제어하여 기존의 ANN 에 비하여 높은 성능을 기대하였고, hyperparameter 즉 layer 의 수와 node 의 수 그리고 활성함수의 종류 등을 조절하여 최적의 모델을 확보하였다. 비슷하게 Mayr 등은

DNN 모델을 적용하여 Tox21 챌린지에서 사용된 12,000 개의 compound 와 12 가지의 toxocity as-say 데이터를 토대로 하여 분석하여 우승을 하였다 [19]. 최근에 이러한 연구들을 밴치마킹하여 다양한 연구들이 진행되고 있다.

앞서 신약개발에 적용되고 있는 De novo 신약디자인에서도 최근 딥러닝을 적용하고 있다. Gomez-Bombarelli 등은 VAE (variational autoencoder)를 이용하여 화학구조를 생성하였다 [20]. VAE 을 사용하기 위한 첫 번째 단계는 unsupervised learning 을 통해 map-chemical structure 인 SMILES 를 생성한다. 일단 VAE 학습이 끝나면 SMILE 결과를 기반으로 하여 decoding 을 진행, 다시 구조를 2 차원으로 재생산하는 지를 확인한다. 앞서 나온 결과를 기반으로 adversarial network (GAN)과 NN 아키텍처를 이용하여 새로운 화합물을 생성하게 된다. 이때 사용하는 딥러닝은 RNN 을 사용하며, decoder 로 SMILES 를 재구성된 화학물을 2 차/ 3 차원으로 표시한다. Marwin H 등은 이러한 기술을 이용하여 두 가지 항생제를 이용, 황색포도상구균에 대한 활성을 18% 열대열말라리아 병원충의 활성을 28% 억제할 수 있는 리드 물질을 구현하였다 [21]. Olivecrona 등은 위에서 설명한 기반 컨셉트에서 강화 학습을 더해 도파민 리셉터 2 의 리간드로 사용할 수 있는 화합물을 실험적으로 증명하였고, 이 모델에 대한 예측도가 95%임을 확인하였다 [22]. 여기에서 설명하는 GAN 이나 강화학습모델에 대한 단점이 존재하기 때문에 이를 해결하기 위한 다양한 노력들이 진행되고 있다고 설명하고 있다. 앞서 이야기한 4.3 약물-표적 상호작용을 위한 접근 방법 파트에서. 약물-표적 상호작용을 위한 접근 방법을 설명한 바 있다. 딥러닝을 이용한 리간드-단백질 간의 신경망 구조 기반의 적용들이 소개되고 있다. 단백질과 리간드와의 결합은 0.5A 의 해상도에서 그리드의 간격이 24A 을 중심으로 한다. 각각의 원자들이 가지고 있는 성질과 전자밀도 등이 메트릭스에 적용되며, 이를 기반으로 한 CNN 모델이 적용된다. 7_{심층신경망(DNN): hidden layer 의 개수가 2 개 이상인 학습 방법으로, 컴퓨터가 스스로 분류 레이블을 만들어 내고 공간을 왜곡, 구분} 짓는 과정에서 최적화를 수행한다. 많은 데이터와 반복학습, 사전 학습과 오류 역전파 기법 등에 많이 사용된다. 8_{합성곱신경망(CNN): CNN 은 데이터의 특징을 추출, 특징들의 패턴을 파악하는 구조로서, convolution 과정과 pooling 과정을 통해} 복합적으로 알고리즘을 생성한다.

9_{순환신경망(RNN): 일반적인 신경망 구조에서는 input 에서 output 까지의 방향이 한 방향으로 이루어져 있는 반면 RNN 의 경우 hidden} layer 에서 활성화 함수를 통해 나온 결과를 다시 출력층으로 보내면서 다시 hidden layer 의 계산의 다시 input 으로 사용할 수 있다. RNN 의 이러한 특징으로 one-to-many, many-to-one 혹은 many-to-many 형태의 다양한 입출력을 조절할 수 있다.

(11)

인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 11 / 13 그림 6. 딥러닝을 이용한 novel 신약 발굴 알고리즘

5. 결론

머신러닝과 딥러닝을 이용한 다양한 신약개발과 이를 검증, 치료 효과 및 독성을 예측할 수 있는 알고리즘에 대하여 소개하였다. 지금 동향에서 다루고 있는 몇 가지 툴과 방법들은 시간이 지남에 따라서 좀 더 높은 수준의 예측력을 가질 것으로 예상된다. 다양한 통계적 적용 방법의 개발만큼이나, 중요한 요소는 분석 소스인 데이터베이스와 질과 양이다. 최근 개발되고 있는 실시간 모니터링 시스템 및 웨어러블 디바이스의 발전, 그리고 다양한 생체표지자와 오믹스 데이터의 증가는 이를 더 가속화 할 것이며, 이를 토대로 높은 예측력을 가진 툴들이 계속 개발될 것이다. 신약의 타겟 발굴과 신약 자체에 대한 개발이 가속화되면서, 제약회사에서는 인공지능 기술을 적용하기 시작했다. 웨어러블 디바이스를 적용한 바이엘은 xBird 를 이용하고, 맞춤형 치료 전략을 위하여 대규모 게놈 데이터베이스를 활용한 Bina 를 로슈에서 적용하고 있고, AiCure 에서 개발한 인공지능 기반의 환자 모니터링 플랫폼은 abbvie 에서 적용하여 현재 Atomwise 와 새로운 일들을 개발해 내고 있다. 이에 국내 제약사에서도 새로운 흐름에 발맞추어 인공지능을 활용하여 신약을 개발하고 있다. 이번 동향에서 주로 다루었던 부분은 small molecule 신약에 관련된 부분이었지만, 신호전달에 관련된 약물과 단백체의 관계를 넘어 면역치료제의 적용 범위는 좀 더 복잡하고, 광범위할 것으로 예상된다. 이에 인공지능이 수행해야 할 분석 범위도 점차 확대 되고 있다. 특히 면역 치료제는 면역세포와 암세포, 기저세포와 사이토카인 및 케모카인 그리고 종양 항원에 대한 인식률 등 각 요소 간의 상관관계가 많아 기존의 분석 방법만으로는 한계가 있다. 따라서 면역치료제 개발에 있어, 바이오마커의 병용치료에 대한 예후를 예측하는데 어려움이 따랐다. 하지만 인공지능 기술을 토대로 앞서 면역네트워크에서 중요한 패턴을 인지하여 이를 기반으로 새로운 신약을 발굴하고 바이오마커를 추출하는 데 중요한 역할을 수행할 것으로 기대한다.

(12)

6. 참고문헌

[1] Jiang F, Jiang Y, Zhi H, Dong Y, Li H, Ma S, Wang Y, Dong Q, Shen H, Wang Y. Stroke Vasc Neurol. 2017 Jun 21;2(4):230-243.

[2] Mak KK, Pichika MR, Artificial intelligence in drug development: present status and future pro-spects, Drug Discov Today. 2019 Mar;24(3):773-780.

[3] DiMasi JA1, Hansen RW, Grabowski HG., The price of innovation: new estimates of drug development costs, J Health Econ. 2003 Mar;22(2):151-85.

[4] DiMasi JA, Grabowski HG, Hansen RW.,The cost of drug development, N Engl J Med. 2015 May 14;372(20):1972

[5] Avorn J, The $2.6 billion pill-methodologic and policy considerations, N Engl J Med. 2015 May 14;372(20):1877-9

[6] Ferrero E, Dunham I, Sanseau P.,In silico prediction of novel therapeutic targets using gene-disease associa-tion data, J Transl Med. 2017 Aug 29;15(1):182.

[7] Yuan Y, Pei J, Lai L1., LigBuilder V3: A Multi-Target de novo Drug Design Approach, Front Chem. 2020 Feb 28;8:142.

[8] Nascimento AC., Prudêncio RB., Costa IG., A multiple kernel learning algorithm for drug-target interaction prediction, BMC Bioinformatics. 2016 Jan 22;17:46.

[9] Lipinski CA, Lombardo F, Dominy BW, Feeney PJ. "Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings". Adv. Drug Deliv. Rev. 2001, 46 (1– 3): 3–26.

[10] Lipinski CA. "Lead- and drug-like compounds: the rule-of-five revolution". Drug Discovery To-day: Technol-ogies. 2004, 1 (4): 337–341.

[11] Oprea TI, Davis AM, Teague SJ, Leeson PD. "Is there a difference between leads and drugs? A historical perspective". J Chem Inf Comput Sci. 2001, 41 (5): 1308–15.

[12] Veber DF, Johnson SR, Cheng HY, Smith BR, Ward KW, Kopple KD. Molecular properties that influence the oral bioavailability of drug candidates. J Med Chem. 2002;45:2615–2623

[13] Ghose AK1, Viswanadhan VN, Wendoloski JJ., A knowledge-based approach in designing combinatorial or medicinal chemistry libraries for drug discovery. 1. A qualitative and quantitative characterization of known drug databases, J Comb Chem. 1999 Jan;1(1):55-68.

[14] Gayvert KM, Madhukar NS, Elemento O., A Data-Driven Approach to Predicting Successes and Failures of Clinical Trials, Cell Chem Biol. 2016 Oct 20;23(10):1294-1301.

[15] Yang W1, Soares J, Greninger P, Edelman EJ, Lightfoot H, Forbes S, Bindal N, Beare D, Smith JA, Thompson IR, Ramaswamy S, Futreal PA, Haber DA, Stratton MR, Benes C, McDermott U, Garnett MJ., Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells, Nucleic Acids Res. 2013 Jan;41:D955-61.

[16] McCulloch, Warren; Walter Pitts. "A Logical Calculus of Ideas Immanent in Nervous Activity". Bulletin of Mathematical Biophysics. 1943, 5 (4): 115–133.

[17] Dean, Jeff; Monga, Rajat; et al.. "TensorFlow: Large-scale machine learning on heterogeneous systems". TensorFlow.org. Google Research. 2015

(13)

structure-인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향 표경호 Page 13 / 13 activity relationships, J Chem Inf Model. 2015 Feb 23;55(2):263-74.

[19] Andreas M,Günter K, Thomas Unterthiner, Sepp Hochreiter, DeepTox: Toxicity Prediction using Deep Learn-ing, Front. Environ. Sci 2016, 3(80).

[20] Gómez-Bombarelli R, Wei JN, Duvenaud D, Hernández-Lobato JM, Sánchez-Lengeling B, She-berla D, Aguilera-Iparraguirre J, Hirzel TD, Adams RP, Aspuru-Guzik A, Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules. ACS Cent Sci. 2018 Feb 28;4(2):268-276.

[21] Segler MHS1, Kogej T2, Tyrchan C3, Waller MP4., Generating Focused Molecule Libraries for Drug Discov-ery with Recurrent Neural Networks, ACS Cent Sci. 2018 Jan 24;4(1):120-131.

[22] Olivecrona M, Blaschke T, Engkvist O, Chen H., Molecular de-novo design through deep reinforcement learning, J Cheminform. 2017 Sep 4;9(1):48.

The views and opinions expressed by its writers do not necessarily reflect those of the Biological Research Information Center.

표경호(2020). 인공지능을 이용한 바이오인포메틱스와 데이터 기반 신약개발 연구 동향. BRIC View 2020-T16 Available from https://www.ibric.org/myboard/read.php?Board=report&id=3491 (Apr. 29, 2020)