머신러닝을 활용한 항암신약개발 현황과 향후 전망

(1)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 1 / 13 BRIC View 2019-T32

- 인공지능과 의학의 결합

표 경 호

연세대학교 의생명과학부/ 유한-연세 폐암중개연구소 E-mail: [email protected] 요약문 머신러닝 혹은 AI라는 말은 이제 미래에서 볼 수 있는 신기술이 아닌, 이미 우리 일상과 밀 접하게 과학기술로 사용되고 있었다. 인간이 의도하는 바를 ‘한정된 시간’ 내에 ‘효율적인 일’ 을 할 수 있는 것은 컴퓨터를 통한 기계 학습을 통해 얻어질 수 있어, 머신러닝의 활용은 기본적으로 ‘효율 증대’라는 측면에서 상당히 유리한 기술이다. 머신러닝은 ‘데이터’에 의존적 이기 때문에, 학습의 토대가 되는 기반 데이터에 대한 중요도가 상당히 높다. 최근 데이터의 양과 질이 개선되면서, 머신러닝의 효율성이 향상되었으며, 빅데이터의 생산 속도에 맞추어 머신러닝을 통해 ‘보석’을 찾아낼 수 있는 딥러닝을 포함한 다양한 알고리즘들이 윤곽을 드 러내기 시작했다. 이를 활용하여 신약개발, 진단기술개발 등 다양한 분야에서의 그 쓰임과 미래 전략 등이 주목 받고 있다. 2018년 미국암학회인 AACR에서 발표된 구글의 AI 알고리즘 으로 조직 병리 사진에 증강현실로 종양 부위를 마킹하는 기술이나, 외과수술 중 수술 부위 의 암과 정상 부위에 대한 부분이 실시간으로 확인되는 등, 획기적인 기술의 발전은 실제로 곧 나타날 미래 암 치료 기술의 방향을 제시하였다. 최근 개발되는 항암 신약에 대한 반응 을 예측할 수 있는 바이오마커 발굴 기술 또한 머신러닝을 통해 구현되고 있다. 본 저자는 이번 동향을 통해 머신러닝에 대한 이해와 의학적 적용의 현주소를 설명하고자 한다. 특히 최근 항암신약개발에 있어 주목을 받기 시작한 신약개발과 바이오마커 그리고 디지털 병리 분석 등에 대한 부분을 소개하겠다. 또한 최근 글로벌제약회사에서 머신러닝 기반의 원천기 술을 가진 회사들과 협력 혹은 기술이전 등 머신러닝 기반 인공지능 분석을 토대로 신약개 발에 적용한 사례와 국내외 관련 기술에 대한 동향을 제시함으로써, 머신러닝을 처음 적용 하고자 하는 제약회사, 바이오텍 그리고 아카데미에 있는 분들께 도움이 되었으면 한다. Key Words: 인공지능, 머신러닝, 바이오마커, 신약개발, 제약회사 BRIC View 동향리포트

(2)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 2 / 13

목 차

1. 서론 2. 본론 2.1 머신러닝(machine learning)과 기능 2.2 머신러닝의 기본 과정과 머신러닝에 필요한 데이터의 구성 2.3 머신러닝과 신약개발의 적용 2.4 글로벌제약회사에서의 머신러닝 활용 2.5 머신러닝 기반의 기술을 가진 국내외 기업 3. 결론 4. 맺는말 5. 참고문헌

1. 서론

무심코 버리는 코 묻은 휴지, 폐암 환자의 흉수, 피검사 후 남은 혈액 그리고 핸드폰 앱에 포함되어 있는 검색 기록과 GPS위치, 페이스북과 인스타그램의 ‘좋아요’ 버튼, SNS에 올라와 있는 사진 등, 심지어는 장수하는 할아버지의 배변까지도 마이크로바이옴 데이터에 사용될 수 있는 중요 한 자산이다. 그 데이터의 양은 퍼스널 컴퓨터의 엑셀 파일에서 읽힐 수 있는 양을 넘어, 기가급-테 라급 빅데이터다. 데이터는 진주 목걸이와 같아서 분석하기 전까지는 하드디스크에 저장된 0과 1의 디지털 신호가 플래터(Platter)에 기록된 제멋대로 돌아다니는 진주 구슬일 뿐이다. 우리는 과거의 흔 적에서 미래를 엿볼 수 있는 시대에 살고 있다. 환자의 치료 기록을 종이 위에 작성하여 장기간 보 관하던 시대에서 벗어나, 분석에 용이한 형태의 데이터를 생산하기 위해, 대형병원 컴퓨터 데이터베 이스에 환자의 다양한 정보들을 보관하고 있다. 입원 시점, 치료 방법, 치료 예후와 진단과 반응을 보기 위하여 기록된 CT와 MRI 이미지와 병리과에서 염색하고 분석한 결과 등이 파일 형태로 보관 되어 있으며, 최근에는 임상데이터를 활용한 환자의 치료 효과와 패턴을 통해 새로운 의학적 발견을 찾고 있다. 특히 차세대 염기서열 분석에 대한 의학적 가치가 높아지면서, 개별 환자에 대한 오믹스 분석 결과가 생산되고, TCGA, CCLE 등과 같은 암 환자 및 암 세포주에 대한 유전체, 전사체, 후성유 전체, 단백질체에 대한 정보, 그리고 약물에 대한 반응과 환자의 생존율, MRI의 이미지 파일 치료 전 과 후의 병리조직 결과 등이 디지털화되어 데이터베이스 상태로 공개되어 있다. 따라서, 암을 연구 하는 과학자들은 암환자와 연관된 정보를 통해 새로운 바이오마커 및 치료전략을 구상할 수 있게 되었다. 최근 단일 세포 유전체 분석과 글로벌 유전체 연구 컨소시엄 등에서 교류되고 있는 엄청난 양의 정보들은 임상적 활용 가치를 가치를 찾기 위해 많은 데이터학자들을 통해 발표되고 있다. 공 개 정보가 넘쳐나는 빅데이터 환경 속에서 머신러닝 기술은 효율적으로 새로운 의학적 발견을 도출 해줄 뿐만 아니라, 신약의 개발에 적용되어 비용의 절감, 시간 단축, 부작용 가능성 억제 등에 대한

(3)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 3 / 13 활용 등으로 주목을 받고 있다. 하지만 머신러닝을 처음 접하는 사람들에게는 그저 ‘미지의’, ‘어려 운’, ‘누군가의’ 의미로 다른 분야의 것처럼 치부하기 쉽다. 본 동향에서는, 머신러닝에 대한 이해와 활용 분야를 소개하고, 특히 신약개발 분야에서 활 용되고 있는 머신러닝 기술에 대하여 업데이트하였다. 최근 머신러닝을 활용한 글로벌 제약회사의 사례와 국내 머신러닝을 통한 임상 혹은 신약개발에 활용하고 있는 국내 벤처기업들에 대한 소개로 본 동향을 마무리하고자 한다. 그림 1. 머신러닝의 의학적 활용. 임상데이터나 혹은 공개된 오믹스 데이터 및 약물데이터 정보는 바이오마커 발굴, 신약의 개발 그리고 진단기술 및 예후예측 등에 활용하기 위하여 다양한 머신러닝기술이 적용되고 있다.

2. 본론

2.1. 머신러닝(machine learning)과 기능

‘한정된 시간’ 내에 ‘효율적인 일’을 할 수 있는 것은 ‘기계학습’을 통해 가능하다. 기계학습이 란 머신러닝으로 불린다. 인간과 같은 학습능력과 가진 컴퓨터가 데이터를 토대로 패턴을 인식하고 분류하고 예측하는 기술이 머신러닝이다. 머신러닝을 통해 데이터의 분류(classification), 현재 혹은 과거에 확보된 데이터를 기반으로 미래의 수치를 예측하는 회귀(regression), 비슷한 결과들을 서로 묶어주는 클러스터링(clustering)를 기반으로 적합한 접근 방법 등을 제시하는 것이 기술의 핵심이다.

(4)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 4 / 13 머신러닝은 3가지 학습 방법으로 구분이 된다. 첫 번째, 데이터와 함께 데이터에 대한 정보 (결과)가 주어지며, 이를 구분으로 새로운 요소가 어떠한 그룹에 속하는지를 분석할 수 있는 학습 방 법은 ‘지도 학습’이라고 불린다. 두 번째, ‘비지도 학습’은 주어지는 데이터의 요소들에 대한 결과가 주어지지 않으며, 순수하게 데이터 내에서 규칙성을 발견해야 하는 곳에 사용된다. 마지막으로, ‘강 화 학습’이란, 지도 학습과 상당히 유사하지만, 특정한 요소 가운데 정답에 점차 가까워질 수 있는 결과들을 통해 좀 더 정확도가 강화된 형태의 학습을 말한다.

2.2. 머신러닝의 기본 과정과 머신러닝에 필요한 데이터의 구성

머신러닝에서 데이터 그리고 알고리즘 모두는 상당히 중요한 요소이다. 머신러닝의 핵심은 ‘데이터 의존적’이라는 점이다. 목적이 분명한 프로젝트를 구상한 후, 목적에 맞는 가설과 가설에 필 요한 요소들을 수집해야 한다. 소위 계산기로 금방 분석할 수 있는 수준의 데이터를 포함해서 엑셀 에서 접근하기 어려울 정도의 빅데이터와 임상 데이터 중에서 특정 약물에 대한 부작용의 유/무와 같은 binary 형 데이터, 암의 병기와 같이 3단계에서 4단계로 구분되는 Factor 형 데이터, 병리과에 서 분석하는 슬라이드의 특정한 병리 조직의 고차원 이미지가 포함된다. 데이터의 수 만큼 중요한 것은 데이터의 ‘질’ 이다. 수집된 데이터들 가운데에서도 머신러닝 에 있어서 오히려 학습에 저해가 되는 노이즈 데이터들을 통계적인 방법을 통해 제외하고, 머신러닝 의 분석 속도 등을 고려하여 데이터 가공이 필수적이다. 머신러닝에 있어서 특정한 데이터에 특화된 분석은 결국, 초과 학습(overfitting)이라는 결과를 낳게 된다. 초과 학습이란, 학습을 지나치게 한 탓 에 데이터에 대한 답을 정확히 내지 못하는 현상이며, 이를 억제하기 위해서 데이터의 수를 증가시 키던지 혹은 다양한 알고리즘을 적용하는 등의 균형 있는 학습을 유도해야 한다.

2.3. 머신러닝과 신약개발의 적용

신약개발에 있어 일반적인 경우, 2-5년간의 약물의 발굴(drug discovery)의 기간을 거쳐, 전임 상연구로 특정한 질병을 표적화하는 약물의 후보군이 선정된다. 그 이후로부터 6년에서 15년간의 약 물 개발 과정을 통해 드디어 약물이 시장에 입성하는데, 독성 연구를 비롯하여 임상 진입을 위한 결 과와 자료들이 기술되어야 한다. 약물에 대한 효능과 독성 그리고 활용 부분과 비교되는 약물과의 비교연구 등이 포함되며, 천문학적인 비용이 들게 된다. 약물 개발 속도와 타겟에 대한 약물의 최적 화는 신약이 “first in class” 혹은 “best in class” 로서의 타이틀을 가질 수 있는 기회를 제공할 것이 다. 이에 ‘머신러닝’을 활용한 신약의 ‘디자인’과 ‘발굴’은 신약을 개발하는 제약회사나 바이오텍에 중 요한 기술로 자리매김할 것으로 기대한다. 다음에서 소개하는 부분은 신약개발에 있어서 필요한 머 신러닝의 쓰임과 예시를 통해 설명하고자 한다.

2.3.1. Target identification and validation

질병에 대한 타겟을 발굴하는 것이 신약개발에 있어서 시작점이 되는 중요한 부분이다. 이미 잘 알려진 타겟들은 이미 시장에 진입했거나 임상 또는 전임상 연구를 진행하는 경우가 많다. 특히

(5)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 5 / 13 암에 대한 타겟에 있어 다양한 타겟들이 존재하고, 특히 오믹스 분석을 통해서 확인할 수 있는 다양 한 자료들이 존재하지만, 아직도 질병에 대한 원인과 타겟을 발굴하기 위한 시도는 현재까지도 진행 되고 있다. 그리고 타겟을 발굴하는 속도는 머신러닝을 통해 더욱더 빨라지게 되었다. 유전자의 발 현이나 돌연변이에 대한 분석, 그리고 유전체와 전사체 등에 대한 멀티오믹스를 토대로 하여 그동안 밝혀지지 않은 부분들을 속속 해결하고 있다. Costa라는 과학자는 decision tree 기반의 머신러닝을 통해서 단백질 간의 결합, 대사와 유전체 간의 연관성 그리고 조직에서의 발현과 세포에서의 발현 위치 등을 종합적으로 분석할 수 있는 기술을 토대로 하여 특정한 질환의 신호를 효과적으로 차단 할 수 있는 경로와 표적을 제시할 수 있는 시스템을 만들었다 [1]. Jeon 외 과학자들은 SVM (sup-port vector machine) 기술을 활용하여, 약물 타겟과 off 타겟을 구분할 수 있는 데이터 셋을 통해 유방암, 췌장암 그리고 난소암에 대한 신약 타겟을 발굴 할 수 있는 기술을 선보였다 [2]. 유전체 데 이터, 전사체 데이터 DNA copy number, 돌연변이의 발생과 단백질과 단백질 사이의 관계에 대한 부분이 타겟을 선정하는 데 중요한 요소로 포함되었다. 따라서 그는 122개의 글로벌 종양 타겟을 발 굴하였다. Ament는 마우스의 유전체 데이터와 마우스의 Transcription factor에 대한 네트워크를 기반 으로 하여 헌팅턴증후군에 대한 신약 타겟을 회귀분석 모델 중 한 가지인 LASSO를 통해 발굴하였 다. 그들은 718개의 TFs 가운데 48개를 마우스에서 중요한 타겟으로 보았고, 그중 13개는 헌팅턴증 후군을 앓고 있는 환자에서 확인하고 신약타겟으로 개발되고 있다 [3]. 타겟 발굴에 대한 적절한 치 료 방향의 설정은 다음 단계이다. 타겟을 억제하는 시스템으로는 small molecules, peptides, antibod-ies, short RNA, cell therapy 등 다양한 형태의 약물이 존재하며, 이중에서 가장 적합한 형태의 약물 선정은 제약회사나 바이오텍의 전문기술의 여부에 따라 선호도가 달라질 것이다.

2.3.2. Compound screening and lead discovery

대부분의 연구에서는 small molecule에 대한 머신러닝 기반의 약물 디자인을 소개하고 있다. 일반적으로 약물은 억제 혹은 활성화라는 두 가지 형태의 기능을 띄고 있다. 약물은 생체 내에서 단 백질에 결합하고, 이러한 결합은 약리 반응으로 나타나게 된다. 타겟하는 단백질에 가장 적합한 후 보군을 확보하는 것은 결합 이외에도 PK, PD, 독성 등의 요소들에 적합해야 한다. 기존의 방법으로 는 large size 라이브러리, 프로탁(PROTACs) 기술을 이용한 특정 타겟 단백질의 제거 기술, shRNA 라 이브러리 기술 등을 통해서 신약에 대한 타겟을 확보하였다. 머신러닝을 통해 ligand-based virtual screening을 하는 기술들이 개발되어 비용적, 시간적 절감을 시도하고 있다. 이 방법은 lead com-pound를 본 시스템에 제시하면 이와 화학적으로 가장 비슷한 형태의 약물에 대한 반응과 결과 등 을 딥러닝 기술을 통해 통계적으로 어떤 정도의 결과가 나올지를 예상한다. Pande 등은 Mole-culeNet을 만들었는데, 이는 머신러닝 알고리즘을 검증하기 위한 비교 및 검증용 벤치마킹 데이터셋 이다 [4]. 이 데이터셋에서는 70만 개 이상의 compound에 대한 특성과 관련된 데이터들이 포함되 어 있으며, DeepChem package를 통해 open 소스로 공급되어 활용할 수 있도록 되어 있다 [5]. 딥러 닝과 최근에 개선된 modern tree 알고리즘(light-GBM 등)은 신약 합성에 대한 효과적인 머신러닝 기 술로서, 타겟에 대한 완전히 새로운 형태의 신약들을 제시할 수 있다. 머신러닝 가운데 강화 학습이 라는 부분을 활용한 사례가 있다 [6]. AstraZeneca에서는 RNN 기술을 통해 타겟과 chemical의 공간 사이의 solubility, PK 특성, 생물 활성 등이 포함되어 있는 알고리즘을 구축하였다. Kadurin 이라는

(6)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 6 / 13 과학자는 deep GAN 플랫폼을 통해 앞의 기술과 비슷한 형태의 데이터셋을 구축하였다 [7]. 이러한 기술이 가능하게 하기 위해서는 수많은 타겟 단백질의 3차 구조에 대한 높은 정확도의 데이터베이 스가 확보 되어야하며, 머신러닝으로 디자인 될 약물에 대한 기본적인 ADME 파라미터가 분석이 되 어야 한다. ADME란 약물의 absorption, distribution, metabolism 그리고 excretion을 의미하며, 약물 에 대한 유효성 이외에도 독성에 대한 부분도 포함되고 있다. 근본적으로 신약이 타겟이 가장 적합 하더라도 임상에 진입하기 위한 IND 장벽 가운데 가장 큰 ADME는 제약회사 및 바이오텍에서도 상 당히 중요한 파라미터로, 이를 예측할 수 있는 시스템이라면 시간과 비용을 상당히 절감할 수 있을 것으로 보인다. Kapple의 지원을 받는 머신러닝 대회에서 우승한 Merck Sharp와 Dohme은 앞서 언 급한 ADME에 대한 파라미터를 통해 최적의 신약 디자인을 구축한 알고리즘으로 DNN 기술이 적용 되었다. 이는 기존에 표준적으로 사용되던 radome forest알고리즘에 비하여 좋은 결과를 보여주었고, 이 방법은 feature selection이 필요 없는 multi-task 방식으로 초반에 언급한 단일 모델에 의한 over-fitting에 대한 리스크가 크게 감소되는 모델이다. Feature selection은 예를 들어 변수가 10개가 있다 고 가정해 보자, 그중 결과에 영향을 미치지 않으면서 오히려 노이즈와 같은 역할을 하는 요소를 제 거하고, 머신러닝에 적합한 요소들을 선별하여 분석능력을 최대치로 올릴 수 있는 방법을 말한다. Feature selection에 대한 방법론적인 부분은 머신러닝의 종류에 따라 적합하다고 보고된 방법들 이 외에도 상당히 다양하게 존재하기 때문에, 이러한 노이즈들을 제거하지 않으면 비트 충돌 ‘Bit colli-sons’이라는 영향을 받는다. 이에 대한 상세한 방법론적인 설명은 Landrum이 저술한 논문에 설명이 되어 있다 [8]. Small molecule에 대한 최적의 디자인에 대한 부분 가운데 풀리지 않는 문제에 도전 할 수 있는 최적의 툴은 머신러닝이며, 이는 약물에 대한 ECFP, coulomb matrix, grid featureizer, symmetry function, graph convolution weave 등에 대한 정보를 토대로 하여 해결에 대한 실마리가 잡힐 것으로 예상된다 [8].

2.3.3. Preclinical/ Clinical development

전임상 연구와 임상연구에 있어서 가장 큰 고민은 치료제에 효과가 있는 환자군의 확보이다. EGFR-표적치료제는 EGFR에 대한 돌연변이가 있어야 하고 완전하지는 않지만, PD-L1을 타겟팅하는 면역관문억제제에 적합한 환자군을 위해서는 환자의 종양 내 PD-L1의 발현이 높아야 한다. 즉 EGFR 의 돌연변이와 PD-L1의 발현은 약물에 대한 대상을 선정하기 위한 바이오마커이다. 신약의 개발과 함께 임상에서 중개 연구로 동시에 진행하고 있는 것이 동반진단키트의 개발이다. 이러한 바이오마 커의 발굴은 면역 치료제가 개발되면서 그 필요성을 절실히 느끼고 있다. 그 이유는, 면역시스템은 단순하지 않기 때문이다. 이는 연못에 돌을 던졌을 때 물결의 파장이 예측할 수 있는 수준이 아니 다. 물 위의 돌맹이, 바람, 물풀 등으로 물결은 제2 혹은 제3의 물결을 만들어낸다. aPD-L1에 효과가 있는 20%의 환자가 그저 PD-L1의 발현이 높아서가 아니라는 점이다. 따라서 최근 글로벌 제약회사 에서 개발하고 있는 면역치료제에 대한 바이오마커 개발에 투자를 하는 이유이기도 하다. 머신러닝 기반의 Predictive biomarker의 개발은 얼마 만큼 환자가 개발된 신약에 대하여 반 응을 보일지에 대한 부분을 표현하는 것이고, 이는 임상 연구에서의 성공률과 직결된다. 즉, 정확한 MOA (Mechanism of action)은 신약에 적합한 환자와 적합한 약을 선별해주는 기능을 한다 [9-11]. 실제로 수천 편의 바이오마커 관련 논문과 모델 그리고 알고리즘 등이 보고되고 있지만, 임상에서

(7)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 7 / 13 이를 활용하는 예는 적다 (본 논문). 최근 몇 년간 미국 FDA에서는 MAQC2라는 프로그램을 통해 36 개의 독립적인 팀에서 회귀 기반의 예측 모델 등을 만들어 high-risk sub 그룹을 찾아내는 등의 연 구를 진행하였다 [12, 13]. 미국의 National Cancer Institute (NCI)에서는 NCI-DREAM 챌린지를 진행 하고 있다. 이는 약물에 대한 반응을 예측하는 모델 등을 개발하는 커뮤니티로써, 전사체와 유전체 를 비롯해서 후생유전학적인 요인까지 활용하여 바이오마커를 발굴하고 있다. 머신러닝을 통해 Pre-dictive 모델을 개발한 Li 그룹에서는 처음으로 케이스 스터디를 통해 erlotinib과 sorafenib에 대한 약물 반응도를 측정하고 [14], 이를 이용해 BATTLE이라고 불리는 임상 시험에 진입하였다 [15]. 그들 은 모델에서 확보한 2가지 바이오마커를 가지고 임상 연구를 한 결과, FDA에서 확보한 데이터와 유 사하게 약물에 반응군을 확인할 수 있었다. 유전체, 전사체 등을 통해 다양한 바이오마커 발굴을 위 해 머신러닝이 이용한 사례는 많다. 즉 분석 소스를 오믹스 분석으로 진행한 부분이 많고, 빅데이터 이기 때문이다. 생산되는 데이터의 형태는 표준화/평준화가 충분히 가능한 소스이며, TCGA, CCLE 등 오픈소스와 비교할 수 있는 방법도 다양하기 때문이다. 그 다음의 오믹스 기반의 바이오마커 소스는 single cell RNA seq 이다. Single cell 기반의 바이오마커에 대한 소개는 이후에 추가로 자세히 설명 을 하도록 하겠다. 반대로 high tech 기반의 데이터를 토대로 만든 머신러닝과는 정반대로, 임상에서 용이하게 확보할 수 있는 환자의 기본 정보만 토대로하여 면역관문억제제에 Predictive biomarker의 반응예측률을 향상 시킬 수 있는 머신러닝 기반의 알고리즘이 2019년도 AACR에 보고된 바 있다. 저자는 PD-1 치료를 받은 환자의 반응을 예측할 수 있는 NIPS 프로그램을 제안하였다 [16]. 이 프로 그램에 임상 파라미터를 입력하면, 환자에 대한 치료 효과가 %로 확인되며, 이 프로그램은 LASSO, RIDGE, Elastic Net, SVM, ANN과 RF 등 다양한 머신러닝 툴을 사용하여 환자의 예후를 비교하였다. 이러한 프로그램의 장점은 병원에서 환자의 치료예후를 검증하기 위한 고가의 오믹스 진단법을 쓰 지 않아도 환자의 예후를 미리 확인해볼 수 있는 CDSS 프로그램이라는 점에서 시사하는 바가 있다. 그리고 마지막으로 디지털 병리 분석 및 예측 마커발굴에 대한 부분을 소개하고자 한다. 최근 병리 진단에 적용되는 특정 면역염색 방법 이외에 multiplex imainging 기술에 대한 부분이다. 즉 형광 면 역염색법과 같이 한 번에 3종 이상의 염색된 결과를 한 슬라이드에서 동시에 볼 수 있다는 장점으 로 AQUA 시스템, 파킨엘머의 Vectra 시스템, CyTOF의 이온레이져를 이용한 시스템 등으로 최근 9가 지에서 최대 50가지 형광을 환자의 수술조직이나 biopsy조직에서 관찰이 가능하다. 한정된 환자 조 직을 이용하여, 동시에 9 color 이상을 염색하여 볼 수 있다면 한번에 암세포와 면역세포 그리고 기 저 세포에 대한 정보가 이미지로 나오게 되며, 특히 종양 미세환경을 분석하기에 최적의 시스템을 제공하게 된다. 이 시스템의 최대 장점은 조직 전체를 정량화하여 수치화시킬 수 있다는 부분이다. 앞서 머신러닝을 하게 되는 이유 가운데, ‘한정된 시간’ 내에 ‘효율적인 일’을 할 수 있는 것이 머신 러닝의 장점이라고 소개한 바 있다. 현재 저자가 사용하고 있는 vectra 시스템을 예를 들어 설명을 하도록 하겠다. 기본적으로 9가지 형광으로 염색이 완료된 조직을 이 장비는 1차적으로 whole slide scan을 수행한다. 이후 2차로 읽힌 조직 중 일부에서 암 조직과 기저 조직에 대한 기계 학습을 시킨 다. 학습이 완료된 컴퓨터는 2차적으로 세포에 대한 기계 학습을 받는다. 세포는 기본적으로 핵을 가지고 있고, 다양한 마커의 위치(핵, 세포질, 세포막)에 따라 확인되는 세포의 outline을 인식한다. 이 또한 기계 학습을 마치게 되고, 학습에 대한 결과물은 현재까지 읽힌 모든 슬라이드의 이미지에 적용된다. 한 필드 당 5,000-10,000개의 세포를 인식하고, 큰 조직의 경우에는 200-300 필드가 존재 하니 한 환자의 종양에서, 300만 세포에 대한 정보가 matrix 형태로 나오게 된다. 적게는 100메가

(8)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 8 / 13 바이트에서 많게는 한 개의 슬라이드에서 7.4기가 바이트의 결과물이 나오게 된다. 나온 결과물을 토대로 하여, 암 조직 내, 그리고 기저 조직 내의 면역세포의 종류와 발현량을 측정할 수 있고, 심지 어 유클리디안 방법으로 암세포와 CD8 T세포의 거리를 측정하여 활성 범위 25 um 이내의 거리 전 체를 측정이 가능하다. 환자 암 조직에 대한 종양 데이터가 현재 1,000장이 넘어가고 있으며, 이를 머신러닝으로 종양의 형태와 종양 미세환경 내 면역세포의 비율 등을 고려하여, 면역관문억제제의 효능에 대한 예측이 가능하다. 이는 심지어 오믹스 데이터와 함께 분석이 되기 때문에, 디지털 병리 조직과 전사체 혹은 유전체의 새로운 형태의 멀티오믹스가 구현이 되는 것이다. 이러한 결과들은 궁 극적으로 임상 및 전임상 샘플을 통해 신약의 바이오마커로 머신러닝으로 구현이 가능하다.

2.4. 글로벌제약회사에서의 머신러닝 활용

글로벌 제약회사는 다양한 질환에 대한 신약 파이프라인을 구축하고 있으며, 전임상 혹은 임 상 단계에 진입하고 있다. 과거의 경우 기초연구를 토대로 발굴한 주요 타겟들을 기반으로 신약 들 을 만들어왔다면, 반대로 글로벌 제약회사에서 빅데이터를 창출하여 신약 타겟을 찾아내는 등의 연 구가 진행되어 왔다. 그렇다면 Johnson & Johnson이나 Pfizer와 같은 글로벌 제약회사에서는 어떠한 부분에서 머신러닝을 사용하고 있는지와 이러한 부분이 의약품 제약산업에 대한 영향을 줄 수 있는 지에 대하여 확인해보았다.

2.4.1. Johnson & Johnson

Johnson & Johnson에서는 IBM Watson Health와 공동연구에 대해 발표를 하였다. IBM 왓슨 은 이미 전 세계적으로 잘 알려져 있는 CDSS 시스템으로서, 초기 MD Anderson Cancer Center에 적 용된 바 있는 코칭 시스템이다. 이 시스템은 현재 환자의 건강을 유지할 수 있는 모바일 형태의 개 인맞춤형 프로그램이다 [17]. 관련 자료는 Youtube에 잘 설명되고 있다. 또 다른 한가지는 미국 FDA의 승인을 받은 SEDASYS 시스템으로 이는 수술실의 마취 자동화를 머신러닝으로 구현하였다. 머신러닝 기반의 마취시스템의 장점은 환자의 회복 시간이 단축되고 10분 이내에 마취에 대한 진정 효과가 99%로 이끌어 낼 수 있음을 보여주었고, 의료기기로서 시장에 나와 있는 상태이다. 그리고 현재 외과용 로봇으로 외과 의사와 협력 수술이 가능한 형태의 플랫폼으로 나올 것으로 예상된다. 2.4.2. 로슈 로슈와 Genentech은 GNS healthcare와 협력을 하고 있다. 이 회사는 머신러닝을 통해 암 환 자의 데이터를 토대로 암 치료에 대한 방향을 제시하고 표적을 확보하는 기술로서, 전략적 동반관계 로서 현재 신약 파이프라인의 상당수가 머신러닝 기반으로 도출되고 있다. 그뿐만 아니라 로슈는 대 규모 유전체분석회사인 Bina Tech을 인수함으로써, 오믹스 기반의 머신러닝 분석을 수행하고 있을 것으로 예상된다.

(9)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 9 / 13 2.4.3. 화이자

화이자 또한 IBM과 함께 전략적 동반관계를 구축한 상태이다. IBM Watson for Drug Discov-ery라는 클라우드 기반 플랫폼을 활용하여 암 치료를 위한 새로운 약물의 표적과 약물의 내성 등을 발굴해 낸다. 이 클라우드 시스템에서는 2,500만 건의 논문 초록과 100만 개의 Full paper로 부터 신 약 타겟을 확보해 낸다 [18]. 2.4.4. 바이엘 바이엘에서는 액셀레이터 투자를 통해 머신러닝과 관련된 디지털 스타트업에 무료작업공간 과 코칭 그리고 연구비로 상당한 5만 유로를 제공하여 인재와 스타트업 중소기업을 키워 왔다. xbird 는 암의 예방과 질병에 중심을 둔 AI 기반의 회사로서, 모바일이나 웨어러블 기술을 통해 환자의 건 강 패턴을 분석하고 예방 혹은 치료에 도움을 줄 수 있는 시스템을 개발해오고 있다. 2018년도 Grants4Apps 프로그램에서 Cyclica라는 회사와 함께 연구를 진행 중이며, PK/ PD 및 약물 표적 등에 대한 머신러닝 기술을 개발하는 회사이다. 2.4.5. Amgen

암젠은 로슈와 협력 중인 GNS healthcare의 투자자로서, 현재 MIT와 ‘Owkin’라는 스타트업 회사와 함께 머신러닝 기반의 연구에 협력 중이다. 2.4.6. Lilly 릴리는 현재 MIT와 함께 머신러닝에 대한 연구 협력을 하고 있으며, 최근 Transcriptic과 Atomwise와의 협력을 통해서 타겟에 대한 최적화된 약물 후보군 디자인 등에 대한 부분에 협력하 고 있음을 보고하였다. 2.4.7. GSK 글락소스미스클라인은 인공지능을 활용하는 가장 활발한 회사 중 하나로서, 실제 회사 내 50여 명의 AI 분석 팀이 신약개발에 매진하고 있으며, Exscientia와 Insilico Medicine과 같은 스타트 업과 함께 신약 후보군 발굴과 신약에 대한 기전 등에 대한 부분을 머신러닝으로 분석하고 있다.

2.4.8. Novartis

노바티스는 IBM 왓슨과 제휴를 맺고 MIT와 함께 컨소시엄을 같이 하고 있다. 노바티스 내 연구소인 NIBR에서 이미, 분석연구원들이 약 200명 정도 상주하고 있으며, 사내 AI 기능을 추가하기 위한 옥스포트대학의 빅데이터 연구소와 파트너쉽을 맺었다.

(10)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 10 / 13

2.5. 머신러닝 기반의 기술을 가진 국내외 기업

2.5.1. 테라젠이텍스 테라젠이텍스는 인공지능기반의 유전체 빅데이터 분석과 유전체 빅데이터 기반 신약 임상 연구를 진행하고 있는 회사다. 실제로 TGF-beta inhibitor를 개발하고, 전사체 데이터를 토대로 하여 TGF-beta에 대한 바이오마커 발굴과 맞춤형 분석알고리즘 및 kit를 개발하고 있는 역동적인 회사이 다. ‘DeepOmics’를 통한 딥러닝 기반의 암 진단 예측, 신약에 대한 바이오마커 발굴기술, 종양 특이 적 항원에 대한 예측 시스템 등을 개발하고 있어 큰 기대가 예상된다. 2.5.2. 스탠다임 스탠다임이 시도하는 신약개발의 원리는 앞서 개발된 의약품의 화학적 특징들을 활용하여 Drug repositioning 기술로서, Deep learning 기술을 활용하고 있다. Drug에 대한 특징은, 생물학적인 특징을 비롯하여 각종 타겟과 부작용 그리고 임상 결과 등이 네트워크 형태로 구축이 되어 있고, 특 히 Deep learning을 통한 AI는 기존의 약물들에 대한 새로운 타겟을 발굴하는데 효율적인 기술을 가 진다. ChEMBL, 약물 데이터베이스를 활용하여 analogue structure와 lead optimization을 하는

‘Standigm Best’ 플랫폼, 그리고 새로운 타겟 혹은 질병에 대한 pathway를 예측하여 신약의 적용 가 능성을 확인하는 ‘Standigm insight’ 플랫폼을 소개하고 있다. 2.5.3. 중외제약 중외제약이 제시하는 머신러닝 기반의 ‘클로버’는 2012년부터 시작되어 온 정보 기반의 약물 반응성 예측 및 바이오마커 발굴 기술이며, 한국인 암 환자 유래 세포 120종을 포함한 300여 종의 암세포의 유전자 정보를 가지고 있는 연구용 검색 포털이다. 중외제약에서는 개발하고자 하는 신약 에 대한 검증과 예측이 가능한 시스템으로 소개하고 있다. 2.5.4. SK바이오팜 SK바이오팜에서는 20년간 신약연구데이터가 담긴 SKBP 디스커버리 포털(SK Biopharmaceu-ticals Discovery Portal)을 기반으로 신약개발에 관련된 정보를 받을 수 있는 시스템이 구축되어 있 다. 이 데이터는 실제 연구데이터와 연구 경험을 토대로 데이터베이스화되어 있으며 신약 후보군 도 출에 활용되고 있다.

2.5.5. 신데카바이오

신데카바이오가 보유한 기술로 PMAP 플랫폼, MAHA-FsDx, ISCT 등이 있다. PMAP 기술은 혈 액 기반의 NGS 데이터를 통해 환자 개개인에 대한 germline SNV를 기존의 질병 연관 genome 데 이터와 연관하여 분석을 진행한다. 이때 활용하는 MAHA-FsDx 유전자 검사용 슈퍼컴퓨터로 분석 비

(11)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 11 / 13 용을 절감하기 위한 시스템으로 분석 시간을 단축하며, ISCT 기술은 타겟 유전자, protein, 약물 간 network, molecular dynamics 시뮬레이션, Drug virtual screening을 지원한다. 이 기술을 통해 약물의 후보군, 독성, 유효성에 대한 디자인이 가능한 기술이다. 2.5.6. 뷰노(Vuno) 앞서 신약의 후보군 독성 및 유효성 예측에 초점이 맞추어져 있었다면, 지금부터는 그래픽 기반의 머신러닝 기술을 통해 진단하는 기술을 가진 회사들을 소개하도록 하겠다. 뷰노는 CT, X-ray, MRI, 망막 스캔 사진을 기반으로 하여 질병의 진단과 정도를 분석해주는 시스템이다. 그 이외에도 다양한 솔루션을 제공하고 있다. 2.5.7. 루닛(Lunit) 최근 유방암 진단 보조 AI 루닛 인사이트 MMG에 대한 식약처 허가를 획득한 루닛은 머신 러닝 기반으로 종양의 진단을 확인할 수 있는 시스템이다. 이외에도 폐암 등을 검진할 수 있는 시스 템을 가지고 있으며, Lunit socre라는 기술을 통해 병리조직에서 암과 면역세포 등에 대한 결과를 확 보할 수 있는 기술을 가지고 있다. 이는 디지털 병리기술로서, 신속하고 빠른 분석이 가능하다는 이 점이 있다. 이 밖에도 국내에서는 머신러닝을 기반으로 유수한 기술을 가진 바이오텍와 제약회사들이 존재한다. 글로벌 제약회사의 사례처럼 이제는 머신러닝 기반 신약개발 그리고 분석 등이 신약의 개 발 속도를 증가시키고 신약의 개발 비용을 상당히 단축할 것으로 생각된다.

3. 결론

국내 혹은 국외에서 머신러닝 기반의 기술은 이미 20년 전부터 활용되고 있었던 기술이다. 최근 분석이 가능한 고급 데이터의 증가와 데이터 공유 및 분석에 필요한 하드웨어와 소프트웨어 기술의 발전이 머신러닝을 기반으로 한 의학기술의 촉매 역할을 하고 있다. 글로벌 제약회사에서 신 약을 발굴할 때 사용하는 머신러닝 기술은 신약의 가능성을 예측할 수 있는 중요한 기술로 자리매 김하고 있을 뿐만 아니라, 이미 국내 제약회사와 바이오텍에서는 이러한 수요를 인지하고 오래전부 터 준비하고 있었던 기술들이 빛을 보고 있다. 머신러닝에 대한 의학적 적용은 AR 기술을 활용한 외과적 어드바이저, 신약 후보군도출과, 기존에 발굴된 신약의 다른 병증에서의 재조명을 하기 위한 네트워크 기반의 분석법, 그리고 임상 이미지를 분석할 수 있는 머신러닝 기반의 진단 보조 및 병리 분석 보조 시스템에 이르기까지 다양 하다. 향상된 기술의 최종점은 정확도라고 할 수 있다. 따라서 머신러닝 기반의 기술의 한계점은 바 로 데이터베이스의 확보에 있다. 특히 임상에 관련된 머신러닝 기반의 기술들은 다양한 샘플 등을 통해 정확도를 높여야 하기 때문에, 대형병원에서 확보하고 있는 환자 정보, 오믹스데이터, 병리, 임

(12)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 12 / 13 상 정보 등에 대한 접근이 중요하다. 따라서 머신러닝 기반의 스타트업과 병원의 연계 연구는 실제 임상 인허가를 위한 중요한 시작점이라고 볼 수 있다. 임상정보를 토대로 개발된 신기술의 장점과 반대로, 환자의 개인정보를 보호할 수 있는 대책 이 필요하다. 정보의 디지털화가 진행되면서 환자의 개인정보는 방화벽과 접근 제한 등의 보안시스 템을 통해 보호되고 있지만, 결국 데이터를 활용하는 것이 인간이기 때문에 실수가 가능하다. 따라 서, 대량 임상정보 유출에 대한 방지책은 필수적이다.

4. 맺는말

인간이 의도하는 바를 ‘한정된 시간’ 내에 ‘효율적인 일’을 할 수 있는 것은 컴퓨터를 통한 기계학습을 통해 얻어질 수 있어 머신러닝의 활용은 기본적으로 ‘효율 증대’라는 측면에서 상당히 유리한 기술이다. 특히 의학에 적용되어 활용될 가치가 있는 기술은 미래 산업과 보건 증진에 상당 히 중요한 역할을 할 것으로 기대한다. 이러한 이점 때문에 저자도 머신러닝에 관심을 가지고 R과 python을 활용하여 특정 면역항암제에 대한 예후를 예측할 수 있는 기술, 바이오마커 발굴 등에 활 용하고 있다. 오늘이라도 당신이 머신러닝에 관심이 있다면, 퍼스널 컴퓨터에서 머신러닝 분석 예시가 담 겨 있는 책들을 서점에서 3-5만 원에 손쉽게 구입할 수 있어 머신러닝이란 무엇인지를 접해볼 수 있는 좋은 기회가 될 것이다. 어쩌면, 남들이 생각하지 못한 새로운 분야에 당신의 새로운 머신러닝 기반 기술이 창출 될지도 모른다.

5. 참고문헌

[1] Costa PR, Acencio ML & Lemke N A machine learning approach for genome-wide prediction of morbid and druggable human genes based on systems-level data. BMC Genomics 11, S9–S9 (2010)

[2] Jeon J et al. A systematic approach to identify novel cancer drug targets using machine learning, inhibitor design and high-throughput screening. Genome Med. 6, 57 (2014)

[3] Ament SA et al. Transcriptional regulatory networks underlying gene expression changes in Huntington’s disease. Mol. Systems Biol. 14, e7435 (2018)

[4] Wu Z et al. MoleculeNet: a benchmark for molecular machine learning. Chem. Sci. 9, 513–530 (2018) [5] Deepchem 홈페이지: https://deepchem.io

[6] Olivecrona M, Blaschke T, Engkvist O & Chen H Molecular de-novo design through deep reinforcement learning. J. Cheminform. 9, 48 (2017)

[7] Kadurin A, Nikolenko S, Khrabrov K, Aliper A & Zhavoronkov A druGAN: an advanced generative adversarial autoencoder model for de novo generation of new molecules with desired molecular properties in silico. Mol. Pharm. 14, 3098–3104 (2017)

(13)

머신러닝을 활용한 항암신약개발 현황과 향후 전망 - 인공지능과 의학의 결합 표경호 Page 13 / 13 [9] Li B et al. Development of a drug-response modeling framework to identify cell line derived translational biomarkers that can predict treatment outcome to erlotinib or sorafenib. PLOS ONE 10, e0130700 (2015) [10] Van Gool AJ et al. Bridging the translational innovation gap through good biomarker practice. Nat. Rev. Drug Discov. 16, 587–588 (2017)

[11] Kraus VB Biomarkers as drug development tools: discovery, validation, qualification and use. Nat. Rev. Rheumatol. 14, 354–362 (2018)

[12] Shaughnessy, J. D. Jr. et al. A validated gene expression model of high-risk multiple myeloma is defined by deregulated expression of genes mapping to chromosome 1. Blood 109, 2276–2284 (2007)

[13] Zhan, F., Barlogie, B., Mulligan, G., Shaughnessy, J. D. Jr & Bryant, B. High-risk myeloma: a gene expression based risk-stratification model for newly diagnosed multiple myeloma treated with high-dose therapy is predic-tive of outcome in relapsed disease treated with single-agent bortezomib or high-dose dexamethasone. Blood 111, 968–969 (2008)

[14] Li, B. et al. Development of a drug-response modeling

framework to identify cell line derived translational biomarkers that can predict treatment outcome to erlotinib or sorafenib. PLOS ONE 10, e0130700 (2015)

[15] Kim, E. S. et al. The BATTLE trial: personalizing therapy for lung cancer. Cancer Discov. 1, 44–53 (2011) [16] Abstract 683: A machine learning based clinical decision support system (CDSS) for anti-PD-1 therapy us-ing non-invasive blood marker and clinical information for lung cancer patients: https://cancerres.aacrjour-nals.org/content/79/13_Supplement/683

[17] IBM왓슨의 모바일 플렛폼: https://m.youtube.com/watch?v=ZPXCF5e1_HI&feature=youtu.be

[18] IBM Watson for Drug Discovery: https://m.youtube.com/watch?v=kHOh-zD5TWg&feature=youtu.be

The views and opinions expressed by its writers do not necessarily reflect those of the Biological Research Information Center.

표경호(2019). 머신러닝을 활용한 항암신약개발 현황과 향후 전망 – 인공지능과 의학의 결합. BRIC View 2019-T32 Available from https://www.ibric.org/myboard/read.php?Board=report&id=3374 (Nov 28, 2019)