• 검색 결과가 없습니다.

보건의료 분야의 인공지능 개발ㆍ활용 동향

N/A
N/A
Protected

Academic year: 2021

Share "보건의료 분야의 인공지능 개발ㆍ활용 동향"

Copied!
9
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

보건의료 분야의 인공지능 개발ㆍ활용 동향

1.

들어가는

• 4

차산업혁명시대를맞이하여빅데이터에이어인공지능

(Artificial Intelligence)

과 기계학습

(Machine Learning)

이라는키워드가주목받음

데이터가폭증하고복잡해짐에따라 데이터집합 내에 숨어있는통찰을얻기가 역부족인상황에서데이터로부터알고리즘을찾아내는일반적해법마련이요구됨

인간이경험과학습을 토대로통찰을얻고 미래를예측하듯이 컴퓨터도경험과 학습을토대로연관관계나추이를밝혀내는능력이점점강화되는상황임

2.

보건의료부문과

인공지능

보건의료부문에서인공지능이각광받는이유는의료 데이터의방대하고복잡한 속성에기인함 의료 부문에서 전문가가 되기 위해서는 여러 해 동안 교육을 받고 현장에서 풍부한 경력을 쌓아야 하는데, 그 과정에서 수많은 데이터를 접하고 미묘하게 구분되는 특정 패턴을 찾기 위해 비교 평가하는 작업을 반복함 반복적으로 학습하고 판단하는 작업은 인공지능과 기계학습이 잘하는 분야임

의료 데이터의 특성은 데이터 다양성

,

비구조적인 형식

,

전문가

/

환자의 개인 편차로인한다양한데이터해석가능성

,

여러변수로인한복잡성

,

법적인규제 등으로요약됨 의료 관련 데이터는 텍스트, 사진, 동영상과 같이 형태가 다양하며, 동일한 형태에서도 정형과 비정형이 혼재된 비구조적인 형식을 따르며 통일성이 결여되어 있음 환자의 개별 특성으로 인해 여러 환자 사이에서 동일한 데이터라도 개인별 해석이 달라질 수 있으며, 의료진의 전문 분야와 경험에 따라 해석이 달라질 가능성도 높음 환자 보호를 위한 개인 정보 비식별화와 같은 법적인 규제는 상황을 더욱 복잡하게 만듬

(2)

3.

보건의료부문에

적용가능한

인공지능

기술

데이터가늘어날수록알고리즘이정확해지고분석

,

추론

,

예측능력이향상되므로 지능적인고부가가치서비스제공이가능함

보건의료부문과밀접한인공지능기술동향을

(1)

마스터알고리즘

, (2)

데이터와 활용분야

, (3)

기계학습알고리즘부문을중심으로살펴봄

마스터 알고리즘

페드로 도밍고스가주창한 ‘마스터알고리즘’은범용적으로 사용가능한 보편 타당한알고리즘을의미함 해결하고자 하는 문제의 맥락에 맞춰 알고리즘을 매번 새로 개발하는 대신 실제 수집한 데이터와 정보만 넣으면 우리가 원하는 통찰을 얻을 수 있는 어떤 절대적이고 궁극적인 알고리즘을 개발한다면 마치 마스터키와 같은 프로그램의 완성을 볼 수 있다는 주장임 “ 세상의 모든 지식, 즉 과거, 현재, 미래의 모든 지식은 단 하나의 보편적 학습 알고리즘으로 데이터에서 얻어낼 수 있다. 나는 이 머신러닝을 마스터 알고리즘(master algorithm)이라 부른다.”

마스터 알고리즘은 기호주의자

,

연결주의자

,

진화주의자

,

베이즈주의자

,

유추주의자라는

5

개방식으로나눠져있으며최종적으로는이를 통합해궁극적 알고리즘으로발전할수있음 (기호주의자) 1980년대에 지식 공학이라는 이름으로 출발한 기호주의자는 전문 분야의 지식을 컴퓨터에 저장해 지식 기반 추론 엔진인 전문가 시스템을 만들어내기 시작함. 예를 들어, 의료 분야에서 증상을 입력하면 병명을 알아내는 소프트웨어가 해당됨 (베이즈주의자) 1990년대에서 2000년대에는 베이즈주의자가 등장해서 확률적인 이론으로 원인과 결과를 학습해 이상 유무를 파악하는 시스템을 만듬. 학습을 통해 스팸 편지를 걸러내는 필터링 소프트웨어가 대표적인 사례임 (연결주의자) 2010년대 중반까지는 연결주의자가 등장해서 뇌과학과 확률을 바탕으로 이미지와 음성을 인식하고 변환하는 시스템을 만듬. 예를 들어, 의료 분야에서 영상 이미지를 판독해 병명을 알아내는 소프트웨어가 해당됨 (통합) 2010년대 후반부터는 여러 가지 알고리즘을 결합한 형태가 등장하는데, 연결주의자와 기호주의자가 연합해서 다양한 도메인 지식 시스템을 통합해 지식을 공유하고 이를 토대로 예측하는 시스템을 만들기 시작함. 2020년대에는 연결주의자와 기호주의자와 베이즈주의자가 연합하는 방향으로 기술이 발전될 것으로 예상됨

(3)

데이터와 활용 분야

인공지능기계학습에있어가장중요한요소는데이터의양과질임

매년 개최되는 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 대회는 학계에서 사용 가능한 방대한 이미지 데이터베이스 구축을 통하여 해마다 놀라운 결과를 보여 줌. 이를 토대로 학습한 결과, 몇 년 전에 이미 사람을 압도하는 이미지 인식용 인공지능 소프트웨어가 개발됨

의료 부문에서도 이미 임상적으로 분석이 완료된 데이터를 제공하므로 이를 토대로경쟁적으로학습할경우빠른기술발전이기대됨

예를 들어, 스탠포드 대학에서 주도하고 있는 의료 이미지 넷(Medical Image Net)은 의료와 관련된 다양한 이미지와 방사선 보고서 등의 의료용 텍스트를 제공함

ILSCVRC와 마찬가지로 다양한 연구기관이 경쟁을 벌여 질병에 대한 진단 능력을 높이려는 목적으로 데이터를 점진적으로 확대할 예정임

특정질병에대한공개대회도개최되고있는데

, 2015

년과

2016

년도에심장기능

이상을파악하는알고리즘개발대회에이어

Data Science Bowl 2017

은“폐암

탐지를개선할수있습니까

?

”라는주제로개최됨 미국 국립 암연구소가 제공한 고해상도 폐 사진 2천장을 활용해 폐의 병변이 암인지를 정확하게 판단하는 알고리즘을 개발하는 대회임 고가의 의료 이미지 특성상 상대적으로 적은 이미지로 학습을 해야 하기 때문에 의료 이미지 대회 참석자들은 ILSVRC 대회와 비교해 악조건임 [그림 1] 미국국립 암센터의 고해상도 폐 CT 사진

(4)

스탠포드와 국립암연구소뿐만아니라 다양한 기관에서다양한 형태의 의료용

데이터를 공개하고 있으며

,

깃허브에 올라온

Medical Data for Machine

Learning

데이터모음집을살펴보면특히의료용영상과관련된자료가많음 의료용 영상이 많은 이유는 영상 자료를 활용한 진단 부문의 발전 가능성이 높기 때문임. 이와 연관하여 이미지를 분류하고 특정 객체를 찾아내는 기술 경향이 우세함

스탠포드에서는전자의무기록

(EHR, EMR)

자료나서술식보고서로부터연결고리를 찾아분류하고핵심만추출해서자동화된방사선전문의기술을개발중임 지도 학습 알고리즘과 더불어 방사선 보고서의 주석을 활용해 지능적으로 보고서를 요약하고 방사선 전문의를 위한 실시간 의사 결정 지원이 가능한 표준 파이프라인을 구축 중임 [그림 2] 방사선 보고서로부터 정보를 획득하는 스탠포드 시스템 사례

Information Extraction from Narrative Radiology Reports Information model

Annotated radiology reports

Machine learning/NLP • Stanford Part of Speech

Tagger

• Porter stemmer

• Word shape from Stanford CoreNLP toolkit

• NegEx to detect negation

• RadLex ontology class

Report information extraction system

Information linkage, summarization real-time decision support for radiologists “A 1㎝ calcified mass

probably is present in the anterior right upper lobe”

Unannotated radiology reports

Hassanpour, S & Langlotz, CP. Artif Intell Med 23(1):84-9, 2016.

• Anatomy: “right upper lobe”

• Anatomy modifier: “anterior”

• Observation: “mass”

• Obsevation modifiers: “calcified”, “1㎝”

• Uncertatinty: “probably is present”

아이칸의과대학에서는딥페이션트라는기술을개발해

EHR

을토대로

1

년안에 심각한질병이진행될환자를판별함

이 기술은 12년 동안 수집된 70만 건의 환자의 전자의무기록을 토대로 심부전, 암, 중증 당뇨병 등 수십 가지 질병의 위험성을 예측함

(5)

기계학습 알고리즘

양질의데이터를확보하고이를 활용할적용 분야를찾았다면기계학습을 위한 알고리즘을고안해야함

.

이미지

,

시계열데이터

,

텍스트와관련해가장 유망한 알고리즘을살펴봄

가. 이미지

먼저이미지에서 관심있는 영역

(RoI, Region of Interest)

을 찾아내야하고

,

다음으로찾아낸영역이어떤클래스인지를결정하는알고리즘이필요함 예를 들어, 병변의 위치를 찾고 나서 어느 정도 심각한지(양성인지 음성인지)를 파악하는 절차를 인공지능으로 구현해야 함

이미지 판독을 위해 고정된 특질

(features)

추출 알고리즘을 사용한다면

,

물체별로매번새롭게알고리즘을개발해야함

.

하지만특질을학습할수있다면

,

데이터만으로클래스분류시스템을만들수있어자동화가가능함 사람의 두뇌가 이미지를 파악할 때 처음에는 저수준의 특질에서 점점 여러 연결을 활용한 고수준의 특질을 파이프라인 방식으로 처리하는데, 마스터 알고리즘에서 소개한 연결주의자들의 이론에 따라 이를 모사하는 방식이 강력해짐

딥러닝부문에서

CNN(Convolution Neural Networks)

이라는기법은특화된

연결구조로 만든신경망으로

,

특질을 추출하는여러단계를 층층이 쌓아인간 두뇌를모사함 상위층으로 갈수록 인간의 두뇌와 마찬가지로 전역적인 불변 특질을 구분해내며, 가장 마지막 층에서 실제 객체를 분류하고, 충분한 이미지만 공급하여 학습시키면 알고리즘 변경없이 자동으로 클래스 분류가 가능한 시스템이 등장함 CNN은 2014년에 이미 안면 인식 부문에서 정확도 97.35%를 기록하여 인간과 비슷한 수준(97.5%)까지 이름 [그림 3] 알파벳을 인식하기 위한 CNN 아키텍처

(6)

연구개발주제는클래스분류에있어큰성공을거두면서관심영역분리부문으로 초점이옮겨짐 과거에는 경계선 추출 방식을 사용해 관심있는 객체를 분리하는 방식이 일반적이었는데, 환경적인 요인으로 인해 정확도가 떨어지는 문제점이 있음 미리 정해진 알고리즘이 아니라 영상으로부터 영역을 분리하기 위한 방법을 기계학습 으로 구현하고 방대한 학습 데이터로 정확도를 높인다면 문제해결이 가능함

관심영역분리연구에서가장먼저등장한해법은객체탐지를위한심층신경망 활용이었고

,

이와관련된알고리즘이지속적으로발전함 CNN을 사용해 클래스별로 화면 위치(x, y, w, h)를 출력하는 네트워크를 따로 학습하는 방법이 등장함. 이렇게 학습으로 관심 영역을 분리할 수 있다는 가능성이 확인되어 기존에 연구된 클래스 분류와 결합하기 위한 연구가 진행되었고, R-CNN(Region with CNN)이라는 기법으로 발전함 R-CNN은 물체 위치를 사각형으로 표현하는 바운딩박스 제안, 각 바운딩박스 내에서 픽셀/특질 재샘플링, 분류기와 바운딩박스 회귀 모듈이라는 각 단계를 파이프라인으로 연결해서 원하는 클래스의 위치와 분류를 동시에 수행할 수 있게 만들어 줌 [그림 4] 영역을 기반으로 동작하는 R-CNN

1. Input image 2. Extract region

proposals (~2k) 3. Compute CNN features 4. Classify regions

R-CNN: Region-based Convolutional Network

acroplane? no. person? yes. tvmonitor? no. warped region 초기 R-CNN은 마스터 알고리즘에서 유추주의자 방식인 SVM(Support Vector Machine)을 사용해 바운딩 박스 관련 단계를 처리했는데, 성능과 속력을 높이기 위해 신경망 기술로 대체한 Fast R-CNN과 더욱 빠른 처리를 위한 Faster R-CNN이 등장함으로써 완결성을 갖추게 됨

최근에는 SSD(Single Shot MultiBox Detector) 알고리즘이 등장하여 감지 파이프라인을 사용하지 않고 바운딩 박스 위치에서 작은 컨볼루션 필터만을 사용해 객체 클래스와 오프셋을 찾아낼 수 있게 됨

(7)

나. 시계열 데이터

혈압

,

뇌파

,

심장박동처럼생체데이터 중일부는 시간과 연관이 있으며

,

이를 시계열성데이터라고함

.

시계열데이터는시간에따라변하는경향이중요하므로 데이터순서에따른상태기억이필요함

• RNN(Recurrent Neural network)

은글

,

음성 신호

,

생체신호

,

주가

,

날씨와 같이시계열성데이터에서패턴을인식하는신경망임 CNN과 다르게 RNN은 연이어 등장한 데이터의 패턴을 기억하는 능력이 있음. RNN은 현재 들어오는 입력과 과거의 출력을 입력으로 받아 은닉층에 기억을 저장하고 결과를 출력하는 신경망 형태로 구성됨. 출력단에서 산출한 오차를 최소화하기 위한 역전파는 CNN과는 달리 시간을 거슬러 올라가는 방식으로 진행됨 RNN은 짧은 시간 동안에는 기억을 비교적 잘 유지하지만 시간이 흐름에 따라 그라디언트 소실이라는 문제가 있음 [그림 5] RNN을 풀어서 나타낸 그림

=

...

h

t

X

t

X

0

X

1

X

2

X

t

h

0

h

1

h

2

h

t

A

A

A

A

A

• RNN

을변형한

LSTM(Long Short Term Memory)

은장기의존성을학습할수 있는특수한형태의순환신경망으로서

1990

년대중반에등장함

RNN의 단위는 곱하기로 구성된 반면 LSTM의 피드백은 더하기(아래 그림에서 [+]로 표현된 부분)로 구성되어 있어 그라디언트 소실에 강함

(8)

[그림 6] LSTM의 내부 구조

h

t 2

h

t

C

2 1

C

t

h

t × × × 1

o

2 3

o

+

tanh tanh

X

t o

o

다. 텍스트

최근 다양한분야에서 인기를끄는

AI

챗봇이등장함으로써 다시한번텍스트에 대한 중요성이 강조되고 있음

.

의료 분야에서도 전자의무기록이나 서술식 보고서가모두텍스트로구성됨 인공지능과 기계학습을 사용해 텍스트를 해석하는 연구가 최근 결실을 맺고 있음. 구글의 번역 시스템(https://translate.google.com/)은 사람이 이해하기 힘들게 단어들의 집합을 뒤죽박죽으로 나열하는 대신 사람에 가깝게 번역 작업을 수행하며, 아마존 에코와 애플의 시리는 사람의 말을 정확하게 알아듣고 의미에 맞춰 동작함

• RNN

LSTM

은순서가 중요한 인간의 글을분석하는 주요기술로 자리잡고 있음 세익스피어의 작품을 학습시키면 세익스피어처럼 글을 쓸 수 있고, 원문과 번역문을 학습시키면 고품질의 번역이 가능함 RNN과 LSTM은 형태소 분석 등의 전처리 과정을 거치는 대신 원문 데이터에서 패턴을 찾는 방식으로 동작함

구글은 문장에서 의미를 분석할 수 있는 시스템인

SyntaxNet

을 오픈소스로 공개함 SyntaxNet은 다양한 영어 문헌을 학습시켜 언어의 의미를 파악할 수 있게 구글이 만든 자연어 해석기이며, 자동 요약이나 번역과 같은 작업에 최적화된 결과를 제공함 분석 과정에서 모호성이 가장 큰 문제로 부각되지만, SyntaxNet은 신경망을 사용해 단어들 사이의 의존성을 분석해 정확도를 높여줌

(9)

4.

맺음말

보건의료 부문에 적용 가능한 인공지능기술을 대상으로 마스터 알고리즘

,

데이터와활용분야

,

기계학습알고리즘이라는세가지관점에서살펴봄

현재최첨단으로 불리는인공지능과 머신러닝도 점점더일반적인기술로 변할 것이며

,

이에 따라 사람들이 크게 의식하지 않고 자연스럽게 이를 활용하는 시점이조만간도래할것으로예상됨

인공지능과 기계학습의 발전속도는 점차가속화되고 있기때문에

,

이에대한 지속적인관심이필요한시점임 본고는엑셈 CTO 박재호상무가작성하였습니다. 참고 문헌

의료인공지능현황및과제, KhIDI Brief 보건산업브리프 Vol. 219, 2016년 8월

마스터알고리즘: 머신러닝은우리의미래를어떻게바꾸는가, 페드로도밍고스지음,

비즈니스북스, 2016년 7월

Machine learning evolution (infographic), PWC, 2017년 4월,

http://usblogs.pwc.com/emerging-technology/machine-learning-evolution-infographic/

Medical Image Net, http://langlotzlab.stanford.edu/projects/medical-image-net/ Data Science Bowl 2017,

데이터사이언스볼, 암탐지알고리듬을만들기위해경쟁하는데이터과학자대회, http://www.itworld.co.kr/news/104665

Medical Data for Machine Learning,

“Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records”, Nature, 2016년 5월

“당뇨병성망막증진단…AI, 의사수준됐다”, ZDNet, 2017년 4월,

http://www.zdnet.co.kr/news/news_view.asp?artice_id=20170427154402&type=det& re=

Deep Convolutional Neural Networks for Image Classification http://web.engr.illinois.edu/~slazebni/spring14/lec24_cnn.pdf

Deep Object Detectors, Word2vec,

참조

관련 문서

crystalline) 삼화화학, C&chem Tatech, 미쓰비시 기판 (Glass) 고왜점 유리(붕규산) 개발중(KCC, 한국유리) AGC, 일본전기초자 CPT 어드레스 전극 Ag분말,

본 대학원은 실무형 최 신 실습실을 보유하고 있고, 산·학의 유기적인 협력체계를 구축하고 있어 학생들 이 미래농업 분야의 인공지능 전문가, 빅데이터 처리 전문가,

• PlayMemories Home: 컴퓨터로 이미지를 가져와서 다양한 방법 으로 이미지를 사용할 수 있습니다 (22 페이지 ).. • Image Data Converter:

 객체지향 분석 설계에서는 일단 시스템에서 취급해야 될 객체를 추 출하게 되면 그것을 가지고 객체를 구조, 기능, 동작의 3가지 측면으 로

• 서술식 사건표집-문제행동 전후의 사건을 서술 하여 행동의 원인을 밝히는 데 도움을 줌. • 빈도 사건표집-문제행동이 얼마나

이러한 실제적인 사건과 연관하여, 본 프로그램은 학생이 병원을 시찰 하는 암행어사로서 여러 미션을 수행하는 문제

인공지능을 통한 예술 작품의 생성 과정을 설명할

우리는 생물의 다양성에 대한 다양한 활동을 통해 수학과 과학, 기술, 미술의 만남을 통해 생물의 다양성 속의 수학과 과학, 기술의 융합이 가능한 것을 찾아내는