A Study on Core Technologies of IDX Platform

(1)

2019 년 12 월 19ZS1200-02-1210P

IDX 플랫폼 원천 기술 연구

Research on Foundation Technology of IDX Platform

(2)

제 출 문

본 연구보고서를 주요사업인 “SW·콘텐츠 기초·원천 기술 개발” 대과제의

“IDX 플랫폼 원천 기술 연구” 중과제의 결과로서, 본 과제에 참여한 아래의 연

구진이 작성한 것입니다.

2019년 12월

연구책임자 : 책임연구원 김강호 (ETRI)

책임연구원 김영균 (ETRI)

선임연구원 안백송 (ETRI)

책임연구원 고광원 (ETRI)

책임연구원 김홍연 (ETRI)

책임연구원 이상민 (ETRI)

선임연구원 김창대 (ETRI)

책임연구원 전성익 (ETRI)

책임연구원 김선태 (ETRI)

책임연구원 백옥기 (ETRI)

책임연구원 최 완 (ETRI)

책임연구원 우영춘 (ETRI)

책임연구원 안창원 (ETRI)

선임연구원 김철호 (ETRI)

연구원 신세윤 (ETRI)

연구원 최인문 (ETRI)

연구원 이성엽 (ETRI)

UST연구생 카렌디프 (ETRI)

선임연구원 송영미 (ETRI)

책임연구원 유재준 (ETRI)

책임연구원 도이미 (ETRI)

책임연구원 백규하 (ETRI)

(3)

연구원 이정훈 (ETRI)

책임연구원 김현빈 (ETRI)

책임연구원 오행석 (ETRI)

책임연구원 장종현 (ETRI)

공동연구책임자 : 교수 윤찬현 (한국과학기술원)

공동연구책임자 : 교수 Frank Ruzicz (토론토대학)

위탁연구책임자 : 교수 남범석 (성균관대학교 산학협력단)

위탁연구책임자 : 교수 전명재 (울산과학기술원 산학협력단)

위탁연구책임자 : 교수 김상훈 (아주대학교 산학협력단)

(4)

주요사업 연차실적 보고서

연차실적 보고서

과제유형

1. 기초미래선도형 ( ) 2. 공공인프라형 ( ✔ ) 3. 산업화형 ( )

대과제명

SW․콘텐츠 기초․원천기술개발

중과제명

IDX 플랫폼 원천 기술 연구

중과제

책임자

소속 및 부서

데이터중심컴퓨팅시스템연구실

_직위

(직급)

실장

(책임연구원)

성명

김강호

총연구기간

2018년 1월 1일 부터 2023년 12월 31일 까지 (72개월)

당해연도

연구기간

2019년 1월 1일 부터 2019년 12월 31일 까지 (12개월) (2차년도)

참여인력(M/Y)

총 연 구 기 간

130 명( 73.8 M/Y)

당해연도 연구기간

26 명( 12.9 M/Y)

참여기관

기관명

연구책임자

기관명

연구책임자

참여연구기관

한국과학기술원

윤찬현

Univ. of Toronto

Frank Ruzicz

위탁연구기관

성균관대학교

남범석

울산과학기술원

전명재

아주대학교

김상훈

키워드

(6~10개)

Intelligent Digital Transformation, Cognitive Computing, Machine Learning,

Self-Adaptive, 메모리중심컴퓨팅, 인메모리 컴퓨팅

정부출연금사업 연차평가 보고서를 제출합니다.

2019년 12월 6일

과 제 책 임 자 : 김 강 호 (인)

직 할 부 서 장 : 이 윤 근 (인)

한국전자통신연구원장 귀하

(5)

○ 최종 연구 목표:

- 저지연/초고성능 패브릭 메모리 컴퓨팅을 이용한 상황변화에 자율적으로 대처하는 자가적응형 씽킹 머신(Thinking Machine) 기반 IDX Foundation 기술 개발

○ 당해년도 연구내용:

- (IDX) IDX Foundation 원천 기술 연구

Ÿ 신경가소성 자가적응형 씽킹머신 기술(CybreBrain) Ÿ CybreBrain 기반 의료 IDX 개발 (CybreDX)

Ÿ CybreBrain 기반 미세먼지 대책 ICT 플랫폼 기술(CybreAir) - (FMC) 패브릭 메모리 컴퓨팅 핵심 기술 연구 Ÿ 랙스케일 패브릭 메모리 공유 기술 연구 (에뮬레이션 기반) Ÿ 패브릭 인메모리 데이터 프로세싱 엔진 기술 개발

○ 당해년도 연구성과: 구분 목표 (건) 성과 비고 정 량 목 표 표준화된 IF 상위 20% SCI 논문 0 IDX: 0 FMC: 0(+1) - IEEE TPDS (IF상위 10.468%) 제출 SCIE 논문 및 우수국제학회 0 IDX: 0 FMC: 1(+2+4) - 최우수국제학회 발표: USENIX FAST`19 - 국제워크샵 발표: NVMW`19, WORD`19 - 최우수국제학회 게재 확정: HPCA`20, ICDE`20 - 최우수국제학회, SCIE 제출: FAST`20, ACM ToS

기술이전 0 IDX: 0 FMC: 0 국내특허 10 (출원) IDX: 5 FMC: 4 -(IDX) 5건 출원 진행 중 -(FMC) 2건 출원 완료 / 2건 출원 진행 중 국제특허 4 (출원) IDX: 2.5 FMC: 3 -(IDX) 2.5건 출원 진행 중 -(FMC) 2건 출원 완료 / 1건 제출 완료 SW 4 IDX: 4 FMC: 2 -(IDX) 4건 등록 완료 -(FMC) 2건 제출 완료 정성목표 - 전 산업분야에 적용가 능한 자가적응형 SW 원 천기술을 개발하고 개 념 시연 - 인공지능 처리에서 메 모리 중심 컴퓨팅 구조 가 갖는 성능 효과의 검증 - 메모리 중심 컴퓨팅 구조를 이용한 인메모리/인공지능 응용프로그램의 성능 향상 가능성 검증 (실측/목표) * 그래프분석성능: 달성 (29s/40s) * 인메모리처리 DNN 크기: 달성 (1.4TB/1.0TB) * 패브릭메모리대역폭: 달성 (90.5Gbps/50Gbps) * 시스템확장노드수: 달성 (8개/8개)

(6)

○ 당해년도 연구성과 활용:

- (IDX) IDX Foundation과 씽킹 머신을 위한 자가적응형 점진적 인공지능 방법을 설계함으로 써, 신경가소성 기반 인공지능을 지원하기 위한 기초 토대로 활용가능

- (IDX) IDX Foundation의 핵심엔진에 해당되는 CybreBrain의 의료 및 미세먼지 분야로의 적용 가능성 확인하고, 향후의 구체적 연구방향 확립을 위한 기초 응용연구로 활용. - (IDX) 궁극적으로 다양한 문제로의 적용을 위한 자가적응형 인공지능 핵심엔진으로 활용 - (IDX) 의료 IDX 연구결과는 설계 및 시연을 통해 향후 기술이전 의료 기관에 기술 홍보 - (IDX) 독자적 로직으로 동작하는 스마트 모바일 에이전트(환자 케어 로봇, 자율주행차량, 드 론 등)의 씽킹 머신 개발 시 플랫폼으로 활용 - (FMC, 해외기업 기술이전) 소프트웨어 기반 서버 회사인 해외 기업(TidalScale)에 기술이전 을 위한 MOU 체결 및 협의 추진 - (FMC, 연구소기업 설립 추진 확정) 한컴GMD, 패브릭 메모리 컴퓨팅 기술을 활용한 빅데이터 분석 솔루션 사업 추진 확정

- (FMC, 해외전시회) Flash Memory Summit (FMS’19)에 SK하이닉스/ETRI 통합 메모리 기술 전시 - (FMC, 정부출연연구소PoC) 한국에너지기술연구원 대상 분자 동역학 실험 플랫폼 PoC 수행 - (FMC, ETRI양자컴퓨팅연구실PoC) 양자컴퓨팅 에뮬레이션플랫폼으로 패브릭메모리 PoC 수행중

(7)

제1장 서 론

제1절 과제 개요

1. 연구 목표

저지연/초고성능 패브릭 메모리 컴퓨팅을 이용한 상황변화에 자율적으로 대처하는 자가적응형 씽킹 머 신(Thinking Machine) 기반 IDX Foundation 기술 개발

2. 목적 및 연구범위

가. 연구 목적

1) IDX Foundation 원천 기술 연구

¡ 한국전자통신연구(ETRI)은 인지정보공학(Cognitive Informatics)을 바탕으로 자가적응형 (self-adaptive) 인공지능 기술 개발을 추구하고 있음 - 인지(Cognition)란 지각된 정보를 가지고 논리와 추론을 동원하여 새로운 지식을 창출하는 과정임 - 이미 내재된 기억을 호출하여 정보를 분별하는 인식(Recognition) 또는 직관(Intuition)에 비해 훨씬 고차원적인 정보처리 방식임 - 고정된 데이터뿐만 아니라 지속적으로 변하는 데이터에 대해서도 실시간으로 연역적 추론이 가능함 ¡ 자가적응형 인공지능인 “CybreBrain”은 스스로 학습하고, 실시간으로 통찰력을 갖추고, 예기치 못한 상황에도 적절히 대응하며, 미래를 예측하여 불확실성 속에서 현명한 의사결정을 지원함 - 자가적응형 인공지능은 인간의 보편적인 인지과정을 의미하며, “Cognitive Thinking Machine”

또는 “CybreBrain”으로 개념화함 - 정보처리 결과를 토대로 자신의 학습능력을 점진적으로 발전시키며, 새로운 환경이나 돌발적 상황 에서도 적절히 대처하고 합리적인 의사결정을 내리는 특징을 가짐 - 이러한 유연성을 가진 자가적응형 인공지능은 소프트웨어가 상황에 맞추어 처리방식을 스스로 변 화시킬 수 있고 데이터가 존재하는 곳으로 자유롭게 이동하여 임무를 수행하는 새로운 소프트웨어 프레임워크를 기반으로 구현됨

(8)

¡ 현재의 인공지능은 아직 인지과정을 수행할 수 있는 수준에는 이르지 못했으며, 근간이 되는 기계학 습 알고리즘이 여전히 70여 년 전의 이론과 단순한 학습 모델을 기반으로 하고 있음 - 학습 모델을 구축하기 위해 대규모로 축적된 고품질 데이터 환경 구축이 필수적임 - 학습 데이터를 구축하기 위해 해당 분야 전문가들의 수작업으로 인한 시간과 비용 과다 소요 - 학습은 시행착오 보정 방식으로 이루어져 데이터의 속성이나 변수에 미세한 변화에도 모델을 원점 에서부터 재학습해야 함 - 현재의 기계학습 모형은 블랙박스 형태로 산출 결과에 대한 설명력이 낮아 신뢰도가 낮음

2) 메모리 중심 컴퓨팅 구조 연구

¡ 기존 프로세서 중심 컴퓨팅 구조를 혁신하여 자가 적응형 씽킹 머신 기술에 적합한 대용량 공유 메 모리 기반 새로운 메모리 중심 컴퓨팅 환경 제공 - 기존 DRAM 대비 집적도 및 효율 면에서 우월한 대규모 비휘발성 메모리와 고성능의 메모리 시맨틱 인터페이스를 제공하는 메모리 패브릭 기술을 기반으로 함 - 인공지능 등 데이터 집약적인 응용프로그램이 사용하는 대규모의 데이터를 패브릭 메모리를 활용 하여 효율적으로 수행 가능 - 다수의 노드가 공유하는 대규모 패브릭 메모리를 통해 노드간 데이터 공유 및 통신의 획기적인 개 선 가능 메모리 중심 컴퓨팅 개념 ¡ 메모리 중심 컴퓨팅 환경을 위한 SW/HW 계층별 요소 기술들을 확인 및 분석하여 필요한 원천 기술들 을 개발함으로써 메모리 집약적인 응용프로그램에 필요한 메모리 중심 기반 환경 제공 - 패브릭 메모리 인터커넥트 기술 및 이를 SW 수준에서 모사하는 에뮬레이션 기술을 기반으로 메모 리 중심 컴퓨팅 지원 운영체제 및 시스템 SW 수준 핵심 기술 연구/개발 - 메모리 중심 컴퓨팅에 적합한 데이터 집약적인 응용프로그램의 특성을 고려하여 메모리 중심 컴퓨 팅 구조 및 기반 SW 설계에 반영함 - 노드별 별도 메모리를 탑재한 기존 컴퓨팅 환경과는 달리 대규모의 메모리가 패브릭을 통해 노드 간에 공유되는 구조로, 이와 관련된 기술적 이슈를 시스템 SW 수준에서 해결함

(9)

나. 연구범위

1) IDX Foundation 원천 기술 연구

¡ CybreBrain : 신경가소성1)_{자가적응형 씽킹 머신 기술 (각종 IDX 응용을 지원하기 위한 공통 아키텍쳐)}

- 자가적응형 SW 엔진(Self-Adaptive Software)

- 이동형 자가적응 SW(Itinerant Self-Adaptive Software) - 인지적 데이터 분석 SW(Cognitive Big Data Analytics)

- 스마트 데이터 관리 프레임워크(Smart Data Management Framework)

¡ CybreDx(CybreBrain을 기반으로 생명공학 및 의료분야, 특히 예방의료와 정밀의학을 위한 응용 솔 루션)개발 - 대상 질병: 대장질환, 치매, 암 등 질병 조기 진단 시스템 개발 ¡ CybreAir(CybreBrain을 기반으로 이용한 환경 및 사회 과학 분야의 응용 솔루션) 개발 - 다중 도메인 휴리스틱 시뮬레이션 프레임워크

2) 메모리 중심 컴퓨팅 구조 연구

¡ 메모리 중심 컴퓨팅 시스템의 메모리 계층 구조 연구 ¡ 패브릭 메모리를 위한 시스템 인터커넥션 구조 연구 ¡ 패브릭 메모리를 모사한 컴퓨팅 시스템 에뮬레이션 프로토타입 개발 ¡ 패브릭 인메모리 데이터 프로세싱 엔진 선행 연구 1) 신경가소성(neuroplaticitye): 상황변화와 경험에 의해 학습하는 자가적응형 인간두뇌의 능력(출처: 위키피디아)

(10)

제2절 연구개발 개요

1. 연구개발방법

가. 총 년도

1) IDX Foundation 원천 기술

¡ 단기의 ROI(return-on-investment)와 파급효과를 위하여 반복적이고 점진적인 연구개발 방법론을 활용 - 씽킹 머신(Thinking Machine)에 관련된 원천기술의 연구개발은 산학연 국제 공동 연구개발로 추진 - IDX Foundation의 핵심기술과 관련된 원천기술의 연구개발은 국내 산학연의 참여하에 추진할 계획 ¡ 단계별 연구 추진 - 1단계 연구 Ÿ 핵심 2대 기술 우선 개발 : ① IDX Foundation 요구 기술, ② 씽킹 엔진 기술 Ÿ 의료 및 미세먼지 관련 내용을 타겟 도메인으로 선정하여 개발된 핵심 기술의 Feasibility 를 검증하면서 진행 - 2단계 연구 Ÿ 점진적 개발 방법으로 플랫폼 원천 기술 확대 Ÿ 연차별로 기능적 범위 등을 확장 및 검증하면서 진행 ¡ 장애요인 - 의료 및 미세먼지 분야에서 IDX Foundation에 대한 연구를 보다 확장적으로 적용하기 위해 요구되 는 관련 데이터 확보에 어려움이 예상됨 Ÿ (해결 방안) 연구원 차원에서 기관 간 MOU등 공식적 협력 관계를 체결하여 상호 협조

2) 패브릭 메모리 컴퓨팅 핵심 기술

¡ 단계별 연구 추진 - 1단계 연구 Ÿ 새로운 인터커넥션, 새로운 차세대 메모리 조사/분석 및 실험 Ÿ 기존 HW 에뮬레이션 기반 핵심 SW 기술 개발 추진 ¡ 2단계 연구 - 인터커넥션 HW 프로토타입 구현 - 랙스케일 확장 연구 추진 ¡ 장애요인 - 차세대 비휘발성 메모리 수급 문제 발생 가능 - 공급 지연으로 인한 개발 내용 및 일정 조정 가능성 존재 Ÿ (해결 방안) 메모리 수급 가능 시점에 따른 HW 개발 일정 조정, HW 의존도가 낮은 SW 우선 개발 및 1단계에서 개발된 에뮬레이션 기술 최대 활용

(11)

나. 당해년도

1) IDX Foundation 원천 기술

¡ 1단계 연구 추진 - 핵심 2대 기술 기초 개발 추진 : ① IDX Foundation 요구 기술, ② 씽킹 엔진 기술 - 의료 및 미세먼지 관련 내용을 타겟 도메인으로 선정하여 개발된 핵심 기술의 Feasibility를 위해 causality 분석 등을 수행 ¡ 장애요인 - 응용분야에 IDX Foundation 요구 기술을 적용하기 위해 보다 깊고 다양한 해당 도메인 지식의 확보 가 필요함 Ÿ (해결 방안) IDX 가 필요로 하는 기술을 파악위해 해당 도메인 지식 및 분야의 전문 기관 간 MOU등 공식적 협력 관계를 체결하여 상호 협조

2) 패브릭 메모리 컴퓨팅 핵심 기술

¡ 1단계 연구 추진 - 대용량 메모리 확보 기술 연구 추진: 클러스터 기반 메모리 관리 플랫폼과 비휘발성메모리 하드웨 어 및 비휘발성 메모리 에뮬레이션 기술 통합 - 대용량 메모리 기반 인메모리 처리 가속화 기술 연구: 대용량 데이터 처리 응용에 대해서 대용량 메모리 기반 연산 가속 기술의 Feasibility 분석 ¡ 장애요인 - 다양한 분야의 산업계에서 사용되는 응용(금융 등)의 확보가 제한되어 있음

(12)

제2장 본 론 (Ⅰ)

제1절 연구 배경

1. 연구개발과제의 필요성

¡ (신정부 추진정책) 정부는 4차 산업혁명이 촉발하는 산업·경제, 사회·제도, 과학·기술 전 분야 의 변화에 맞춰 각 분야가 긴밀히 연계된 종합 정책을 추진하는 4차 산업혁명위원회를 출범 (2017.10.) - 4차 산업혁명 기술기반 강화를 위해 데이터를 쉽게 찾고 거래하여 가치를 창출하도록 AI 학습 형태 로 공공데이터 개방, 산업별 빅데이터 육성 등 ‘데이터 활용 강화’ 정책을 수립 ※ 전 산업구조가 데이터에 대한 자가 학습을 통해 지속적으로 AI 알고리즘 성능을 강화하므로 데 이터가 산업의 새로운 경쟁 원천으로 부각 ¡ (ETRI IDX 추진전략) 디지털 지능을 기반으로 국가 산업이 글로벌 경쟁력을 확보하도록 전략과 기술 을 제공하기 위한 ETRI 비전을 수립(2016.11.) - IDX는 데이터를 수집·축적하고 초지능 기술을 활용한 데이터를 분석·예측하여 결과를 전달·공 유하는 우리 사회·경제 시스템의 디지털 지능화 생태계를 구축하는 전략 - 많은 사용자로부터 수집된 데이터를 활용하는 플랫폼 중심의 글로벌 경쟁이 심화되는 4차 산업혁 명으로 인한 변화에 대응하는 데이터 기반 IDX 지능 플랫폼의 실현 전략 준비를 위한 추진 필요 ¡ (미래 전략 기술로써 지능/분석 플랫폼) 가트너는 2017년 10대 전략 기술 전망을 통해 디지털 지능 생태계를 위한 지능 분석 서비스 플랫폼 기술을 선정 - 데이터 기반 의사결정을 위한 데이터 관리·분석 플랫폼 기술이 머신러닝과 AI를 포함한 지능 분 석 서비스 플랫폼으로 발전할 것으로 전망

※ Amazon, Baidu, Google, IBM, MS 등은 2017년 ~ 2019년 까지 독자적인 지능 서비스 플랫폼 구축 을 완료할 것으로 예상 - (IDX Foundation2)_{전략 기술) 전통적인 규칙 기반 알고리즘을 뛰어 넘어 스스로 가동되는 지능형} 전자두뇌 기술(Thinking Machine3)_{)이 향후 5년내 빠르게 성장하는 기술 트랜드로 예측하고 있음} - Gartner에 따르면 현재 인공지능은 더욱 더 이해, 학습 및 적응 외에 잠재적으로 생각을 가진 자율 시스템으로 발전할 것으로 전망 ¡ (ETRI 경영성과계획) 2016년 경영성과계획서에 스스로 학습 진화하는 초지능 정보사회 구현 계획을 제시 - 세부 성과 목표 중 지능 정보 고속처리를 위한 운영체제 기술 등 시스템 플랫폼 원천 기술에 해당 하는 기술 개발 계획에 반영 ¡ (글로벌 산업시장 전망) IDX 플랫폼의 주요 응용 영역은 의료/헬스케어, 교육, 에너지, 제조, 공공

2) IDX Foundation 전략 기술: 의료, 행정, 제조, 국방 등 IDX 전 산업 분야에 공통 적용되는 핵심기술의 집합

3) Thinking Machine: IDX Foundation 기술의 핵심 엔진으로서, 사람과 같이 스스로 학습하며 상황 변화에 자율적으로 대처하는 인공지능 SW

(13)

등 산업 전반이며, 세계 시장은 2014년 89억불에서 2019년 142억불 규모가 예상(연평균 성장률 9.7% 예측)

※ 출처: MarketsandMarkets, Business Intelligence Platform Market, Global Forecast to 2019

2. 연구개발과제의 중요성

¡ (플랫폼을 통한 AI 산업 생태계 선순환) AI 응용들과 사용자가 증가하면 플랫폼에 축적되는 데이터 가 증가하게 되고, 다양한 데이터 축적이 이루어질수록 인공지능 플랫폼의 경쟁력이 강화되어 경쟁 에서 선점 효과가 큰 기술 분야 - 기존 딥러닝과 같은 기계 학습 방법에 기반을 둔 AI 분석 플랫폼은 방대한 데이터 학습을 통해 AI 알고리즘 성능이 발전 - 구글, 아마존, 페이스북 등은 기술적 준비를 마치고 디지털 지능 생태계 확장에 나서고 있으나, 우 리는 AI 기술 자체뿐만 아니라 AI 학습을 위한 데이터 확보 측면에서도 열세 - 구글/애플이 OS를 통해 주도한 모바일 플랫폼 경쟁에 밀려 주도권을 놓쳤던 과오가 반복되지 않도 록 AI 분석 플랫폼에 대한 기술 역량을 자체적으로 개발하는 선제적 대응이 중요한 시기 ¡ (IDX 플랫폼 원천기술의 확보) 방대한 데이터 수집과 컴퓨팅 자원 기반 데이터 분석과 학습에 기반 을 둔 AI 플랫폼 기술을 혁신하는 선도적인 자가적응형 SW의 원천 기술 IPR 확보 - 현재의 머신러닝 및 딥러닝 기술을 뛰어 넘는 이해, 학습 및 적응, 그리고 잠재적으로 자가 적응형 씽킹 머신 원천 기술 및 핵심기술 지적재산권 확보 - 사람과 환경 피드백 데이터를 실시간으로 적시에 분석하여 지능화하기 위해서는 메모리 처리 성능 수준의 초저지연·분산/병렬 컴퓨팅 기술은 반드시 확보하여야 할 핵심 기술

3. 연구개발과제 수행결과 기대효과

가. 기술적 기대효과

¡ 방대한 데이터와 기계학습 기반 인공지능 기술에 기반을 둔 기존 AI 플랫폼 기술을 혁신하는 자가적 응형 SW 원천 기술 확보 ※ 저지연/초고성능 데이터 메모리 컴퓨팅 기술, 자가 적응형 실시간 지능 데이터 분석 기술을 융합 시킨 독창적 AI 플랫폼 기술 확보로 AI 기술 발전 견인

¡ AI 플랫폼 기술을 선도하는 Google, Amazon, IBM 등 플랫폼에 종속적인 위치에서 벗어나 독자적인 데이터 분석 플랫폼 제공자 지위를 획득할 수 있는 기회를 마련하여 글로벌 AI 산업 경쟁력 견인

나. 산업적 기대효과

¡ 최근 시장에서는 AI 플랫폼이 가치창출의 주요 원천으로 판단하여 이를 직접 개발하여, 소유 및 제 공하고 다양한 산업에서 AI 기술을 활용할 수 있도록 지원 ¡ AI 플랫폼 기반으로 금융/제조/의료 등 산업과의 융합을 통해 미래 AI 서비스 확대 및 신규 AI 서비 스 시장 개척 기회 제공

(14)

¡ 공공 서비스 플러그인 개발을 유도함으로써 새로운 인공지능 서비스 산업 창출 ※ 공공 인공지능 인프라 기술의 확산과 관련 서비스 발굴을 위한 선순환 구조 창출 ¡ 지능정보처리를 위한 인공지능 인프라를 지원함으로써 스타트업 및 중견기업의 성장 계기 ※ 세계 62개국 855개의 인공지능 스타트업 중 인공지능 응용 기술이 201개 차지

다. 경제적 기대효과

¡ 데이터 기반 효과적인 의사결정을 위한 자가적응형 SW 시장은 은행/금융/보험, 판매, 헬스케어/의 료, 미디어, 교통/물류 등 산업뿐만 아니라 정부까지를 포함하는 매우 광범위한 시장 ¡ AI 플랫폼에 관련된 세계 시장은 2019년에 약 142억 달러 규모에 이를 것으로 예상

※ MarketsandMarkets, Business Intelligence Platform Market, Global Forecast to 2019

라. 사회적 기대효과

¡ IDX 플랫폼 원천 기술을 기반으로 14개 ETRI IDX를 실현하고 이를 통해 국가현안문제(인구 고령화, 미래형 치매예방 정책 실현 등) 해결에 기여 ※ 인구 고령화와 함께 치매환자는 지속 증가하여 2050년에는 270만 명(유병률 10.2%)에 달할 것으 로 전망되며, 치매환자 관리비용은 GDP 3.8%(약 106조 원)를 차지할 것으로 전망 ¡ IDX Foundation 기반으로 CCTV 등 장치로부터 정밀하고 고속의 지능정보처리를 지원함으로써 범죄 예방 등 안정 강화 ¡ IDX 기반 공공 서비스 플러그인 개발을 유도함으로써 자가 적응형 인공지능 서비스 창출 ¡ 공공 AI 인프라 기술의 확산과 관련 서비스 발굴을 위한 IDX 선순환 구조 창출

(15)

제2절 관련 기술 현황

1. 국내․외 현황

가. 국내․외 기술동향 및 수준

¡ (IDX Foundation 기술 동향) 점차 빅데이터 분석에만 활용하는 데만 그치지 않고 스마트 어드바이저 등 지능형 서비스 시스템으로 발전시켜 고부가가치 서비스를 창출할 수 있는 환경을 제공하는 비즈 니스 서비스를 제공

- (자가 적응형 데이터 관리) 대부분 Hadoop과 SPARK 계열의 오픈 소스(Mahout, Pig, Hive, HBase 등)를 이용하여 빅데이터 발견, 전처리, 저장, 관리 기술을 구축하고 실시간 스트리밍 데이터 분 석과 배치 데이터 분석을 지원

- (자율형 지능형 머신 기술) 구글, 마이크로소프트 등은 단순 머신러닝, 딥러닝을 빅데이터 분석에 활용하는 단계를 지나 점차 스스로 가동하여 예측하여 적응하는 기술과 지능형 서비스를 발굴하고 있음

※ Google은 자사의 솔루션인 TPU(딥러닝 용 CPU)와 TensorFlow를 지능형 분석 플랫폼으로 서비스 ※ Microsoft는 Azure ML외 CNTK와 TensorFlow, Chainer등의 딥러닝 엔진을 플랫폼에 추가하며 딥 러닝 기술을 지원

※ IBM은 Watson Data Platform을 통해 딥러닝과 기계학습 분석 기술을 지원

¡ (데이터 처리 인공지능 컴퓨팅 기술) 대용량의 데이터 처리 및 분석에 최적화된 메모리 중심 컴퓨팅 을 위한 시스템 인터커넥션 기술, 비휘발성 메모리 기술 융합, 이를 운영하는 SW 기술에 대한 기초 연구가 진행

- (시스템 인터커넥션 기술) 프로세서 중심 컴퓨팅에서 데이터 중심 컴퓨팅으로 변화하기 위해서 CPU, 가속기(GPGPU, FPGA, ASIC 등), 메모리(DRAM, SCM, NVM 등)를 연결하는 메모리 버스/인터커 넥트 기술인 CCIX, OpenCAPI, Gen-Z 규격이 개발 중

※ Gen-Z는 직접 연결, 스위칭 또는 패브릭 토폴로지를 통해 메모리 또는 장치에 메모리 시맨틱 접 근을 제공하는 개방형 시스템 인터커넥트로서 랙스케일 구조에 적합 ※ CCIX는 프로세서, 가속기 그리고 메모리를 연결하는 버스 인터페이스 ※ OpenCAPI는 프로세서가 캐쉬 일관성을 유지하면서 가속기 또는 입출력 장치에 부탁할 수 있도 록 하는 공개 인터페이스 아키텍처 - (차세대 비휘발성 메모리) 비휘발성 메모리는 기존 DRAM에 비해 집적도가 높아 대용량화가 용이하 고 데이터 보존을 위한 Refresh가 불필요하여 전력소모 면에서 유리하므로 차세대 메모리 기술로 주목 ※ NVM은 연결 지점에 따라 메모리 버스 혹은 PCIe 버스에 연결되며 메모리 버스에 연결되는 DIMM Form Factor는 낮은 지연시간과 높은 대역폭을 제공, Load/Store 명령어를 통해 접근을 장점으로 하나, 각각의 NVDIMM이 메모리 슬롯을 차지, 상대적으로 작은 용량을 제공하는 단점을 가짐 ※ PCIe 버스에 연결되는 NVM은 적절한 대역폭과 지연시간을 제공하고 프로그래밍 인터페이스가 잘 알려져있는 장점을 가지나, CPU에 비해 낮은 성능을 제공하고 Multi-Path를 지원하지 않는 단 점을 갖고 있음 - (비휘발성 메모리 지원 운영체제) 비휘발성 메모리 고유의 특성을 고려하여 운영체제 메모리 관리 기법을 개선한 다양한 연구가 진행

(16)

※ DRAM과는 달리 전원이 꺼진 후에도 데이터가 지워지지 않으며, 집적도가 높아 초대용량 메모리 사용이 가능하므로 데이터 저장시 원자성 및 일관성 유지를 위한 연구가 진행 중임 ※ 고집적, 대용량화가 용이한 관계로 기존 메모리 주소 공간 메커니즘으로는 한계가 있으며, 이 를 해결하기 위해 SpaceJMP 등 새로운 메모리 매핑 및 주소 공간 메커니즘이 제안되고 있음

나. 국내․외 표준화 현황(또는 향후 기술 발전 추세)

1) IDX Foundation 기술 관련 표준화

¡ 국내·외 표준화 기술은 없으나 Apache SPARK 계열의 빅데이터 엔진과 Python 기반의 기계학습 라이 브러리들과 TensorFlow, Caffe등의 딥러닝 엔진을 포함한 분석 플랫폼들이 산업계 전반에서 표준처 럼 이용

2) 데이터 처리 인공지능 컴퓨팅 기술 표준화

¡ (컴퓨팅 시스템 구조 표준화) Gen-Z 공개 표준으로 Intel의 QPI 규격에 의존하는 한계를 탈피하려는 시도가 진행되고 있으며, 50개 이상의 기술 대기업들이 CCIX, OpenCAPI, Gen-Z 컨소시움에서 힘을 합치고 있음

※ 2016년 10월, 30개 이상의 IT회사가 연합하여 Gen-Z 컨소시움을 구성하고 인터커넥트 표준화를 진행하고 있음. 이 컨소시움은 2017년 7월에 Gen-Z Draft Core Specification과 Scalable Connector Specification v1.0을 발표

※ 2016년 5월, AMD, ARM, 화웨이, IBM, Mellanox, 퀄컴, Xilinx가 연합하여 캐쉬 일관성 패브릭 인 터페이스인 CCIX 표준을 만들기 시작했고 2017년 11월 현재 CCIX 표준을 멤버 회사에 제공

※ 2016년 10월, AMD, Dell EMC, Google, HPE, IBM Mellanox, Micron, NVIDIA, Xilinx가 연합하여 데이터센터 서버 성능을 10배 향상시킬 수 있는 새로운 공개 표준인 OpenCAPI를 발표함. OpenCAPI는 현재 Transaction Layer Specification v3.1과 Data Link Layer Specification v3.0을 제공

¡ (비휘발성 메모리 규격 표준화) JEDEC Hybrid Memory Task Group과 SNIA(Storage Networking Industry Association) NVDIMM SIG에 의해서 DIMM Form Factor의 NVRAM은 NVDIMM-F와 NVDIMM-N이 표 준화되어 있고 NVDIMM-P의 표준화가 2018년 완료될 예정

※ ACPI 6.2, UEFI Specification 2.7, JESD245A에 의해서 산업 명세화가 되어 있으며 윈도우, VMware, 그리고 리눅스 등의 운영체제에 의해서 지원

다. 동일, 유사내용에 대하여 국내․외 관련자들의 수행내용

1) IDX Foundation 기술 유사 연구

¡ 가트너에 의하면, 비즈니스 인텔리전스와 분석 플랫폼으로서 15가지 주요 능력(분석 및 콘텐츠 생성 능력, BI 프로비저닝 능력, 분산 분석 능력, 데이터 관리 능력, 인프라 등)에 따라 아래와 같은 주 요 사업자들의 포지션을 구분

- (선두 주자) Microsoft, Tableau, Qlik등

※ Microsoft : 클라우드와 온프레미스 방식으로 플랫폼을 제공하고 하둡 기반의 인트라를 통해 반 구조화된 콘텐츠 분석이 용이하며 다중 데이터 소스로부터의 데이터 분석 등 복잡한 분석을 제 공하면서도 낮은 가격으로 서비스함

(17)

데이터 셋에 대한 인메모리와 직접 질의 접근을 이용가능함.

※ Quilk : 확장 가능한 메모리 내장 엔진을 사용하여 대화식 대시 보드를 통해 여러 데이터 소스 의 데이터를 신속하게 처리할 수 있음. 사용 용이성과 시각적으로 뛰어난 대시 보드가 강점임 - (비전 제시자) SAP, SAS, IBM 등

※ SAP : 민첩한 중앙 집중식 BI 프로비저닝, 분산 된 분석 및 통제 된 데이터 검색 기능 제공 ※ SAS : 여러 가지 다양한 데이터 소스의 데이터를 수집하고 복잡한 데이터 모델을 처리 할 수 있 는 기능과 시각적 포인트 앤 클릭 인터페이스를 통해 예측, 텍스트 분석 및 의사 결정 트리를 포함 하는 고급 분석 기능 제공함 ※ IBM : 전문가 수준의 데이터 과학 기술을 보유하지 않고도 고급 분석 기능을 제공하며 기계 학 습 자동화는 시간, 장소 및 매출 데이터 인식, 데이터 품질 분석 및 채점 및 자연어 탐사와 같은 분야에 이용됨

- (틈새 주자) Oracle, Alteryx, Birst, Domo등

※ Oracle : 전통적인 BI 플랫폼 강자로서 통합 엔드 - 투 - 하이브리드 클라우드 접근 방식으로 가장 광범위한 BI 기능을 제공함. 오라클 엔터프라이즈 애플리케이션에 대한 운영 리포팅 기능을 제공하며 Oracle의 클라우드 서비스 내에서 "what if"및 시나리오 분석 기능을 제공함

※ Alteryx : 복잡한 유형의 고급 분석을 통한 셀프 서비스 데이터 준비 기능을 제공하며 다양한 데이터 소스의 데이터를 결합하는 동시에 데이터를 변환 후 반복 가능한 워크플로우에서 예측 또 는 공간 분석 기능을 제공함 ※ Birst : 메타 데이터 관리, 임베디드 분석 컨텐츠, BI 플랫폼 관리, 보안 및 아키텍처, 클라우 드 BI, 자체 포함 ETL 및 데이터 저장소, 모바일 탐색 및 제작 기능 제공하며, 셀프 서비스 데이터 준비를 위해 분산 및 관할 데이터 검색 분석 기능 제공

※ 출처: Rita L. Sallam et. al.,“Magic Quadrant for Business Intelligence and Analytics Platforms,”Gartner, Feb. 2017.

(18)

2) AI 데이터 처리 고성능 컴퓨팅 구조 연구

¡ (HP Enterprise) 2017년 공개한 The Machine 프로토타입은 다수의 노드가 패브릭으로 연결된 대용량 의 NVRAM을 공유하는 구조로, 40개의 물리 노드를 이용하여 1,280 코어들과 160TB 메모리를 제공 - 노드 및 메모리를 연결하기 위한 패브릭으로 FPGA 기반 Gen-Z 버스를 사용

- 기존 리눅스 운영체제의 확장 및 개선 프로젝트(L4TM, Linux For The Machine)를 진행하고 있으 며, FAM(Fabric Attached Memory)의 Non-Coherent 접근 지원 라이브러리, FAM 지원 공유 파일시스 템 및 라이브러리 등을 개발 중

¡ (Numascale) NumaConnect는 통합서버의 모든 프로세서가 CPU 캐쉬일관성을 유지하면서 모든 메모리 와 I/O 장치에 접근 가능하도록 지원 - NumaConnect 어댑터와 Numa-Chip으로 구성되어 최대 4,096 노드까지 공유 메모리 및 캐쉬 일관성 지원을 통한 싱글 시스템 구성 가능 - HW 기반으로 싱글 시스템 구성에 필요한 기술을 지원하므로 리눅스, 솔라리스, 윈도우 서버 등 기 존 운영체제 운용 가능

라. 동일, 유사내용과 관련하여 제안자가 이미 수행한 사업 또는 연구개발과제

¡ IDX Foundation 기술의 실현 가능성을 검증하기 위한 내부연구과제를 수행

- 자가 적응형 동적 SW 기반 치매 예방 ICT enabler PoC 개발 및 시연, 2017.8.1.~2017.12.31.(5개 월)

(19)

마. 국내․외 경쟁기관 현황

¡ IDX Foundation 기술 관련 국외 경쟁기관 기술구분 경쟁기관 현황 빅데이터 관리 기술 - (Amazon AWS) . 빅데이터 저장, 전처리, 분석, 실시간 스트리밍 데이터 분석과 배치 데이 터 분석을 지원

. Amazon 솔루션들(S3, Dynamo DB. Redshift, Kinesis 등)과 공개 SW들 (Hadoop, SPARK, Mahout, Hive 등)로 구축

- (Google Cloud Platform)

. Hadoop과 SPARK 기반의 빅데이터 분석 - (IBM Watson Data Platform0

. Hadoop과 SPARK 기반의 빅데이터 분석 - (Microsoft Azure)

. 일반 데이터 소스, 응용, 센서 및 디바이스들로부터 수집된 데이터를 HDFS 기반의 데이터 레이크에 저장

. Apache 빅데이터 프로젝트들(Hadoop, SPARK, Pig, Hive, HBase 등) 기반 으로 데이터 분석

지능형 분석 기술

- (Amazon ML Cloud & AWS Deep Learning AMI(Amazon Machine Image)) . 기계학습 및 딥러닝 관련 작업 환경 제공

. Python 환경을 포함한 Conda 기반 AMI 제공

. 다양한 딥러닝 프레임워크 지원 : Apache MXNet, TensorFlow, Microsoft Cognitive Toolkit(CNTK), Caffe, Caffe2, Theano, Torch 및 Keras

- (Google Cloud Machine Learning Engine)

. 딥러닝 엔진인 TensorFlow를 ‘Google Cloud Machine Learning’이라는 이름으로 제공하며 텐서플로 전용 CPU인 TPU(Tensor Processing Unit)를 이용하여 실행됨 . Cloud Vision API, Cloud Speech API, and Google Cloud Translation API 제공 - (IBM Watson Machine Learning)

. 다양한 딥러닝 프레임워크 지원 : TensorFlow, Theano, Keras, Lasagne . 다양한 기계학습 응용 개발 환경 제공 : Spark ML, Python, Scala - (Microsoft Azure Machine Learning Studio)

. 다양한 딥러닝 프레임워크 지원 : TensorFlow, Keras, Caffe, Caffe2, Chainer, Deep Water, MXNet, NVIDIA DIGITS, Theano, Torch

. 다양한 기계학습 응용 개발 환경 제공 : R, Python, Julia, C#, Java, node.js, F#

(20)

¡ AI 데이터 처리 컴퓨팅 기술 경쟁기관

바. 국내․외 지식재산권 현황

¡ IDX Foundation 기술 분야 - 지능형 분석 기술 Ÿ 기계학습, 딥러닝 기술은 산업계 및 학계에 공개된 기술로서 기술 자체에 대한 특허보다 응 용분야의 특허가 대다수임 Ÿ 특히, IoT 분야 전기/전력/에너지 분야와 스마트 홈 분야에서 많은 특허를 출원하고 있음. 그 외에도 교통, 의료, 환경, 기상, 미터링 분야에서 스마트 분석 기술을 출원하고 있음 Ÿ 기타 클라우드 기반 빅데이터 분석, 실시간 스트림 분석 분야에도 다양한 지능형 분석 방법 이 제시되고 있음 - 씽킹 엔진(Thinking Engine) 기술 Ÿ 자가 적응 동적 SW 컴포넌트 기술과 지식 기반의 Learning/Thinking Engine 기술 등 소수의 특허가 출원된 상황으로 이 기술 분야에서는 출원 초기 단계임 기술 구분 경쟁기관 현황 패브릭 인터커넥션 기술

- NVIDIA(NVLink) : CPU와 GPU, 또는 GPU 간의 초고속 통신 지원 - Numascale(NumaConnect) : 클러스터 기반 싱글시스템 이미지 제공

- SGI(NUMALink) : 단일 시스템 기준 2,048 코어와 64TB 메모리까지 확장 가 능

비휘발성 메모리

- Intel(3D XPoint) : DDR4와 전기/물리적 호환성 제공, DRAM 대비 4배 용량 지원

- 삼성, Agiga, Diablo, Viking Technology, SK하이닉스 : NVDIMM-F/N 발표, NVDIMM-P 표준화 참여

- Diablo Technologies(Memory1) : 플래시 기반으로 기존 DRAM과 병행하여 사용, DIMM 규격

메모리 컴퓨팅 운영체제

- HPE(L4TM) : The Machine을 위한 기존 리눅스 운영체제의 확장 및 개선 - Diablo Technologies(DMX) : Memory1 지원SW, 응용프로그램의 지능적인 메

모리 접근 및 관리 기능 제공

- Plexistor(SDM) : 다수 노드의 메모리를 통합하여 응용에게 투명하게 제공하 는 SW 기술

(21)

제3절 연구 접근방법

1. 핵심 기술

가. IDX Foundation 기술

¡ CybreBrain (In-Silico Human Brain)

- 자가적응형 인공지능 (Self-Adaptive Thinking Machine) 기술

- 뇌과학/공학의 뉴런 네트워크 분석을 통한 신경가소성 컴퓨팅 모델에 기반 - 현재 결과를 평가하여 모델을 스스로 갱신하는 점진적 학습

- (핵심 요소기술) 자가적응형 소프트웨어, 인지적 데이터 분석, 스마트 데이터, 이동형 소프트웨어

¡ CybreDx (Cyber Diagnosis)

- 인공지능을 활용한 정밀 의료 및 예방 의학 시스템

- 질병 진단의 정확도 증진 및 예측 모형을 통한 지료의 예후 예측

- 질병을 유발하는 요인 발견 및 요인들 간의 상관관계를 분석하여 예방/치료에 활용 - (핵심 요소기술) 인공지능 엔진 기술, 데이터 전처리 기술, 최적화 자동화 기술

¡ CybreAir

- 다분야 통합 홀리스틱 시뮬레이션 (Holistic Multi-Domain Simulation) 기술을 이용한 미세먼지 분석 시뮬레이터 프레임워크 - 미세먼지 해결 방안/정책의 가상 시험을 통한 결과의 효용성 예측 - 기계학습 및 시뮬레이션 기술 기반 - (핵심 요소기술) 다분야 시뮬레이션 기술 및 환경 모델링 기술 등

나. AI 데이터 처리 컴퓨팅 구조 기술

¡ 데이터 중심의 컴퓨팅 구조 - 기존 프로세서 중심 컴퓨팅 환경에서는 CPU가 독립적으로 메모리를 가지고 연산을 수행하며 네트 워크를 통해 데이터 교환 및 통신이 이루어짐 - 데이터는 CPU에 종속되어 이동이 빈번하게 발생하며, 이로 인해 성능 저하 및 에너지 낭비가 야기 됨. 이는 빅데이터 분석 및 처리가 일반화된 근래에는 더욱 심각한 문제로 자리잡음 - (핵심 요소기술) 프로세서 중심에서 메모리 중심으로의 컴퓨팅 구조 혁신 ¡ 데이터 저장 기술 - 기존 DRAM 기반 메모리 시스템은 집적도를 증가하기가 어려운 구조로 대용량화가 힘들며, 데이터 보존을 위해 주기적인 Refresh가 필요해 이로 인한 에너지 소모가 큼 - DRAM 대용량화의 한계는 결국 성능이 낮은 하위 스토리지 계층에 의존할 수밖에 없는 상황으로 이어 지며, 처리해야 하는 데이터의 볼륨이 기하급수적으로 증가하는 현 상황에 큰 걸림돌이 되고 있음 - (핵심 요소기술) 고집적/대용량화가 용이하며 빠른 속도로 접근 가능한 새로운 메모리 및 인터커 넥트 기술

(22)

2. 혁신성과 독창성

가. IDX Foundation 기술의 혁신성과 독창성

¡ (핵심 기술 1) CybreBrain - “학습->예측” (현재 인공지능)을 넘어선 “이해->학습->예측 ->적응 ->자율“의 독창적 방법론 으로서 자율적/실시간적 Thinking Machine 구현 가능 - 현재 인공지능이 가지는 여러 가지 한계 (데이터 전처리에 인간 개입, 정제된 대량의 학습데이터 필요, Catastrophic Forgetting, 설명 불가능성 등) 극복 ¡ (핵심 기술 2) CybreDx - 최적 알고리즘 선택과 파라미터 최적화를 자동화하여 전문 인력이 수주~수개월의 시간을 소요하는 기계학습을 수시간~수일로 대폭 단축 - 개인의 데이터에 숨겨진 변수 간 상관관계를 파악하여 증상이 나타나기 이전에 질병을 예측하고 조기 예방 ¡ (핵심 기술 3) CybreAir - 서로 다른 영역에서 축적된 대량의 데이터를 하나의 시스템으로 통합하고 이들의 정보를 모두 고 려하여 미세먼지 정책의 효용성을 정확히 예측 - 다분야를 통합하는 총체적 시뮬레이션을 통해 새로운 상관관계를 발견하여 미세먼지 문제에 대한 새로운 해결책 제시에 기여

나. AI 데이터 처리 컴퓨팅 기술의 혁신성

¡ 패브릭 메모리 중심 컴퓨팅 구조로 혁신 - 다수의 프로세서/노드가 거대한 메모리 풀을 공유하는 형태로, 차세대 패브릭 인터커넥트를 통한 공유 메모리로의 접근이 가능한 메모리 중심 컴퓨팅 구조 혁신 - 노드간 데이터 교환을 위해 프로세서를 통하지 않고 공유 메모리 풀로의 직접 접근이 가능하며, Load/Store 등 기존 Memory Operation으로 접근 가능한 컴퓨팅 구조 제안

¡ 메모리 중심 시스템 SW 혁신

- 고집적화가 용이하고 전원이 차단되어도 데이터가 보존되어 Refresh가 필요치 않으며 Byte-Addressing이 가능한 차세대 스토리지 클래스 메모리(Storage Class Memory, SCM)를 이용한 거대 공유 메모리 풀 개발

- 공유 메모리로의 빠른 접근이 가능한 저지연/고대역폭 개방형 메모리 인터커넥트로 Gen-Z를 도입 하여 성능 보장

- 새로운 메모리 및 컴퓨팅 구조 혁신에 따라 패브릭 메모리 및 인터커넥트 지원을 위한 운영체제 수 준의 SW 성능 혁신

(23)

제3장 본 론 (Ⅱ)

제1절 연구개발 목표 및 내용

1. 최종목표

구 분 내 용 최종목표 저지연/초고성능 패브릭 메모리 컴퓨팅을 이용한 상황변화에 자율적으로 대처하는 자가적응형 씽킹 머신(Thinking Machine) 기반 IDX Foundation 기술 개발 * 씽킹 머신: 사람과 같이 스스로 학습하며 상황변화에 자율적으로 대처할 수 있는 인공지능 SW 세부목표 ○ IDX Foundation 핵심 기술 연구 - CybreBrain : 신경가소성 자가적응형 씽킹 머신 기술 (각종 IDX 응용을 지원하기 위한 공통 아키텍쳐) ※ 신경가소성(neuroplaticitye): 상황변화와 경험에 의해 학습하는 자가적응형 인간두뇌의 능력(출처: 위키피디아) Ÿ 자가적응형 SW 엔진(Self-Adaptive Software)

Ÿ 이동형 자가적응 SW(Itinerant Self-Adaptive Software) Ÿ 인지적 데이터 분석 SW(Cognitive Big Data Analytics)

Ÿ 스마트 데이터 관리 프레임워크(Smart Data Management Framework)

- CybreDx (CybreBrain을 기반으로 생명공학 및 의료분야, 특히 예방의료와 정밀의 학을 위한 응용 솔루션) 개발 Ÿ 대상 질병: 대장질환, 치매, 암 등 질병 조기 진단 시스템 개발 - CybreAir (CybreBrain을 기반으로 이용한 환경 및 사회 과학 분야의 응용 솔루션) 개발 Ÿ 다중 도메인 휴리스틱 시뮬레이션 프레임워크 ○ 패브릭 메모리 컴퓨팅 핵심 기술 연구 - 메모리 중심 개방형 컴퓨팅 구조 기술 Ÿ 개방형 컴퓨팅 시스템 메모리 계층 구조 연구 Ÿ 패브릭 메모리를 위한 시스템 인터커넥션 구조 연구 Ÿ 크로스바 스위치 기반 메모리 서버 구조 연구 - 패브릭 메모리 기반 인메모리 데이터 프로세싱 엔진 기술 Ÿ 인메모리 데이터 프로세싱 엔진 연구 Ÿ 패브릭 메모리 기반 분석 데이터 모델 정의 - 랙스케일 패브릭 메모리 공유 기술 - 랙스케일 패브릭 메모리 인터커넥트 기술 - 랙스케일 패브릭 메모리 운영체제 기술 ○ 주요 성능 지표 주요 성능 지표 단위 목표 비고

IDX Foundation의 IDX 응용에 적용 개수 개수 3 15개 IDX 분야중 적용 도메인 개수 의료 IDX 서비스 지원 대상 질병 수 개수 3 각종 질환의

조기진단 기능 개수 그래프 분석 성능 (Spark) 시간(초) 2.5 SPARK (IBM) 인메모리 프로세싱 가능한 DNN Size Byte 16T vDNN 연결망 전송 속도 Gbps 200 Gen-Z 랙스케일 메모리 시스템 확장성 Port 개수 128 Gen-Z

(24)

2. 연차별 연구개발 목표 및 내용

구 분

목 표

내 용

1차년도

(2018)

Ÿ

IDX Foundation 구조

연구

Ÿ

메모리 중심 개방형

컴퓨팅 구조 연구

○ IDX Foundation 원천 기술 - IDX Foundation 구조 연구 - 자가 적응형 씽킹 머신 연구 - 씽킹 머신 기반 시뮬레이터 프레임워크 연구 - CybreDx(의료 IDX) 구조 설계 ○ 패브릭 메모리 컴퓨팅 핵심 기술 - 메모리 중심 개방형 컴퓨팅 구조 연구 - 패브릭 인메모리 데이터 프로세싱 엔진 선행 연구

2차년도

(2019)

Ÿ

자가적응형 SW 엔진

연구

Ÿ

랙스케일 패브릭 메모리

공유 기술 연구

○ IDX Foundation 원천 기술 - CybreBrain: 자가 적응형 SW 프레임워크 PoC - CybreDx: 의료 IDX 개발 V1 - CybreAir: 미세먼지 관련 종합 시뮬레이터 PoC ○ 패브릭 메모리 컴퓨팅 핵심 기술 - 랙스케일 패브릭 메모리 공유 기술 연구 (에뮬레이 션 기반)

-

패브릭 메모리 기반 인메모리 데이터 프로세싱 엔진 프로토타입 개발

3차년도

(2020)

Ÿ

씽킹 머신 프로토타입

개발

Ÿ

랙스케일 패브릭 메모리

운영체제 기술 연구

○ IDX Foundation 원천 기술 - CybreBrain: 자가 적응형 SW 프레임워크 V1 - CybreDx: 의료 IDX 개발 V2 - CybreAir: 미세먼지 관련 종합 시뮬레이터 V1 ○ 패브릭 메모리 컴퓨팅 핵심 기술 - 랙스케일 패브릭 메모리 운영체제 기술 프로토타입 개발 - 랙스케일 패브릭 메모리 인터커넥트 기술 선행 연구

4차년도

(2021)

Ÿ

IDX Foundation 연구

시제품 개발

Ÿ

랙스케일 메모리 인터

커넥트 기술 및 공유

파일시스템 기술 연구

○ IDX Foundation 원천 기술 - CybreBrain: 자가 적응형 SW 프레임워크 V2 - CybreDx: 의료 IDX 개발 V3 - CybreAir: 미세먼지 관련 종합 시뮬레이터 V2 ○ 패브릭 메모리 컴퓨팅 핵심 기술 - 랙스케일 메모리 인터커넥트 프로토타입 개발 - 패브릭 메모리 기반 공유 파일시스템 프로토타입 개발

5차년도

(2022)

Ÿ

IDX Foundation 실험

시제품 개발

Ÿ

컴퓨팅 노드 HW 프로

토타입 및 메모리 공

유 기술 개발

○ IDX Foundation 원천 기술 - CybreBrain: 자가 적응형 SW 프레임워크 V3 - CybreDx: 의료 IDX 개발 V4 - CybreAir: 미세먼지 관련 종합 시뮬레이터 V3 ○ 패브릭 메모리 컴퓨팅 핵심 기술 - 패브릭 메모리 컨트롤러 프로토타입 개발 - 랙스케일 패브릭 메모리 공유 기술 시험 및 검증 (HW 기반) - 대용량 데이터 분석/딥러닝 시스템을 위한 패브릭 메모리 기반 공유 파일시스템 개발 (HW 기반)

(25)

구 분

목 표

내 용

6차년도

(2023)

Ÿ

IDX Foundation 기능

확장 및 의료 IDX 안정

화

Ÿ

랙스케일 패브릭 메모

리 HW/SW 통합 및 안

정화, 성능 검증

○ IDX Foundation 원천 기술 - CybreBrain: 자가 적응형 SW 프레임워크 V4 - CybreDx: 의료 IDX 개발 V5 - CybreAir: 미세먼지 관련 종합 시뮬레이터 V4 ○ 패브릭 메모리 컴퓨팅 핵심 기술 - HW 통합 및 안정화 - 대용량 데이터 분석/딥러닝 시스템을 위한 패브릭 메모리 운영체제 개발 (HW 기반) - 운영체제 및 메모리 공유 SW 통합 및 안정화 - 인메모리 어플리케이션 성능 시험 및 검증

(26)

제2절 당해년도 연구개발 결과

1. IDX Foundation 원천 기술

가. CybreBrain

1) 개요

¡ 목적 - 불확실한 변수와 돌발적 상황에 인간의 개입 없이 대처하는 자가적응형 인공지능 알고리즘 기반의 머신러닝 엔진 연구개발 ※ CybreBrain은 자가적응형 인공지능 알고리즘을 기반으로 다양한 응용 도메인을 지원하기 위한 핵심기술요소. - CybreBrain과의 연계를 통해 의료 및 미세먼지 분야에서의 분석 및 시뮬레이션 등을 지원하는 CybreDX 및 CybreAir를 개발

< CybreBrain, CybreDX 및 CybreAir의 기능 구성 및 연계 개념 >

※ 상기 개념적 구조도에서 보이는 바와 같이, CybreBrain, CybreDX 및 CybreAir는 상호 밀접한 관련을 가지고 있 으며, 핵심 기능 들을 공유 및 활용하도록 되어 있음. 더불어, CybreBrain, CybreDX 및 CybreAir가 병렬적으로 연구개발 되고 있음에 따라, 활용 가능한 기술들을 사용하면서 기술개발 과정을 참고하여 연계를 수행

- 스마트 데이터 프레임워크 및 인지적 데이터 분석을 통해 데이터 전처리 스마트화 - 신뢰성 있는 결과를 도출하면서 이에 대한 설명가능성 제공

(27)

¡ 중요성 - 실제 상황에서는 데이터의 속성이 지속해서 변하기 때문에 이에 효율적으로 대처하기 위해 점진적 학습능력, 자가적응 학습능력이 중요 - 현존하는 기계학습 모델은 고품질의 대량 데이터가 필수적으로 요구되며 이에 따라 데이터 전처리 에 많은 시간과 비용이 요구되기에 이를 스마트화하는 것이 매우 중요 - 신뢰도가 중요한 도메인에서 인공지능을 활용하려면 결과에 대한 설명가능성이 필수적임 ¡ 연구내용 및 범위

- - CybreBrain의 핵심 알고리즘인 SAIL의 개념적 구조 설계 및 아이디어 검증 (PoC) - 현존 머신러닝 알고리즘 개량 및 모델 해석 기법 개량을 통한 데이터 분석 기법 연구개발 - 머신러닝 알고리즘 및 데이터 속성에 따라 적절한 형태의 데이터를 준비해주는 스마트 데이터 프 레임워크 연구개발 ¡ 연구결과 - SAIL의 개념적 설계 및 초기 테스트를 통한 아이디어 검증 수행 - XGBoost 모델을 통해 다변수 간의 상관관계 및 결과에 대한 영향력을 계량화할 수 있는 모델 해석 기법 확립, LSTM의 모델 구조 개량을 통해 시계열 데이터에 대한 분석력 개선 - 데이터에 대한 자가설명을 위한 핵심 기반기술의 개념적 구조 설계 및 CybreAir, CybreDX를 통한 초기 테스트 ¡ 기대효과 - 기존에 인공지능의 도입이 어려웠던 의료와 같은 분야에서도 인공지능을 활용할 기반을 마련 - 문제를 파악하고도 설명가능성의 부족으로 인해 실제 행동으로 이어지기 어려웠던 문제를 해결, 구체적 행동으로 이어질 수 있는 정책적 단서를 제공 (예: 미세먼지) - 불확실한 환경 변화나 돌발적 상황에서 인간에게 도움이 될 수 있는 정보를 제공할 수 있는 인지적 (Cognitive) 인공지능 기술 확보

2) 자가적응형 SW 엔진

2-1) 자가적응형 점진적 학습 (Self-Adaptive Incremental Learning, SAIL) 알고리즘 연구

¡ 목적 - 파국적 망각(Catastrophic Forgetting)을 극복하고 데이터 세트를 점진적으로 학습할 수 있는 알 고리즘 개발 - 성능을 최대한 유지하면서 예측 결과에 대해 현존 알고리즘보다 풍부한 설명을 제공할 수 있는 알 고리즘 개발 - 현재 많은 연구가 이루어지고 있는 이미지, 음성 데이터 이외의 멀티도메인 데이터를 타겟으로한 알고리즘 개발

(28)

¡ 중요성 - 보호가 필요한 데이터, 대량 실시간 데이터 등은 많은 경우 분리된 서버에 존재하는데 이를 모두 통합하여 효율적으로 학습하기 위해서는 점진적 학습능력이 매우 중요 - 실제 개인/국가의 행동으로 이어지기 위한 근거로 삼기 위해서는 성능 하락이 적으면서 설명가능 성을 제공할 수 있는 알고리즘이 매우 중요 - 실제 의료, 환경 등의 많은 도메인은 서로 긴밀하게 연계되어 있기에 멀티도메인 데이터에 대한 분 석 및 학습능력은 매우 중요 ¡ 연구내용 및 범위 - 위 세 가지 목적을 동시에 이룰 수 있는 알고리즘의 개념적 설계 - SAIL - SAIL 핵심 기능에 대한 구체적 설계 및 구현 - 공개 데이터 세트에 대하여 SAIL 알고리즘 PoC 진행 ¡ 연구결과 - 인코딩을 통해 데이터의 값을 그룹화한 후 특성별 그룹의 동시성을 패턴화하는 방식의 머신러닝 알고리즘 개념설계 수행 <SAIL 알고리즘 플로우> - 데이터 인코딩 및 전처리 기법 정의 Ÿ 이상 데이터, 결측 데이터에 대한 전처리 기법 정의 Ÿ 범주형, 수치형 데이터 각각에 대한 인코딩 기법 정의 Ÿ 구체적인 구현에 있어서 코드의 효율성과 기법의 속성을 고려하여 여러 기법 간의 수행 순 서 정립

(29)

<데이터 전처리 블록의 구성 및 모듈별 수행 순서> - 지도학습 기반 분류 작업을 타겟으로, 타겟을 분류하는데 유용한 특성 시퀀스(Significant Feature Sequence, SFS) 개념 및 SFS 선별 기법 연구 Ÿ 가중치 행렬을 통해 특성값 간의 동시성을 패턴화하는 방법 정의, 이 과정에서 부족한 데이 터를 극복하기 위한 pruning, smoothing 방법에 대한 방향성 수립 Ÿ Frobenius norm을 이용하여 특성 시퀀스의 클래스분해력 계량화 방법 정의, 더 나아가 멀티 클래스 확장성(식(1)) 및 클래스별 분해력(식(2))을 정의하여 SAIL 모델의 유연성 확보 (1) (2) - 단일 SFS 모델의 앙상블을 통한 성능 개선 수행 < 클래스별 SFS 모델 앙상블 > _ _{ }  



‖

_  _ 

_‖

  _  





‖

  _{ }   

_‖

_



‖

_  _ 

_‖

_ ⋯



‖

  

‖

  



f or   ⋮ ⋮ _ _{ }   





‖

 _{ }   

_‖

 



‖

  _{ }   

_‖

  ⋯



‖

_ _  

_‖

  



f or  

(30)

Ÿ 4가지 모델 결과값 취합 방법 정의 - SAIL 알고리즘의 수행 속도를 향상하기 위한 최적화 수행 Ÿ 파이썬의 멀티프로세싱 기능을 이용하여 FS 모델 학습의 병렬화 구현 Ÿ 프로세서 간 중간 결과 공유를 통해 동적 계획법(Dynamic programming) 구현 - 공개 데이터 세트에 대하여 PoC 진행 Ÿ 데이터 전처리, SAIL 학습 및 테스트, 비교군 알고리즘 학습 및 테스트, 실험 결과 자동 로 깅 등의 기능을 모듈화, 서로 연계하여 파이썬 언어로 구현

Hard voting  arg





   









Soft voting  arg





   





Weighted hard voting  arg





   



_⋯ _



∘







Weighted soft voting  arg





   



⋯ 



∘



(31)

<시퀀스 다이어그램 – SAIL 학습 및 테스트 과정>

Ÿ UCI 데이터 세트 저장소에서 선별한 PIMA (멀티도메인), Car (멀티클래스), Parkinson (754 개의 특성 개수)에 대해 알고리즘 유효성 테스트 진행. XGBoost과 비교 진행

Car CarBool PIMA Parkinson SAIL 79.8% 87.3% 75.6% 76.7% XGBoost 98.8% 99.8% 75.8% 87.7%

(32)

<CybreBrain 개념설계서(일부)> ¡ 기대효과 - SAIL 알고리즘 연구개발 과정에 있어서 실제 구현에서 현실적으로 고려해야 하는 사항과 궁극적 목적을 위해 보완되어야 할 내용 구체화 - PoC 및 이에 대한 분석을 통해 점진적 학습, 설명가능성을 갖추면서도 성능의 하락을 최소화한 알 고리즘의 연구개발 기반 마련 - CybreBrain의 구성요소인 스마트 데이터 프레임워크, 인지적 분석 기능과 연계 작동하며 서로가 서로를 위해 앞으로 발전해나가야 할 방향성 제공

2-2) 자가적응형 인공지능을 위한 브레인 네트워크 추출 및 Reservoir Computing 모델 구축

(공동연구기관 KAIST 연계수행)

¡ 목적 - 다양한 측정 기술을 통해 획득되는 뇌 영역 간의 물리적/기능적 연결 정보를 토대로 생명체의 브레 인 네트워크를 구축하고, 네트워크 이론을 활용해 브레인 네트워크를 시스템생물학적인 관점에서 체계적으로 분석함으로써, 브레인 네트워크 고유의 동작 원리와 기능적인 특성을 규명 - 기억이나 학습, 추론 등과 같은 뇌 고유의 고등 인지기능에 대한 분석을 통해, 현재 인공지능(AI) 분야가 마주한 여러 한계들을 극복하고 관련 원천기술을 개발에 활용 - 현재 접근 가능한 뇌 영상 데이터베이스의 발전 방향과 대략적인 규모를 파악하고, 이들 데이터베 이스에서 제공하고 있는 뇌 영상데이터의 구체적인 유형을 확인하여, 브레인 네트워크 추출 파이 프라인을 구축하는 과정에 활용될 수 있는 대표적인 데이터베이스와 관련 데이터를 확보

(33)

¡ 중요성 - 고등 인지기능, 항상성 유지 등 뇌의 주요한 기능들이 뇌 영역간의 복잡한 상호작용에서 비롯된다 고 생각하여, 영역 간의 물리적/기능적 연결 특성을 분석해 뇌 고유의 동작 원리를 규명하고자 하 는 ‘Network neuroscience’ 분야가 최근 많은 주목을 받고 있음 - 뇌의 연결성에 대한 방대한 양의 데이터를 분석함으로써 뇌의 동작 원리를 파악하는데 중요한 정 보를 얻을 수 있을 것이란 인식 아래, 다양한 측정 기술의 개발과 측정 데이터의 수집이 꾸준히 이 루어지고 있음 - 브레인 네트워크 연구의 출발점이 되는 뇌 영상 데이터의 수집과 데이터베이스의 구축, 수집된 뇌 영상 데이터로부터 브레인 네트워크를 추출하는 기술은, 뇌의 연결성을 체계적으로 파악하는 과정 에서 매우 중요한 역할을 함 ¡ 연구내용 및 범위 - 뇌 영상 데이터베이스 정보 수집 및 목록화 Ÿ 뇌 영상 데이터베이스 정보 수집 Ÿ 파이프라인 구축에 활용할 대표 데이터베이스의 선정 Ÿ 파이프라인 구축에 활용할 뇌 영상 처리 소프트웨어의 선정 Ÿ 브레인 네트워크 추출 파이프라인의 구축 Ÿ 파이프라인을 활용한 브레인 네트워크 추출 - 구축된 파이프라인을 통해 확보한 브레인 네트워크의 분석 Ÿ Consensus brain network의 구축

Ÿ 주요 네트워크 지표를 활용한 브레인 네트워크의 분석 Ÿ 스펙트럼 그래프 이론을 활용한 브레인 네트워크의 분석

- 추출한 브레인 네트워크를 활용한 pilot study – Reservior Computing Model Ÿ Reservoir computing 개요

Ÿ Reservoir computing framework을 응용한 pilot study

¡ 연구결과

- 뇌 영상 데이터베이스 정보 수집 및 목록화 Ÿ 뇌 영상 데이터베이스 정보 수집

⋅ 수집된 뇌 영상 데이터베이스는 총 45개. 건강한 성인의 뇌 영상 데이터로부터 인간의 발 달 과정, 노화, 특정한 뇌질환(조현병, 치매 등)에 대한 뇌 영상 데이터를 제공

⋅ MRI(structural, diffusion, functional) 데이터와 EEG/MEG 데이터가 주류. 피험자의 유전 적 정보나 혈액 검사 결과와 같은 부가적인 정보를 제공

< 연구 과정에서 수집된 주요 뇌 영상 데이터베이스들의 일부. 좌측부터 The WU-Minn Human Connectome Project, Brain Images of Normal Subjects (BRAINS), The Neuro Bureau ADHD-200 Preprocessed

(34)

Ÿ 파이프라인 구축에 활용할 대표 데이터베이스의 선정

⋅ WU-Minn HCP consortium에서 운영하는 Human connectome project data base (ConnectomeDB)를 선정. 풍부한 양의 인간 뇌 영상 데이터를 확보 (약 1,200명 분). 뇌 영 상 데이터의 유형은 structural MRI, diffusion MRI, functional MRI를 비롯하여 개별 피 험자의 behavioral score에 이르기까지 다양한 형태를 가짐 Ÿ 파이프라인 구축에 활용할 뇌 영상 처리 소프트웨어의 선정 ⋅ FSL과 FreeSurfer, MRtrix를 선정. ⋅ FSL은 MRI를 비롯해 다양한 종류의 뇌 영상 데이터를 처리하는데 특화된 소프트웨어로, 리 눅스 기반의 환경에서 사용자에게 GUI interface를 제공 ⋅ FreeSurfer는 처리된 결과를 시각화하는 과정에 큰 장점을 가짐

⋅ MRtrix는 diffusion MRI 데이터를 처리하는데 특화된 소프트웨어로 FSL 및 FreeSurfer와 높은 호환성을 보여주며, 다양한 종류의 뇌 영상 데이터를 처리하는데 최적화되어 있음

Ÿ 브레인 네트워크 추출 파이프라인의 구축

⋅ 뇌 영상 데이터로부터 브레인 네트워크를 추출하는 파이프라인은 크게 아래와 같은 네 단 계의 과정을 거쳐서 진행: (1) ConnectomeDB로부터 개별 피험자의 structural/diffusion MRI 데이터를 확보 (2) Structural MRI 데이터를 활용한 뇌 영상 데이터의 구획화 작업 진 행(parcellation) (3) Diffusion MRI 데이터를 활용한 신경 다발의 방향성 추적 작업 진행 (4) 물리적 연결성이 반영된 브레인 네트워크를 추출하는 작업 진행(tractography)

< 뇌 영상 데이터로부터 물리적 연결성이 반영된 브레인 네트워크를 추출하는 전체 파이프라인의 동작 과정 >

Ÿ 파이프라인을 활용한 브레인 네트워크 추출

⋅ 브레인 네트워크를 추출하는데 활용된 서버 컴퓨터의 주요 사양: OS: Ubuntu Linux 14.04 LTS, CPU: Intel® Xeon® CPU E5-2697 v3 @ 2.60GHz, 28 cores, 56 threads, RAM: DDR4 128GB

⋅ 원본 뇌 영상 데이터의 크기: structural MRI(~1.2GB), diffusion MRI(~1.2GB) ⋅ Structural MRI data processing : ~1 hour, ~10GB space

(35)

⋅ Brain network(connectome) extraction: ~18 hours, ~130GB space ⋅ 추출된 행렬 형태 브레인 네트워크의 크기: few KBs ⋅ 브레인 네트워크는 모두 weighted/symmetric한 행렬로 구축 < 구축된 파이프라인을 활용해 추출한 브레인 네트워크를 MRTrix 소프트웨어로 시각화한 모습. (좌)구축된 브레인 네트워크의 link를 시각화한 모습. (우)구축된 브레인 네트워크의 node를 시각화한 모습 > - 구축된 파이프라인을 통해 확보한 브레인 네트워크의 분석 Ÿ Consensus brain network의 구축

⋅ ConnnectomeDB의 데이터로부터 시범적으로 추출해낸 건강한 성인 100명 분의(100 unrelated subjects) 물리적 연결성이 반영된 브레인 네트워크 데이터를 활용해, 집단을 대표할 수 있는 consensus brain network를 구축하여 브레인 네트워크의 추출 작업이 잘 이루어졌는지를 분석

< 추출한 브레인 네트워크 데이터를 기반으로 group-level brain network(consensus network)를 구축하는 일련의 과정 >

(36)

< ConnectomeDB의 데이터로부터 시범적으로 추출해낸 건강한 성인 100명 분의(100 unrelated subjects) 브레인 네트워크 데이터를 기반으로 구축한, consensus brain network(공통 브레인 네트워크)의 최종적인 형태 >

⋅ 구축된 consensus brain network를 대상으로 네트워크 과학 연구에서 활용되는 주요 네트 워크 지표를 계산하여, 기존 연구들에서 보고되었던 브레인 네트워크의 특징이 확인되는지 를 중점적으로 살펴보았으며, 구체적으로는 다음과 같은 분석들을 진행: Degree distribution analysis, Small-worldness analysis, Modularity analysis, Rich-club analysis

< Consensus brain network에 대한 degree distribution 분석 결과와, power-law function을 활용한 fitting 작업의 결과 >

(37)

< Consensus brain network의 small-worldness index 계산을 위한 clustering coefficient 및 global efficiency 지표의 계산 결과. (좌) Clustering coefficient 계산 결과. (우) Global efficiency 계산

결과. Global efficiency는 두 집단에서 비슷한 값으로 계산되었으나, clustering coefficient에서는 브레인 네트워크가 훨씬 큰 값을 나타냄 >

(38)

< Consensus brain network의 normalized rich-club coefficient 계산 결과 >

Ÿ 스펙트럼 그래프 이론을 활용한 브레인 네트워크의 분석

⋅ 구축된 consensus brain network를 대상으로 Normalized Laplacian matrix를 구축한 다음, 고유값을 구해 Laplacian spectrum을 그려 기존 연구에서 보고된 브레인 네트워크의 특징 이 관찰되는지를 확인

⋅ Laplacian spectrum의 분석 결과, 추출한 브레인 네트워크는 기존 연구에서 보고된 브레인 네트워크의 특성을 잘 보여주었으며, 이러한 결과로부터 브레인 네트워크의 추출 파이프라 인이 잘 구축되었음을 확인

< Consensus brain network와 null network의 Laplacian spectrum 결과. x축은 normalized Laplacian matrix의 eigenvalue를 의미하며, y축은 probability density function(pdf)을 나타냄. 붉은 색으로 표시한 브레인 네트워크의 Laplacian spectrum으로부터, 기존에 보고된 브레인 네트워크 스펙트럼의 세

(39)

- 추출한 브레인 네트워크를 활용한 pilot study – Reservoir Computing Model Ÿ Reservoir computing 개요

⋅ Machine learning 분야에서 artificial neural network(ANN)의 개념은, feed-forward structure의 형태로 처음 구현됨. ANN은 직관적이고 일부 task에서 매우 효과적인 처리 능 력을 보여주었음

⋅ 하지만, 구조적인 특성으로 인해 temporal data processing을 구현하는 것에 본질적인 한 계가 있음. 이는 recurrent connection을 ANN에 추가하게 됨으로써 recurrent neural network(RNN)의 형태로 발전됨. RNN의 경우 feedback connection으로 인해 temporal dynamics를 ANN에 반영할 수 있게 되었으며, back-propagation을 비롯한 여러 link-weight update algorithm들에 힘입어 dynamics prediction, control, robotics 등의 분야에서 큰 성공을 거둠

⋅ 그러나 RNN의 경우 주어진 task를 효과적으로 수행하기 위해, ANN상에 존재하는 ‘모든 link weight’를 학습시켜야 하는 문제가 있어 요구되는 computational cost/time이 매우 크다는 단점을 가지고 있으며, 수많은 link weight를 학습하는 과정에서 ‘fading gradient’라고 불리는 학습과정의 지연(또는 학습이 이루어지지 않는)현상이 발생함.

⋅ 이를 보완하기 위하여 Echo state network (ESN)과 Liquid State Machine (LSM)이 제안됨. 관련 분야의 연구자들은 이를 묶어서 ‘reservoir computing’이라는 개념으로 명명

⋅ ESN은 reservoir라고 불리는 hidden layer가 complex nonlinear dynamic filter 역할을 하 며, link weight training은 output단의 readout link들에 한정되어 진행되는 특성을 가지 고 있음. training cost가 RNN에 비해서 매우 낮음에도 불구하고, 성능 측면에서는 RNN과 비슷한 수준을 보이거나, 특정한 task에서는 더 높은 성능을 보이는 경우도 있음.

⋅ LSM의 경우 ESN에 비해 좀 더 biologically inspired된 구현 방식을 채택, 설계 과정에서 biologically inspired parameter(주로 신경세포의 특성에서 기인함)가 중요한 역할을 차 지하며, 이는 흔히 cortical micro-column model과 비유되어 설명됨

⋅ (Reservoir computing 시스템을 설계 시 고려 요소) - General model: connections and their weights

- Node types: node(artificial neuron)’s activation function, etc.

- Theoretical capabilities : mathematical conditions of reservoir (for making ‘good’ reservoir)

- Reservoir creation and scaling : rescaling reservoir by considering stability bounds

- Training process : off-line(batch), on-line learning rules

- Reservoir adaptation : minor static/dynamics changes of reservoir structure - Structured reservoirs : global, statistical structure of reservoir

(40)

< Reservoir computing framework에 대한 비교 설명. (A) 기존 RNN framework에서의 training process. (B) Reservoir computing framework에서의 training process >

< Reservoir computing framework의 일반적인 구현 형태. (A) Reservoir computing의 일반적인 설계도.

(B) Reservoir computing에서 각 parameter들 사이의 timing diagram >

Ÿ Pilot study의 설계 및 결과

⋅ 본 연구에서 시범적으로 추출한 건강한 성인 100명 분의 브레인 네트워크를 기반으로 consensus brain network를 구축하고, 이를 기반으로 해서 비교의 기준으로 삼을 null network를 구축. 이후 reservoir computing framework에서 neural reservoir에 해당하는 부분을 brain network와 null network의 데이터로 각각 대체

⋅ Reservoir computing framework 하에서 neural reservoir의 구조는 학습 과정에서 변화하 지 않으며, 마지막의 readout link에 대해서만 학습을 통한 link weight update 진행

⋅ 세 가지 종류의 activation function을 각각 부여하여 분석을 진행: Linear activation function, Tanh(hyperbolic-tangent) activation function, Sigmoid activation function