6
HIRA 빅데이터 브리프코로나19 대응
“온라인 플랫폼 기반 국제협력연구”
구축 현황 및 향후 빅데이터 연구
활용 가능성
1. 플랫폼 구축 배경
코로나19의 급속한 확산으로 인해 세계 각국 국민들의 생명과 안전이 위협받고, 사회〮경제적 활동이 위축되고 있는 상황이지만, 진료현장에서 임상의들의 진단과 환자 치료에 도움을 줄 수 있는 실제임상자료 기반 근거 및 정부의 정책 수행 시 필요한 정보 제공은 턱없이 부족한 상황이 지속 되었다. 이에 대한민국의 보건복지부(이하 복지부)와 건강보험심사평가원(이하 심평원)은 앞선 IT 인프라를 토대로 운영되는 전 국민 건강보험제도를 통해 신속하게 수집〮정제〮비식별화된 코로나 19 환자의 데이터셋을 전 세계 연구자들이 분석할 수 있도록 세계 최초로 개방하게 되었다. 현재 outbreak가 진행 중인 민감한 주제를 국내외 연구자에게 개방하는 것에 내외부적 우려가 없었던 것은 아니나, 코로나19 국제협력 연구를 통해 인류 전체가 질병을 극복하고 정부의 효과적 정책 수행을 위한 근거 생산에 활용할 수 있는 기회를 제공한다는 목적으로 연구 플랫폼을 구축하게 되었다.2. 온라인 플랫폼 기반 코로나19
국제협력연구 특징 및 참여 현황
코로나19 국제협력연구 플랫폼(https://covid19data.hira.or.kr)은 심평원이 보유한 코로나19 청구데이터를 기반으로 국내외 연구자가 온라인으로 접속하여 원데이터(raw data)가 아닌 분석코드 및 분석결과(근거)만을 교환하는 방식으로 수행하는 연구체계이다. 심평원은 코로나19 환자의 검사 〮진료 및 이 환자들의 지난 3년 간 기저질환, 복용약제 등 의료이용 정보로 구성된 실제임상데이터를 노연숙 부장 건강보험심사평가원 빅데이터실 빅데이터연구부7
I. 보건의료 빅데이터 동향 Ⅱ. 보건의료 빅데이터 분석 사례 Ⅲ. 전문가 기고 Ⅳ. HIRA 빅데이터 활용 가이드 비식별화된 연구용 데이터셋으로 구축하여 지난 3월 27일(금) 전 세계 연구자에게 개방했다. 연구용 데이터셋은 SAS, R 및 공통데이터모델(Common Data Model, 이하 CDM) 형식으로 개방 되며, 환자의 인구학적 정보, 상병정보, 진료〮처방 정보와 확진 및 사망여부 정보가 포함된 59개 변수로 구성되어 있다. 국내외 연구자는 온라인 연구 플랫폼에 게시된 데이터 스키마(테이블 구조 및 변수 설명)와 샘플 데이터셋을 활용하여 분석코드를 작성한 후 연구 플랫폼에 업로드하면, 심평원 내 연구진이 제출된 분석코드를 내부 서버에 보관된 데이터셋에 실행시켜 그 결과(통계)값만 반출해주는 방식으로 진행된다. 2020년 6월 17일(수) 현재 58개국 1,516명의 연구자가 등록하였고, 이들 중 32개국에서 390개의 연구 프로젝트가 신청되어 분석이 진행되고 있으며, 이 중 87건의 프로젝트 결과가 반출 완료되었다. [ 표 1 ] 코로나19 국제협력연구 프로젝트 한국 미국 영국 이스라엘 캐나다 163건(41.9%) 123건(31.5%) 19건(4.9%) 13건(3.3%) 12건 이탈리아 호주 중국 인도 네덜란드 10건 5건 5건 5건 5건 스페인 브라질 프랑스 말레이시아 뉴질랜드 4건 3건 2건 2건 2건 오스트리아 아르헨티나 크로아티아 체코 핀란드 1건 1건 1건 1건 1건 독일 인도네시아 아일랜드 일본 케냐 1건 1건 1건 1건 1건 파키스탄 파나마 필리핀 루마니아 사우디아라비아 1건 1건 1건 1건 1건 스위스 터키 1건 1건 데이터 코로나19 환자 실제임상데이터 - 전 국민 기반 코로나19 관련 검사, 처치, 투약 등 의료이용 정보 및 이들의 기저질환 및 의료이용 내역(3년)을 파악할 수 있는 실제임상데이터 - 코로나19 확진자 및 사망자 변수 등 총 59개 변수 - 자료 건수는 코로나19 명세서 기준 476,508건(확진자 7,590명 포함 총 환자수 234,427명)8
HIRA 빅데이터 브리프3. 온라인 연구 플랫폼 구성 및 연구 방법
1) 연구 플랫폼 체계
코로나19 국제협력연구 플랫폼은 복지부와 심평원이 주관하여 구축 및 관리하고 있다. 국내외 정부, 대학, 의료기관, 언론 및 산업계 연구자가 본 프로젝트에 참여 가능하며, 이 과정에서 심평원은 연구 플랫폼 개발〮유지보수, 연구용 데이터셋 개발〮개방 및 연구 가이드라인 수립 등 연구 환경을 관리하게 된다. [ 그림 1] 코로나19 국제협력연구 시스템 체계도 코로나19 국제협력연구 플랫폼 https://covid19data.hira.or.kr 연구자 등록 관리 연구 프로젝트 관리 데이터 레이크 (저장소) 연구 성과물 공유 연구계획서, IRB, 데이터동의서 분석 코드 분석 결과 제공 연구계획서, IRB, 데이터동의서 분석 코드 분석 결과 제공 국내 정부/대학/의료기관 /언론/산업계 등 국외 정부/대학/의료기관 /언론/산업계 등 연구 플랫폼 개발 및 유지보수 연구용 데이터셋 개발 및 개방 연구가이드라인, 분석도구 제공 등 연구 환경 관리 분석환경 폐쇄망 내 분석 수행 및 이용 통계 패키지 - 전 국민 기반 데이터를 조건에 맞게 추출하여 SAS, R 및 공통데이터모델 (Common Data Model, CDM) 형식의 데이터셋 구축- SAS, R, Atlas(CDM 분석용) 통계 패키지를 활용한 분석 실행 - 보안 상 인터넷이 연결되지 않은 폐쇄망 내 분석으로 ‘R’과 같은 오픈소스 기반 분석 요청 시 기 설치된 패키지 확인 필요 플랫폼 기반 연구 온라인 연구 신청, 프로젝트 진행 및 반출 - 국내외 연구자가 온라인으로 접속, 등록, 프로젝트 신청, 분석코드 업로드 - 이메일을 통한 결과(통계)값 반출