HIRA 빅데이터 브리프 제3권 3호
빅 데 이 터
브
리
프
H
I
R
A
H I R A B i g D a t a B r i e fHIRA 빅데이터 활용 가이드 _ 46
1. 동반질환 분석을 위한 데이터 구축 _ 48보건의료 빅데이터 동향 _ 04
보건의료 빅데이터 활용 의료산업 동향 _ 06HIRA 빅데이터 분석 사례 _ 20
1. 척추질환이 대한민국 국민보건에 미치는 영향 _ 22 2. 무릎관절증 환자의 외래 진료지속성이 건강결과에 미치는 영향 _ 30 3. 파킨슨병 환자의 척추, 고관절 및 대퇴부 골절 위험 요인 _ 39 ※ 「HIRA 빅데이터 브리프」의 모든 내용은 개인의 의견으로 건강보험심사평가원의 공식 견해가 아님을 알려드립니다.보건의료 빅데이터 동향에서는 국내・외 빅데이터 관련 기술 개발,
활용 등 빅데이터와 관련한 최신 동향을 소개하고 있습니다.
빅데이터
동향
6 Ⅰ. 보건의료 빅데이터 동향
1. 들어가는 글
●컴퓨터 과학을 이용한 의료 빅데이터(Big data) 분석기법은 의료정보학, 바이오정보학 및 바이오통계분야에서만성질환및난치성질환과유전체(Genomics)등에응용이확산되고있음 ▶이처럼 다양한 임상정보와의 결합을 활용하여 검증이 이루어지는 바이오의학 연구의 성공 여부는이러한기술들에의해생성되는초대용량의의료데이터셋을어떻게해석하느냐에달림 ▶글로벌ICT기술력을주도하고있는메이저기업들(Microsoft,Amazon,Google등)은의료 빅데이터를다루는선두주자임 ●유전체학 기술과 보건정보에 의해 생성된 의료 빅데이터를 효과적으로 분석하고 공유하기 위해서는동일형태의측정가능한구조를이행할필요가있음 ▶바이오의학은특히미래맞춤형의학프로그램에서직면하게될빅데이터분석을성공적으로 해결하는정보과학에적응할필요가있음[1] ▶또한맞춤형의학과컴퓨터지원진단학은만성질환및난치성질환을직접적으로이롭게할수 있다는것을증명하기위해보다많은연구가필요함 ●본 고에서는 전 세계적으로 도입을 추진하고 있는 u-Health, 바이오의학과 ICT 융합 등 보건의료에서빅데이터의영향에대해설명하고자함 ▶아울러국외(미국/싱가포르/캐나다)및국내(질병관리본부/분당서울대병원/한국정보화진흥원 등)의료빅데이터활용사례와전세계적으로도입을추진하고있는u-Health,바이오의학과 ICT융합등보건의료에서빅데이터의영향에대해설명함 ▶또한의료빅데이터급증에따른데이터분석기법,신약개발,빅데이터를활용한의료기기등 맞춤형의학이슈에대해설명하고,이를기반으로전략적/기술적해결과제를제시함보건의료 빅데이터 활용 의료산업 동향
박세환Ph.D. ㈜기술법인엔펌(ENF)전문위원 한국산업기술진흥협회ReSEAT프로그램전문위원2. 보건의료분야에서 빅데이터의 영향
1) 개요
●고령화사회와만성질환유병률증가등으로인해의료비,의료서비스접근성및의료서비스품질 향상을위해전세계적으로ICT와의료기술을접목한u-Health도입을추진하고있으며1),이를 통해다음과같은파급효과를기대하고있음[2] ▶의료진의건강상담및진료등다양한의료서비스를이용할수있으며,개인의건강정보를기록하는 전자의무기록(Electronic Health Record, EHR)을 통해 환자의 건강상태를 실시간으로관찰할수있음 ▶스마트센서를 통해 수집된 환자의 의료ㆍ건강정보를 다양한 형태로 분석ㆍ처리하여 개인의료정보DB에저장하였다가의료진에전송하여활용할수있음 ●이러한u-health서비스를통해생산되는개인의건강정보와관련된의료빅데이터의관리와 활용이빠르게확산되고있음
2) 바이오의학과 ICT 융합
●제3세대및제4세대DNA서열분석으로일컫는새로운서열분석기술들이유전체및전사체 (transcriptomes)분야에서빠르게확산되고있음 ▶반도체와 나노포어(nano-pore)에 기반을 둔 이들 신기술은 대규모의 유전자 서열분석 프로젝트를개발을통해의료빅데이터분석기법에대한해법을제공하고있음[3] ▶이를통해인간유전체와같은어려운문제를해결해가고있으며,바이오의학에서의이러한빅 프로젝트는신약개발및진단검사등을가속화시키고있음 ▶따라서연구자들은대량의개인의료데이터를안전하게다루어야할의무가있음 1)u-Health는의료비절감등사회경제적비용감소효과와공공보건의료서비스와예방관리보건등사회정책적효과를기대할수있는 가장효과적인대안으로주목받고있으며,u-Health서비스는다양한생체정보를수집하기위해스마트센서를이용한네트워크가 필수적임8
Ⅰ. 보건의료 빅데이터 동향
●차세대 DNA 서열분석을 활용하여 임상전문가와 연구자들에게 연구결과를 제공하기 위한
‘ENCODE(Encyclopedia of DNA Elements)’와 이의 단계별 솔루션인 ‘1000 Genomes 프로젝트’가큰기대를갖게하고있음[4][5][6] <표 1> 참조 ▶이프로젝트를통해도출된정보들은유전학계와생물학계에서가장많이인용하고있으며, 유전체에대한전문지식을응용하여질병표현형들을이해함으로써신약개발을지원하고있음 [7] [표 1]주요DNA서열분석기술프로젝트사례 프로젝트명 개발내용 ENCODE -주목적은모든인간의유전자지도로만드는작업을특성화하는것임 -거의150형의세포에서1,600건의실험을수행하여초대용량데이터를 생성하였으며,주요연구제목들은전세계32개국에서발간되었음 -해당데이터는인간유전체의약80%에대해바이오의학기능을조명하고있음 -연구가잘수행된protein-codingDNA이외외부에있는구역에특별히초점을 맞추고있음 -모든인간의유전변이성의90%는단백질-코딩유전자들갖고있지않은구역 내에서일어나는것을규명하였음 -사람의유전자와유전체조직에대해새로운식견을제공 -향후10년간의바이오의학연구에기여할수있을것으로평가받고있음 1000 Genomes 프로젝트 -2008년시작되어전세계수천명의유전체를서열분석하였음 -인간의유전변이에대해가장큰데이터세트로자리매김되고있음 -이프로젝트로부터확보한데이터는표현및유전형데이터와결합하여바이오의학 분야에서새로운빅데이터를생성하고있음 -1기에1,000개이상의유전체에대한염기서열을생성한바있으며,3기에는몇 개의유전체의exome서열을분석하여표현(expression)데이터를추출한바 있음 자료:Maher,B.(2017),ENCODEProjectConsortium(2017),1000GenomeProjectConsortium(2016)/재구성
3. 의료 빅데이터 활용 사례
1) 국내외 활용 사례
1-1. 국외 활용 사례[2]
●미국 ▶FBI에서는유전자정보은행CODIS(CombinedDNAIndexSystem:미제사건용의자및 실종자에대한DNA정보13,000건구축)을활용하여빠른시간에범인을검거하는체계를 구축하고있음 ▶샌프란시스코 경찰청은 범죄발생지역 및 시각을 예측하여 범죄를 미연에 방지하기 위한 범죄예방시스템(www.crimemapping.com)2)을구축함 [그림 1]ENCODE홈페이지(https://www.encodeproject.org/) 2)과거범죄를분석하여효율적으로경찰을배치하고과거범죄자및범죄유형을SNS를통해지속적으로관찰함으로써그와관련된조직 및범죄에대한예방을하고있음10 Ⅰ. 보건의료 빅데이터 동향 ▶ContextMatters에서는복잡한의료빅데이터집합을편리하게사용할수있는인터페이스와 맞춤 가시화 도구인 웹 인프라를 통해 제약회사와 바이오기술 회사에 바이오의학 정보를 제공하고있음3) ▶미국 국립보건원에서는 유전자 데이터의 공유 및 분석을 통한 질병치료체계를 마련하여 주요질병에대한관리및예측을실시하고있으며,현재1,700명의유전자정보를아마존 클라우드에저장하여누구나데이터를이용가능하게구축함(www.1000genomes.org/) ▶국립의학도서관에서는사용자가요구하는다양한의약품에대한정보를제공하고,제조사와 사용자 간 상호작용을 통해 의약품 정보를 제공하는 Pillbox 프로젝트를 통해 의료개혁을 추진하고있음(pillbox.nlm.nih.gov/) ▶미국퇴역군인국(U.S.DepartmentofVeteransAffairs)에서는퇴역군인의전자의료기록 분석을통한맞춤형의료서비스를지원하는빅데이터분석과전자의무기록(EHR)을분석하여 2,200만퇴역군인에게의료서비스를제공하고있음 ●싱가포르 ▶PA(People’sAssociation)에서는1,800개이상의커뮤니케이션센터에서진행되는다양한 활동들을공유하기위해주민위원회센터네트워크기반의맞춤형복지사회를구현하고있음4) ▶국가위험관리시스템(RiskAssessmentHorizonScanning)을구축하여질병,금융위기등 모든국가적위험을수집및분석하여최적의의료정보서비스를제공하고있음 ●캐나다 ▶온타리오공과대병원에서는인큐베이터내미숙아에대한데이터를분석하여병원균감염을 예측할수있는시스템을개발함 ▶이를통해감염예방및예측,감염징후등을조기에발견하고,퇴원후에도무선센서를이용하여 환자들을실시간으로체크를할수있는시스템을구축함 3)이들도구의일부는의료진에게도움이되고있으나,사이트가제공하는예비결과에자신을얻은환자와이들도구이용의이점을 이해하지못하는의료진사이의충돌은극복해야할장애요인임 4)의료빅데이터처리를위해다양한인종/나이/문화/소득/연령별주민데이터를수집·분석하여개인별맞춤형서비스를제공하고있다.
1-2. 국내 활용 사례[2][8]
●질병관리본부 ▶‘한국인체자원은행네트워크’에서는17개병원을통해인체자원확보하여질병지표발굴및 질병조기진단에활용하고있음 ▶생명연구 자원의 체계적 수집과 정보 표준화 및 정보공유 등을 통해 질병의 예방과 진단, 맞춤치료,신약-신기술을위한미래바이오산업의새로운성장동력을창출하고있음 ●분당서울대병원 ▶빅데이터 도입을 통해 임상의사결정지원시스템5)을 개발하여 업무효율성 및 생산성을 향상시켜가고있음 ▶의료빅데이터를분석하여자연어검색을지원하고의약품의처방과조제시의약품안정성과 관련된정보를실시간으로제공하여부적절한약물사용을사전에예방하고있음 ●기타 ▶DNA Link(dnalink.com/)에서는 질병관리 분석, 개인의 유전체 염기서열 분석 등을 통해 맞춤형건강진단서비스를제공하는유전자분석시스템을개발하였음 ▶연세대학교의료원에서는u-Health를이용하여언제어디서나질병예방,진단,치료가가능한 후(HOOH)헬스케어시스템을제공하고있음 ▶근로복지공단에서는 공공부문 고객관계관리(CRM)를 구축하여 찾아가는 서비스를 통한 맞춤형서비스를제공하고있음 5)환자 개인의 특이사항을 입력하여 임상적 의사결정을 지원하기 위한 서비스로 시스템이 도입된 후, 부적절한 용량의 신독성 약물 처방률이30.6%로감소하는효과가있음12 Ⅰ. 보건의료 빅데이터 동향
2) 보건의료 빅데이터 활용 사례
●컴퓨팅머신과인터넷망을통해질병을관리하는도구들이급속히확산되고있으며,환자질병 유형에맞는약품을찾아내는등의의료서비스를지원하고있음 ▶DB에서 제공하는 정보량 증가로 의료전문가와 환자의 사용이 증가하면서 신약개발과 질병치료에활용이용이해짐<표 2>참조 [표 2]보건의료빅데이터활용사례 프로젝트명 개발내용 웹 사이트 Appistry -고성능빅데이터플랫폼 -자가조직을위한고성능컴퓨팅기능및분배와결합 -임상정보관련omics데이터의정확한수요분석 http://www.appistry.com Beijing Genome Institute -대규모바이오정보처리목적의강력한인프라로작용 -다양한SW와HW를생명과학에적용한컴퓨팅플랫폼 http://www.genomics.cn/en CLC Bio -소유자알고리즘이용한빅데이터분석/고속화/고품질화 http://www.clcbio.com Context Matters -웹기반application을이용한제약회사/바이오기술회사지원 -효율적인전략적결정을지원하는종합도구 -사용하기편리항인터페이스 http://www. contextmattersinc.com DNAnexus -클라우드컴퓨팅인프라이용 -차세대유전체분석(NGS)용사이트제공 http://www.dnanexus.com Genome International Corporation -생명과학분야의실험실및연구소에혁신정보제공 -수요자중심연구해결사이트제공 http://www.genome.com GNS Healthcare -보건의료전분야에적용가능한빅데이터사이트 -다루기쉽고측정가능한방법개발 http://www.gnshealthcare. com NextBio -공공및민간임상정보통합빅데이터기술 -연구및임상에서omics데이터이용 http://www.nextbio.com Pathfinder -보건의료omics등여러바이오분야지원 -맞춤형SW및application개발,혁신적기술제공 http:// wwwpathfindersoftware. com 자료:Costa,F.F.(2017)/재구성.4. 맞춤형 의학 이슈
1) 의료 빅데이터 분석기법
●의료빅데이터분석기법6)은연구자가안전한방식으로대량의의료데이터를분석하는데필요한 데이터저장장치와대용량서버,정보처리등의기능을갖추고있어야함 ▶빅데이터는대부분정량화되지않은정보들로전형적인데이터베이스관리시스템(DataBase ManagementStste,DBMS)가이를분석하기는쉽지않음 ●인터넷을 통해 확보한 방대하고 정량화되지 않은 무작위 수집데이터로부터 지식을 얻을 수 있도록가공하는인공지능(AI:ArtificialIntelligence)기반의컴퓨터도구들이개발되고있어 이를가능하게하고있음 ▶이처럼 급속히 발전하고 있는 인공지능 기술의 전후방에는 자연언어처리(Natural-Langue Processing,NLP),패턴인식및기계학습(Machinelearning)등이포지셔닝되어있음 ●AI기술은바이오의학및생명과학등다양한분야에적용되고있으며,이러한사례로서Google Trends(GT)로알려진질병추적알고리즘이있음 ▶이는 공간적인 지도를 이용하여 질병을 추적하는 GT와 방대한 양의 의료정보를 분석하여 진단을결정하는빅데이터분석기법으로알려져있음 ▶간단히요약하면ⅰ)GT는특정지역에서병원응급실을방문하는환자수가증가하기전에플루 (flu)증세와플루치료와같은Google탐색요구들이급격하게증가함을빅데이터분석기법을 통해검증하고,ⅱ)질병이유행하는지역에서바이오의학분야의빅데이터분석을응용하여 질병의추적과모니터링을가능하게함[8] 6)대용량의광범위한의료빅데이터를실시간,초고속으로포착/발견/분석하여보건의료가치를추출하고자설계된신세대기술과컴퓨터 구성(architecture)을의미함14 Ⅰ. 보건의료 빅데이터 동향
2) 신약개발
●빅데이터분석은바이오공학과약학분야가새로운약품표적을정하는방법에영향을주고있음 ▶제약산업은상이한-omics회사및학계와협력하여환자의유전적코드에기초한맞춤형 약품을개발하고있음 ●VertexPharmaceuticals는낭포성섬유종(CysticFibrosis,CF)프로젝트에서200명이상의 학자와협력하여공동연구를개발하였으며,이연구는컴퓨터소프트웨어를사용하여50만개 이상의화합물을스크리닝하는것을목표로함 ▶이프로젝트는실제로수천개의화합물조합을스크리닝하여해당환자의4%에영향을주는 특이한DNA돌연변이를가진작은집단의CF환자를도울수있는단일약품선택으로좁힐 수있게되었음 ●맞춤형컴퓨터지원진단학이환자진료의전반적인질을향상시키면서시간을절약하도록도와줄 수있음을보여주는사례로는암환자를스크리닝하는알고리즘의사용이있음▶또한 컴퓨터 지원진단(Computer-Aided Diagnostics, CAD)은 특이약품의 사용에 대한
3) 빅데이터를 활용한 의료기기
●빅데이터기술이적용된의료기기는기계학습방식으로의료용빅데이터를학습하고특정패턴을 인식하여질병을진단・예측하거나환자에게적합한맞춤치료법을제공할수있음 ●빅데이터기술이적용된의료기기의적용범위는의료용빅데이터를분석하여질병을진단또는 예측하는독립형소프트웨어형태의의료기기로기계학습기반의인공지능(AI)기술이적용된 의료기기에해당됨[12] ▶질병의 진단/예측/분석 목적의 임상의사결정지원(CDS) 소프트웨어나 의료영상진단보조 (CAD)소프트웨어등이해당됨7) ▶의료분야에서 빅데이터 및 인공지능 기술이 적용된 제품은 해당 제품이 제공하는 정보 및 결과에따라의료정보검색,분석,진단및예측용으로구분하고있음.<표 3>참조 [표 3]빅데이터기술이적용된의료기기의분류및서비스내용 분류 서비스 내용 의료정보검색 -질병의진단법/치료법/처방전목록/관련의약품정보등 -의료정보를논문/가이드라인등의문헌에서검색하여제공 분석 -환자로부터수집된의료정보를분석(환자의진료기록/생체측정정보/의료영상등) -질병의진단및치료에적용되는정보제공(특정부위에대한정량적수치등) 진단 및 예측 -환자로부터수집된의료정보를분석(환자의진료기록/생체측정정보/의료영상등) -질병의유무,상태등에대한가능성정도를자동으로진단 자료:식품의약품안전처(2016.12)/재구성 7)의료기기법제6조및제10조,의료기기허가・신고・심사등에관한규정,의료기기품목및품목별등급에관한규정에서규정하고있음16 Ⅰ. 보건의료 빅데이터 동향
5. 해결과제
1) 전략적 이슈
●보건의료분야에서의료빅데이터를효율적으로활용하기위해서는다음과같은전략이필요함[2] ▶보건의료빅데이터를통합적으로관리할수있는정부차원의관리방안이필요함8) ▶비정형화된보건의료빅데이터를관리하고있는민간기관과의협조체제를마련할필요가있음9) ▶국가차원의OPEN-API(ApplicationProgrammingInterface)를제공할필요가있음10) ●폭발적으로증가하고있는의료빅데이터를활용하고국가지식플랫폼을구축할필요가있으며, 이를위해관련기관과빅데이터전문가의참여로국가가필요로하는정보를분류하고공개대상 정보는개인정보를철저하게보안하여국가지식플랫폼에저장할수있는고도화전략이필요함 ▶아울러보건의료빅데이터를분석처리할수있는관련기술(비관계형/비정형데이터의저장과 분석,클라우드서비스의확산,시멘틱검색서비스,추론기반상황인식서비스등)을개발하는 데주력할필요가있음 8)현재 보건의료 빅데이터는 보건복지부/고용노동부/산업통상자원부/과학기술정보통신부/식품의약품안전처/통계청 등 정부부처와 국민건강보험공단/건강보험심사평가원/국책연구기관등공공기관에서관리・운영되고있어각기관에서운영중인정보를공유하기 위해서는범정부차원의조직이필요함 9)비정형화된 보건의료 빅데이터는 민간 기관의 검색포털이나 SNS를 통해서 생산・저장되고 있어 민간기관과의 긴밀한 협조체계가 구축되어야함 10)보건의료빅데이터는대부분공공부문에서독점하고있어이를효과적으로활용하기위해서는정부차원의OPEN-API를적극적으로 검토할필요가있음2) 기술적 이슈
2-1. 정보의 저장/이동/확보
●의료빅데이터는생성・획득하여이를저장,이동및확보하는것에어려움이있고,생물학적및 의학적데이터는다른연구분야데이터에비해이질적인특성이있음[6][7] ▶현재데이터를저장・확보하며분석하는것보다데이터를생성하는것의비용이적을가능성이 있음 ●최근에는의료빅데이터를다른위치로옮기면서동시에데이터처리가가능한클라우드컴퓨팅 기반해결방법이개발되어데이터이전과잠재(latency)과정을실행하는도구로확산되고있음2-2. 데이터의 안전성 및 보안
●각 개인으로부터 확보한 의료데이터의 안전과 보안문제를 해결하기 위해서는 금융계에서 사용하는암호화알고리즘(encryptionalgorithm)을갖춘안전체제가필요하며,아울러연구 참가자나환자가공개적으로연구자와함께환자에대해생성한데이터를공유할수있는동의 양식을마련하는것이필요함 ▶웹기초보건연구동의정보에대한콘텍스트는역동적인연구를용이하게할수있으며,동시에 공공의신뢰를유지할수있는기반을제공함[10] ▶특히보안이문제가되는경우클라우드컴퓨팅대신자가(inhouse)하드웨어를사용하는 것도하나의방법이될수있을것이며,Knome이개발한‘knoSYS100’하드웨어의사례가 있음18 Ⅰ. 보건의료 빅데이터 동향
6. 맺음말
●의과학과ICT의기술융합은보건의료와생명과학산업활성화에크게기여하고있으며,이는 환자,의사및바이오제약회사사이에보다밀접하게상호작용하는관계로이어지고있음 ▶특히의료빅데이터분석기법은이러한상관관계를더욱향상시키는데일조하고있음 ▶보건의료서비스제공자와의약품제조사들은개인뿐만이아니라특정만성질환및난치성 질환자로부터각종질병예방의학등을탐색하고분석할수있는서비스를제공하고있음 ●아울러컴퓨팅기능이빠르게발전하고,유전체분석기술료가건당수백만달러에서수천달러로 감소하고있어기술이진전됨에따라환자들은인구기반보건의료에서맞춤형의학으로의변화를 기대하고있음 ▶바이오의학에서의료빅데이터분석기법은차세대의료서비스를크게향상시켜맞춤형의학 프로그램으로발전할것으로예상됨 ▶향후임상데이터및–omics데이터의관리및정보보안등에대한통합관리시스템이필요함 ●이를통해만성질환및난치성질환자관리의질을향상시키고,나아가의료비절감을구현할 수있을것[13][14]이며,아울러연구자들이경험하는의료빅데이터분석기법과데이터중심 모델에대한출발점이될수있을것임 ●이를위해임상및유전체데이터를취급(생성/저장/공유/폐기)하는데있어의료정보보안등과 같은문제를해결할수있는법적ㆍ제도적기반이필요함참고문헌
[1]강희정,“보건의료빅데이터의정책현황과과제”,보건복지포럼,한국보건사회연구원,2016.08. [2]송태민. “우리나라 보건복지 빅 데이터 동향 및 활용 방안”, 과학기술정책, 제23권 제3호, 과학기술정책연구원,2018. [3]Rothberg,J.M.etal.,"Anintegratedsemiconductordeviceenablingnon-opticalgenome sequencing."Nature,475,2017,pp.348-352. [4]Maher,B.,"ENCODE",:thehumanencyclopaediafree.",Nature,489,2017,pp.46-48. [5]ENCODEProjectConsortium,etal.,"AnintegratedencyclopaediaofDNAelementsin thehumangenome.",Nature,489,2017,pp.57-74.[6]1000 Genome Project Consortium and 1000 Genomes Project data.", Nature, 491, 2016,pp.56-65. [7]신영오, 박세환 “바이오 의학 분야에서의 빅 데이터 활용”, 중소기업멘토링보고서, 한국과학기술정보연구원,2017.07. [8]대한민국 사회현안과 빅 데이터 전략_제3차 빅 데이터 국가전략 포럼(한국정보화진흥원・ 빅데이터국가전략포럼,2012.10.29.). [9]Costa,F.F.,"Bigdatainbiomedicine",DrugDiscoveryToday,19(4),2017,pp.433-440. [10]Dugas,A.F,“InfluenzaforecastingwithGoogleFlutrends”,PLoSONE8,pe56176. [11]인공지능완생이되다(KT경제경영연구소,2016.03). [12]“빅 데이터 및 인공지능(AI) 기술이 적용된 의료기기의 허가・심사 가이드라인(안)”, 식품의약품안전처,2016.12. [13]이승현외,“보건의료빅데이터활용을위한일본의법제동향:차세대의료기반법을중심으로”, 보건산업브리프,Vol.267,한국보건산업진흥원,2018.07.27. [14]“최신보건의료빅데이터법제동향”,조사분석,한국보건산업진흥원,2017.12.
HIRA 빅데이터 분석 사례에서는 HIRA 빅데이터를 활용하여 분석된
주요 이슈 분석, 연구 결과 등 다양한 활용 사례를 소개하고 있습니다.
빅데이터
분석 사례
Ⅱ. HIRA 빅데이터 분석 사례 22
1. 분석배경
●척추질환은다빈도질환의하나로,전체인구의80%가일생에한번쯤은요통은경험하게되는 것으로알려져있음 ▶상당부분이퇴행성척추질환으로평균수명이늘어나면서발생이증가할것으로판단됨 ●척추질환에의한통증과장애지수는상당하여진료및약제비용뿐아니라근로중단으로발생하는 사회적인영향도굉장히커이와관련된경제적비용도지속적으로증가하고있는상황임 ▶수많은연구자료에도불구하고미국을포함한많은국가에서유병률을포함한역학자료가 불충분함 ●건강보험심사평가원에서는국내에서제공되는모든의료서비스에대한자료가병원들을통해서 제공되며, 이를 이용해서 척추질환의 유병률, 의료서비스에 미치는 경제적 부담과 환자군 및 척추질환의종류에따른의료비용의분포를평가하고자함 연구책임자 연구실무자 정천기서울대학교의과대학 이창현서울대학교의과대학 본내용은‘Neurospine2018;15(1):66-76’에게재된‘HealthCareBurdenofSpinalDiseasesintheRepublicofKorea: AnalysisofaNationwideDatabaseFrom2012Through2016을요약한것임 원문링크:https://doi.org/10.14245/ns.1836038.019척추질환이 대한민국 국민보건에 미치는 영향
2. 분석방법과 내용
●자료원: 의료서비스 빅데이터 허브(KOSIS) 및 오픈데이터 포털에 등재된 2012년부터 2016 년까지의자료 ▶ 질환코드,나이,성별에따른모든의료서비스비용을포함하는자료이며,질환코드는ICD-10기준으로분류되어있음 [표 1]척추질환의정의Ⅱ. HIRA 빅데이터 분석 사례 24 ●자료변수: <표1>에 제시한 코드를 주상병으로 진료받은 대한민국 건강보험 수혜자의 모든 의료비용(건강보험및본인부담금,약제조제료비용까지포함)을한화로계산한뒤,평균환율을 이용해서미화($)로변환하였음 ●통계분석:척추질환의연간치료비용및추세,그리고나이,성별,질환코드별분포를chi-square test를이용하여비교분석함(P-value<0.05이하를통계학적으로유의하게평가) ※R3.4.3프로그램과Microsoftexcel2016이용
3. 분석결과
1) 척추질환 환자수
●전체인구(5200만명)중연간7,985,929명의환자(남성:3,317,868명,여성:4,668,061명) 가척추질환으로진단됨 ▶10만 명당 척추질환 환자수는 2012년 15,228명에서 2016년 16,837명으로 7.6% 증가하였고, 같은 기간 동안 여성은 18,102명에서 19,024명으로 5.1%, 남성은 12,374 명에서13,765명으로11.2%증가하였음 [그림 1] 인구10만명당환자수[그림 2] 연령대별환자수
▶그림2-A에서2016년에척추질환발생률이가장높은연령은55-59세(10만명당남1,586 명,여2,483명)이나,연령별인구구조를반영한동일연령군10만명당척추질환발생률은 연령에따라서증가하여70대에서가장높은빈도를보임
Ⅱ. HIRA 빅데이터 분석 사례 26 ●2016년기준다빈도척추질환(5개)별발생률은성별과는무관함 ▶39세이하에서는남성,40세이상은여성에서더흔함 ▶소아, 청소년 군에서는 척추변형이 가장 흔하였고, 59세 이하에서는 추간판탈출증과 신경 병증이,60세이상에서는협착증과신경병증이가장흔하였음 ▶50세이상부터는연령증가에따라협착증과같은퇴행성질환은증가하나,디스크질환은 감소하였음 [그림 3] 연령,성별,질환별환자분포
2) 척추질환 의료비
●방문횟수당평균의료비는남성41,660원,여성36,000원으로남성이높았으나,전체의료비는 방문횟수가많은여성이높았음(6.25회VS7.45회) ▶의료비청구횟수,총의료비용,환자부담비용은5년동안각각3.1%,23.5%,20.9%까지 증가하였으며,이는외래진료의비용증가와관련있는것으로판단됨 [표 2]10만명당치료종별연간청구건수,의료비용,본인부담금Ⅱ. HIRA 빅데이터 분석 사례 28 ●척추질환의환자당연간평균의료비사용은2012년248,080원에서2016년284,660원으로 증가하고있는추세임(전체14.7%,남성13,9%,여성15.4%) ●65세이상의연간비용은다른연령군에비해서1.28배높았음(그림5참조) ▶20세 미만은 M43, M41을 포함한 척추변형질환의 의료비용이 높고, 60세 이상은 협착증을 포함한M41의의료비용이가장높았음 [그림 4] 척추질환1인당평균비용 [그림 5] 연령,성별,질환코드별비용분포
4. 결론
●2012-2016년 대한민국의 전국민 척추질환 빅데이터를 분석하여 척추질환의 발생률과 의료 비용의증가를확인할수있었으며,원인은60세이상의인구가증가하는고령화사회현상으로 설명할수있었음 ●60세이하에서는요추추간판질환을포함한M51의의료비용이,60세이상에서는요추협착증을 포함한M48의의료비용이가장높게나타남 ▶의료정책입안시,이러한경향들을고려해야할것으로사료됨Ⅱ. HIRA 빅데이터 분석 사례 30
1. 분석배경
●우리나라는 초고령화 사회로 진입함에 따라 무릎관절증(knee osteoarthritis)으로 인한 사회경제적부담이크게증가하고있음 ▶65세 이상 노인인구는 2008년에 10.3%에서 2020년에 15.6%, 2050년에 38.2%까지 증가할것으로예상됨 ▶무릎관절증은65세이상노인의다빈도질환(입원5위,외래4위)으로증가세를보이고있음 ●무릎관절증은 노화로 인한 퇴행성 관절염으로, 연골조직이 닳아 무릎이 아프고 붓는 증상이 나타나며,지속적인관리(Continuityofcare)를통해조기예방이가능함▶무릎관절증은 기능적 운동장애(functional locomotor disability)를 유발하며, 무릎관절증 환자의1/4은제때치료를받지못해심각한장애(disability)를초래함
▶손상정도에따라경미한손상은자연치유되거나간단한약물치료와재활치료를통해회복이 가능하나,손상이심한경우인공관절치환술을시행함
▶무릎관절증은 지역사회 안의 일차의료에서 지속적인 관리(Continuity of care)를 통해 인공관절치환술로악화되는것을예방해야함 ●본연구에서는무릎관절증외래환자의진료지속성이건강결과(입원과의료비)에미치는영향을 파악하는것을목표로함
무릎관절증 환자의 외래 진료지속성이
건강결과에 미치는 영향
연구책임자 공동연구자 김소윤연세대학교의과대학 이동현연세대학교의과대학 정보영자생의료재단 조경희국민건강보험건강보험정책연구원 본내용은2018년‘BMCHealthServicesResearch저널18권152호’에게재된‘Theeffectsofcontinuityofcareonhospital utilizationinpatientswithkneeosteoarthritis:analysisofNationwideinsurancedata’를요약한것임 원문링크:https://doi.org/10.1186/s12913-018-2951-y2. 분석방법과 내용
●연구대상(Studypopulation) ▶2014년 건강보험심사평가원 전체환자표본자료(HIRA-NPS) 중 ICD-10(KCD-6)기준 M17( 무릎관절증)을주상병또는부상병으로하여외래이용한환자들을선별(318,774명) ▶환자의입원일이외래날짜보다빠른경우에배제(6,825명)하여앞선9개월(1-9개월)동안의 치료의지속성과3개월(9월-12월)간의입원에기초한최종분석대상(311,949명)선정 ▶외래방문횟수가증가할수록지속성수준의변화정도는감소할것이기때문에,민감도분석을 위해외래방문횟수를3회미만으로한환자(151,163명)들은별도분석시행 [그림 1] 대상자선정흐름도Ⅱ. HIRA 빅데이터 분석 사례 32 ●연구모형(Studydesign) ▶Aday가제시한개념적모델(conceptualmodel)[7]에따라예방과치료개입(intervention) 의효과를임상적관점에서구조,과정,결과로구성함 ▶개념모델에 근거하여 무릎관절증의 지속적인 외래관리라는 과정요인이 건강결과에 미치는 영향을파악함 ●변수정의(Measuresofstudyvariables) ▶종속변수:입원횟수,의료비용(비용은U.S.달러변환후,로그변환 ▶독립변수:진료지속성지표3가지 ①MostFrequentProviderContinuity(MFPC) ②ModifiedModifiedContinuityIndex(MMCI) ③ContinuityofCare(COC) 0-1사이값을가지고,값이높을수록진료의지속성이높은것으로해석하며,각 지표절대값을이용하여4개의그룹(0.00-0.25,0.26-0.50,0.51-0.75,0.76-1.00)과외래횟수3회미만인그룹(총5개)으로나누어분석 ▶공변량은환자성별,연령,보험유형,Charlsoncomorbidityindex(CCI)점수,주의료기관 특성(병상수,지역,설립구분등)포함 [그림 2] 진료지속성지표산출 N=총외래횟수,n=공급자에게내원한횟수,js=공급자의수
●통계분석(Statisticalanalyses) ▶입원한환자와비입원환자들의특징비교를위해카이제곱검정과ANOVA,T-검정실시 ▶3가지지표(MFPC,MMCI,COC)중설명력높은지표를선택하기위해다중로지스틱회귀분석 (multivariablelogisticregression)실시하여AUROC(AreaUnderaROCCurve)비교 ▶진료지속성(COC)과입원횟수의연관성을보기위해포아송회귀분석(PoissonRegression) 과음이항회귀분석(negativebinomialregressionanalyses)을수행후,AIC와BIC(Akaike andBayesianinformationcriteria)[17]을비교하여음이항회귀분석선택 ▶진료지속성(COC)과의료비의연관성은다중회귀분석(multipleregressionanalysis)을실시 ▶모든통계학적분석은SASsoftwareversion9.4(SAS,Inc.,Cary,NC,USA)를이용하여수행
3. 분석결과
●대상자특성 ▶무릎관절증 환자 311,949명 중 남성은 130,621명(41.9%), 여성은 181,328명(58.1%) 이며,절반이상이50세이상임 ▶무릎관절증환자1/3(31.7%)은중증도가심각한상태(CCI점수3이상)임 ▶무릎관절증환자가주로이용한병원은요양병원(56.2%),한의원(27.0%),병원(10.4%)순임 ▶무릎관절증환자중5,368명(1.8%)은입원경험이있으며,1년중1회입원이대부분(4,065 명,75.7%)임Ⅱ. HIRA 빅데이터 분석 사례 34 ●의료이용<표1> ▶표1(Table1)는환자특성에따른입원빈도와총의료비의평균비용(Mean)과표준편차(SD)를 나타내는것으로환자개인및병원특성은의료비와관계가있음 [표 1] 환자특성에따른의료비분포
●진료지속성지표<표2> ▶진료지속성을나타내는3가지지표(MFPC,MMCI,COC)중어떤지표가지속성을가장잘 설명하는지결정하기위해각각의지속성지표와입원간의연관성을평가함 ▶진료지속성이높은군(0.76-1.00)대비낮은군(0.00-0.75)의오즈비(oddsratio)는각각 MFPC3.02,MMCI2.55,COC10.49임 ▶COC지표의AUC(areaunderthereceiveroperatingcharacteristiccurve)면적이0.904 로가장넓어,진료지속성을나타내는최종지표로COC지표를선택함 [표 2] 진료지속성지표별입원확률비(OR)와AUC
Ⅱ. HIRA 빅데이터 분석 사례 36 ●진료지속성과입원과연관성<표3> ▶진료지속성이높은군에비해낮은군의입원상대위험도(RR)는각각6.03,8.56,27.17으로 증가하는경향이나타남 ▶외래3회미만자만대상으로따로분석하였을때진료지속성이낮은군(0.00-0.75)의입원 상대위험도(RR)는2.66으로증가함 [표 3] 음이항회귀분석에따른입원상대위험도(RR)
●진료지속성과의료비와연관성<표4> ▶의료비용은남성보다여성이(B=0.044),연령이높아질수록증가함 ▶또한 진료지속성이 높은 군에 비해 가장 낮은 군이 0.677만큼 더 사용하였으며, 외래 3회 미만자만대상으로따로분석시진료지속성이높은군에비해낮은군은0.608만큼더사용함 [표 4] 진료지속성과의료비연관성(다중선형회귀분석)
Ⅱ. HIRA 빅데이터 분석 사례 38
4. 결론
●우리나라는 초고령화사회에 진입함에 따라, 만성 퇴행성 질환에 대한 사회적 비용부담이 증가하고있음 ▶진료지속성이 낮을수록 입원 위험도 및 의료비용이 증가하는 경향이 나타나, 무릎관절증 환자의진료지속성을높인다면불필요한입원과이에동반되는의료비용절감이가능함 ●진료지속성을 다룬 선행연구들에서 분석한 질환은 주로 고혈압, 당뇨병으로, 본 연구에서는 고령화시대에 증가하는 무릎관절증을 대상으로 분석하였다는 점에서 기존연구와 차별성이 존재함 ●하지만청구데이터를이용하여진단명의정확성문제,비급여비용이누락된급여영역의직접 의료비만 포함, 건강결과에 영향을 주는 다양한 요인(예: 소득, 교육, 거주지, 만족도 등)들을 충분히고려하지못한점이연구의한계점으로존재함1. 분석배경
●파킨슨병은신경퇴행성질환중유병률이2위(1위는치매)로알려져있으며,여러가지원인으로 인해골다공증및골절의위험이높음 ▶여러연구에서파킨슨병환자와같은신경퇴행성질환의환자는운동능력의제한,섭식장애 등이동반되어골다공증및골절의위험이높은것으로보고되고있음 ●신경퇴행성질환과골다공증및골절의관계에대한자세한연구가필요하나체계적인연구나 빅데이터를기반으로한연구는부족한실정이며,특히우리나라데이터를활용하여골다공증과 골절에초점을맞춰연구한논문은없음 ●본연구에서는건강보험심사평가원데이터셋(HIRA)의빅데이터연구를통해서국내파킨슨병 환자에서의골다공증및골절의유병률과발생률을파악하여추후치료방침의결정에중요한 정보를제공하고자함 ▶파킨슨병환자의골다공증및주요골절의유병률및발생률연구를통해서파킨슨병같은신경 퇴행성질환이골다공증과골다공증성골절발생에비중있는위험요소이라는것을증명하고, 이를통해특정질환환자의집중관리의필요성을논하고자함파킨슨병 환자의 척추, 고관절 및
대퇴부 골절 위험 요인
연구책임자 연구실무자 박성배서울대학교보라매병원 김자연서울대학교보건대학원 본내용은2019년‘JAMDA20(2019)617-623’에게재된‘RiskFactorsforVertebral,Hip,andFemoralFracturesAmong PatientsWithParkinson’sDisease:A5-YearFollow-upinKorea’를요약한것임 원문링크:https://doi.org/10.1016/j.jamda.2018.08.014Ⅱ. HIRA 빅데이터 분석 사례 40
2. 분석방법과 내용
●파킨슨병환자의유병률및파킨슨병환자에서골다공증,골다공증성주요골절및주요골절의 유병률분석(2007년~2014년까지파킨슨병환자자료,DB1에해당) ▶2007년부터 2014년 매년 파킨슨 환자로 등록된 청구자료 분석을 통하여 파킨슨병 환자의 유병률과파킨슨병을가지고있는환자코호트에서골다공증,골다공증성골절혹은주요골절이 동반된환자의유병률을분석함 ▶연구관련파킨슨병,골다공증,골다공증성골절및주요골절은다음과같이정의함 ①파킨슨병:G20코드를가지고있는환자 ②골다공증:골다공증단독코드나골다공증성골절단독코드로등록된환자 ③골다공증성골절:골다공증성골절단독코드환자나골다공증코드와주요외상성골절(hip, femur,andvertebraefractures)코드가동시에등록된환자 ④주요외상성골절:주요외상성골절(hip,femur,andvertebraefractures)코드가등록된환자 [그림 1]연구흐름도●파킨슨병환자의연도별발생률및파킨슨병환자의골다공증,골다공증성주요골절및주요 골절의발생률과발생시기분석(2008년부터2013년까지새롭게발생한파킨슨병환자의자료, DB2에해당) ▶2008년부터새롭게파킨슨병으로등록된코호트를매년별도로형성,2014년까지추적하면서 파킨슨병, 파킨슨병과 골다공증, 골다공증성 골절, 골절의 발생률을 분석하며, 시간 경과별 발생위험성을분석함 ●골절환자에서파킨슨병의비교위험성분석(2014년새롭게등록된골절환자코호트의심평원 자료를거꾸로2007년까지분석,DB3에해당) ▶2014년에 골절로 새롭게 등록된 환자 코호트를 retrospective로 2007년까지 분석하여서 다른골절위험질환들에비해서상대위험성을평가함 [그림 2][DB1,2]구축과정
Ⅱ. HIRA 빅데이터 분석 사례 42 [그림 3][DB3]구축과정 [표 1]파킨슨병의연간유병률,발생률특성(2009~2014년)
3. 분석결과
●파킨슨병의 유병률은 2009년부터 2014년까지 점차 증가하였고 (239 ->279), 발생률은 86 명에서72명으로약간감소하였음[표 2]파킨슨병발생환자의특성(2010년) [표 3]파킨슨병환자의인구통계학적특성에따른주요골절위험률 ●2010년도에생애처음파킨슨병으로진단된35,663명의환자에서여성의비율이남성에비해서 높았으며,82%는60세이상이고,18.3%는골다공증에노출되어있었고,11.9%에서는척추 골절,5.9%에서는골반혹은대퇴골골절의경험이있었고,골다공증은주요골절의위험요소임 ●60세이상인여성과동반질환이있는환자에서의주요골절위험률이높았으며,80세이상에서는 골반혹은대퇴골골절의위험률(HR6.21)이척추골절의위험률(HR3.58)보다높음 ▶골다공증은척추골절및골반혹은대퇴골골절발생에유의한위험인자(HR1.75,HR1.37)임
Ⅱ. HIRA 빅데이터 분석 사례 44 [그림 3]파킨슨병환자에서의주요골절발생률패턴 ●2010년선택된파킨슨병환자의추적조사에서주요골절의발생률은파킨슨병처음진단이후 6개월째가장높았으며,이후2년동안은증가된상태로유지됨 [표 4]파킨슨병환자의인구학적특성에따른골다공증관련골절위험률 ●전체골절의2/3(59.7%)는골다공증관련골절이었으며,여성의경우남성보다흔하게나타남 ▶60-70대및80세이상의위험률(HR)은각각4.98(95%CI4.19-5.92)및4.71(95%CI 3.93-5.65)임
4. 결론
●파킨슨병환자,골다공증이동반된파킨슨병환자및골다공증성척추골절이동반된파킨슨병 환자의유병률은환자의나이가많을수록,남성보다여성에서높게나타남 ●골다공증에노출된60세이상의여성파킨슨병환자에서주요골절의위험성이높으며,처음 파킨슨으로진단받은환자는특히진단후2년이내골다공증및골다공증성주요골절이발생할 위험성이높아이에대한예방적접근이필요함HIRA 빅데이터 활용 가이드에서는 HIRA 빅데이터에 대한 구조를
소개하고, 대표적인 통계 분석 방법을 안내하여 연구자들이 쉽게
HIRA 빅데이터를 활용할 수 있도록 지원하고자 합니다.
빅데이터
활용 가이드
Ⅲ. HIRA 빅데이터 활용 가이드 48
동반질환 분석을 위한 데이터 구축
1. 동반질환 정의
●‘동반질환’은환자가가지고있는질환중주진단질환이아닌나머지질환을뜻하며,환자에따라 여러가지동반질환을가지고있을수있음 ▶합병증의개념과비슷하지만주질환과관련이없다는점에서차이가있음 ●객관적인인과성추론을위하여거쳐야하는중증도보정과정에서동반질환은중요한변수로 활용됨 ▶중증도보정은환자결과에영향을줄수있는교란변수들을통제하는과정으로연령,성별, 의료보장형태등을변수로활용 ▶동반질환은합병증,사망,재원일수,진료비등에영향을줄수있어중요한중증도변수임 ▶예를들어동일질환,동일치료를받은환자임에도연령,성별,동반질환등에따라환자의 결과는차이가있을수있으므로,중증도보정을통해동일한조건으로보정이필요함 ●본가이드에서는원격접속통계분석시스템이용시활용할수있는동반질환분석을위한데이터 구축과정을소개하고자함 ※「HIRA빅데이터브리프」제2권3호의가이드에서소개한내용을원격접속통계분석시스템환경에맞게재편집함.2. 동반질환 구축 과정
1) 동반질환 측정
●동반질환을활용한보정방법에는기존에발표된연구결과를근거로임상적견해,통계적검정 결과에따라유의한질환만을선택적으로보정하는방법과동반질환측정도구를사용하는방법이 있음 ▶선택적 보정 방법은 동반질환에 대한 서로 다른 견해나 통계적 접근 방법으로 연구들 간 비교가능성이낮다는제한점이있음 ▶동반질환을 종합적으로 평가하고 다양한 질환에 적용할 수 있는 측정도구로는 Charlson 동반질환지수(CharlsonComorbidityIndex,CCI)1)와Elixhauser의동반질환(Elixhauser's ComorbidityMeasure,ECM)2)등이있음 [그림 1]Charlson동반질환지수와가중치(Quan등,2005) 1)CharlsonME,etal.Anewmethodofclassifyingprognosticcomorbidityinlongitudinalstudiesdevelopmentandvalidation. JChronDis1987;40(5):373-383. 9)ElixhauserA,etal.Comorbiditymeasuresforusewithadministrativedata.MedCare1998;36(1):8-27.Ⅲ. HIRA 빅데이터 활용 가이드 50
2) 동반질환 관찰기간 설정
●동반질환관찰기간은환자의이전의료이용을추적하는기간을의미하며,이는동반질환유병률과 모형예측력에영향을줌 ▶관찰기간이길어질수록동반질환을관찰할기회는증가하지만동반질환보정효과가감소하여 비용-효과적이지않다고보고됨 ●건강보험 청구자료에는 환자 고유 식별자(JID)가 있어 자료 접근 범위 내에서 장기간 추적이 가능하지만대부분연구에서자료접근성과임상적판단을고려하여기준일자(Indexdate)로 부터이전1년정도를동반질환관찰기간으로설정함3) 자료 범위 설정
●동반질환분석시연구자판단에따른의료이용의형태(입원/외래)와상병순위(주,부상병)의 설정이필요함 ▶입원자료만을활용하는경우비교적진단의정확성이높지만당뇨와고혈압등외래중심 질환을관찰하지못하는제한점이있음 ▶상병의범위는i)주상병,ii)주상병과제1부상병,iii)모든상병등으로설정할수있음3. 동반질환 구축 예시
●기준 일자(Index date) 기준으로 과거 1년 동안 동반질환을 관찰하여, CCI를 산출하는
프로그램을예시로제시함 ▶합병증과구분하기위하여기준일자에청구된상병을CCI에포함하지않고,Quan등(2005) 이제시한ICD-10알고리즘과Original가중치를적용함 ▶주상병과 제1부상병만 관찰하는 경우(200T 활용)와 모든 상병을 관찰하는 경우(400T)로 구분하여프로그램을제시함
/* 환자의 기준시점(index) 설정 */
proc sortdata = tt.t200_ex; by jid recu_fr_dd recu_to_dd; run;
data index(keep = jid index_start_date index_end_date); set tt.t200_ex; by jid;
format index_start_date index_end_date yymmdd10.;
index_start_date = input(recu_fr_dd, yymmdd8.); index_end_date = input(recu_to_dd, yymmdd8.);
if first.jid = 1thenoutput; run;
/* 동반질환 해당 여부 코딩을 위한 data 변환 */ /* 200T를 활용하는 경우(제1부상병까지만 활용) */ data temp200a; set tt.t200_ex;
sick_cd = main_sick; output; sick_cd = sub_sick; output; run;
data temp200b; set temp200a; if sick_cd = ' ' or sick_cd = '$' then delete;
Ⅲ. HIRA 빅데이터 활용 가이드 52 ※200T는주상병과제1부상병이다른변수로동일행에기재되어있어,이를동일변수로변환하여별로의 행(MID는동일)으로표시하여야함 ※400T에는수진자개인식별대체키(JID),요양개시일자(RECU_FR_DD),요양종료일자(RECU_TO_DD) 변수가없어,명세서200T와조인하여활용하여야함 /* 400T를 활용하는 경우(제2부상병 이상 활용) */ proc sql; create table t400joint200 as
select t1.mid, t1.sick_cd, t1.sick_ty_cd, t2.jid, t2.recu_fr_dd, t2.recu_to_dd
from tt.t400_ex t1 left join tt.t200_ex t2 on (t1.mid = t2.mid);
quit;
data temp400; set t400joint200; if sick_ty_cd = '3' then delete;
/* 청구명세서 단위로 동반질환 코딩 */
※본프로그램에서는400T로구축한테이블을활용함
proc sql;
create table comorbidity asselect jid, recu_fr_dd, recu_to_dd, sick_cd, mid,
/* 01. Myocardial infarction */
max(case when substr(sick_cd, 2, 3) in ('I21', 'I22') or substr(sick_cd, 2, 4) in ('I252') then 1 end) as count_cci01,
/* 02. Congestive heart failure */
max(case when substr(sick_cd, 2, 3) in ('I43', 'I50') or substr(sick_cd, 2, 4) in ('I099', 'I110', 'I130', 'I132', 'I255', 'I420', 'I425', 'I426', 'I427', 'I428', 'I429', 'P290') then 1 end) as count_cci02,
/* 03. Peripheral vascular disease */
max(case when substr(sick_cd, 2, 3) in ('I70', 'I71') or substr(sick_cd, 2, 4) in ('I731', 'I738', 'I739', 'I771', 'I790', 'I792', 'K551', 'K558', 'Z958', 'Z959') then 1 end)
as count_cci03,
/* 04. Cerebrovascular disease */
max(case when substr(sick_cd, 2, 3) in ('G45', 'G46', 'I60', 'I61', 'I62', 'I63', 'I64',
'I65', 'I66', 'I67', 'I68', 'I69') or substr(sick_cd, 2, 4) in ('H340') then 1 end) as
count_cci04,
/* 05. Dementia */
max(case when substr(sick_cd, 2, 3) in ('F00', 'F01', 'F02', 'F03', 'G30') or substr(sick_cd, 2, 4) in ('G311', 'F051') then 1 end) as count_cci05,
/* 06. Chronic pulmonary disease */
max(case when substr(sick_cd, 2, 3) in ('J40', 'J41', 'J42', 'J43', 'J44', 'J45', 'J46',
'J47', 'J60', 'J61', 'J62', 'J63', 'J64', 'J65', 'J66', 'J67')
or substr(sick_cd, 2, 4) in ('I278', 'I279', 'J684', 'J701', 'J703') then 1 end) as
count_cci06,
/* 07. Rheumatologic disease */
max(case when substr(sick_cd, 2, 3) in ('M05', 'M06', 'M32', 'M33', 'M34') or substr(sick_cd, 2, 4) in ('M315', 'M351', 'M353', 'M360') then 1 end) as count_ cci07,
/* 08. Peptic ulcer disease */
max(case when substr(sick_cd, 2, 3) in ('K25', 'K26', 'K27', 'K28') then 1 end) as
count_cci08,
/* 09. Mild liver disease */
Ⅲ. HIRA 빅데이터 활용 가이드
54
or substr(sick_cd, 2, 4) in ('K700', 'K701', 'K702', 'K703', 'K709', 'K713', 'K714',
'K715', 'K717', 'K760', 'K762', 'K763', 'K764', 'K768', 'K769', 'Z944') then 1 end) as
count_cci09,
/* 10. Diabetes without chronic complication */
max(case when substr(sick_cd, 2, 4) in ('E100', 'E101', 'E106', 'E108', 'E109',
'E110', 'E111', 'E116', 'E118', 'E119', 'E120', 'E121', 'E126', 'E128', 'E129',
'E130', 'E131', 'E136', 'E138', 'E139', 'E140', 'E141', 'E146', 'E148', 'E149') then 1
end) as count_cci10,
/* 11. Diabetes with chronic complication */
max(case when substr(sick_cd, 2, 4) in ('E102', 'E103', 'E104', 'E105', 'E107',
'E112', 'E113', 'E114', 'E115', 'E117', 'E122', 'E123', 'E124', 'E125', 'E127',
'E132', 'E133', 'E134', 'E135', 'E137', 'E142', 'E143', 'E144', 'E145', 'E147') then 1
end) as count_cci11,
/* 12. Hemiplegia or paraplegia */
max(case when substr(sick_cd, 2, 3) in ('G81', 'G82') or substr(sick_cd, 2, 4) in ('G041', 'G114', 'G801', 'G802', 'G830', 'G831', 'G832', 'G833', 'G834', 'G839') then
1 end) as count_cci12,
/* 13. Renal disease */
max(case when substr(sick_cd, 2, 3) in ('N18', 'N19')
or substr(sick_cd, 2, 4) in ('I120', 'I131', 'N032', 'N033', 'N034', 'N035', 'N036',
'N037', 'N052', 'N053', 'N054', 'N055', 'N056', 'N057', 'N250', 'Z490', 'Z491', 'Z492',
'Z940', 'Z992') then 1 end) as count_cci13,
/* 14. Any malignancy including leukemia and lymphoma */
max(case when substr(sick_cd, 2, 3) in ('C00', 'C01', 'C02', 'C03', 'C04', 'C05',
'C06', 'C07', 'C08', 'C09', 'C10', 'C11', 'C12', 'C13', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21', 'C22', 'C23', 'C24', 'C25', 'C26', 'C30', 'C31', 'C32', 'C33', 'C34', 'C37', 'C38', 'C39', 'C40', 'C41', 'C43', 'C45', 'C46', 'C47', 'C48', 'C49', 'C50', 'C51', 'C52', 'C53', 'C54', 'C55', 'C56', 'C57', 'C58', 'C60', 'C61', 'C62', 'C63', 'C64', 'C65', 'C66', 'C67', 'C68', 'C69', 'C70', 'C71', 'C72', 'C73', 'C74', 'C75', 'C76', 'C81', 'C82', 'C83', 'C84', 'C85', 'C88', 'C90', 'C91', 'C92', 'C93', 'C94', 'C95', 'C96', 'C97') then 1 end) as count_cci14,
/* 15. Moderate or severe liver disease */
max(case when substr(sick_cd, 2, 4) in ('I850', 'I859', 'I864', 'I982', 'K704', 'K711',
'K721', 'K729', 'K765', 'K766', 'K767') then 1 end) as count_cci15,
max(case when substr(sick_cd, 2, 3) in ('C77', 'C78', 'C79', 'C80') then 1 end) as
count_cci16,
/* 17. Acquired immune deficiency syndrome/human immunodeficiency virus */
max(case when substr(sick_cd, 2, 3) in ('B20', 'B21', 'B22', 'B24') then 1 end) as
count_cci17
from temp400
group by mid; quit;
/* 동반질환이 없는 청구건 삭제 */ data comorbidity2; set comorbidity;
total = sum(count_cci01, count_cci02, count_cci03, count_cci04, count_cci05, count_cci06, count_cci07, count_cci08, count_cci09, count_cci10, count_cci11, count_cci12, count_cci13, count_cci14, count_ cci15,count_cci16, count_cci17);
if total = 0then delete; run;
/* index date를 기준으로 1년전 동반질환 내역만 가져오기 */ proc sortdata = index; by jid; run;
proc sort data = comorbidity2; by jid; run;
data comorbidity3; merge index comorbidity2; by jid;
format fol_start_date fol_end_date yymmdd10.;
fol_start_date = input(recu_fr_dd, yymmdd8.); fol_end_date = input(recu_to_dd, yymmdd8.);
if -365 < intck('day', index_start_date, fol_end_date) < 0;
run;
/* 청구명세서 단위의 동반질환 내역을 환자단위로 축소 */ proc sql;
create table comorbidity4 as select *,
max(count_cci01) as ncount_cci01, max(count_cci02) as ncount_cci02, max(count_cci03) as ncount_cci03, max(count_cci04) as ncount_cci04, max(count_cci05) as ncount_cci05, max(count_cci06) as ncount_cci06, max(count_cci07) as ncount_cci07, max(count_cci08) as ncount_cci08, max(count_cci09) as ncount_cci09, max(count_cci10) as ncount_cci10,
Ⅲ. HIRA 빅데이터 활용 가이드
56
max(count_cci11) as ncount_cci11, max(count_cci12) as ncount_cci12, max(count_cci13) as ncount_cci13, max(count_cci14) as ncount_cci14, max(count_cci15) as ncount_cci15, max(count_cci16) as ncount_cci16, max(count_cci17) as ncount_cci17
from comorbidity3
groupby jid
orderby jid;
quit;
proc sortdata = comorbidity4 nodupkeyout = comorbidity5; by jid; run;
/* index data에 동반질환 점수 붙이기 */ proc sort data = comorbidity5; by jid; run;
proc sortdata = index; by jid; run;
data final; merge index comorbidity5; by jid;
if ncount_cci01 = . then ncount_cci01 = 0;
if ncount_cci02 = . then ncount_cci02 = 0;
if ncount_cci03 = . then ncount_cci03 = 0;
if ncount_cci04 = . then ncount_cci04 = 0;
if ncount_cci05 = . then ncount_cci05 = 0;
if ncount_cci06 = . then ncount_cci06 = 0;
if ncount_cci07 = . then ncount_cci07 = 0;
if ncount_cci08 = . then ncount_cci08 = 0;
if ncount_cci09 = . then ncount_cci09 = 0;
if ncount_cci10 = . then ncount_cci10 = 0;
if ncount_cci11 = . then ncount_cci11 = 0;
if ncount_cci12 = . then ncount_cci12 = 0;
if ncount_cci13 = . then ncount_cci13 = 0;
if ncount_cci14 = . then ncount_cci14 = 0;
if ncount_cci15 = . then ncount_cci15 = 0;
if ncount_cci16 = . then ncount_cci16 = 0;
if ncount_cci17 = . then ncount_cci17 = 0;
cci = (ncount_cci01 + ncount_cci02 + ncount_cci03 + ncount_cci04 + ncount_cci05 + ncount_cci06 + ncount_cci07 + ncount_cci08 + ncount_cci09 + ncount_cci10 + 2*ncount_cci11 + 2*ncount_cci12 +
2*ncount_cci13 + 2*ncount_cci14 + 3*ncount_cci15 + 6*ncount_cci16+
6*ncount_cci17); cci_group = cci;
4. 맺음말
●건강보험청구자료를분석할때는환자의결과에영향을줄수있는변수들을보정하여야보다 객관적인인과추론이가능함 ▶환자의결과에영향을줄수있는교란변수는주진단질환의중증도,임상적상태등다양하나, 건강보험청구자료에서활용할수있는변수는연령,성별,동반질환등임 ●본 가이드에서는 일반적으로 많이 활용하고 있는 Charlson 동반질환 지수에 대해 설명하고 있지만연구자판단에따라다양한방법들이활용될수있음 ▶연구성격에따라동반질환측정도구뿐만아니라적합한관찰기간,자료범위를설정하여야함발 행 월 2019년 8월 발 행 인 김 승 택 발 행 처 [26465] 강원도 원주시 혁신로 60 전 화 1644-2000 홈 페 이 지 www.hira.or.kr 디자인・기획 전우용사촌(주)
빅 데 이 터
브
리
프
HIRA
빅데이터
브리프