제1절 연구배경 및 목적 - 기계학습(Machine Learning) 기반 사회보장 빅데이터 분석 및 예측모형 연구

1. 연구배경 및 필요성

2017년 10월 구글 딥마인드는 ‘네이처’에 인간 지식 없이 바둑 정복하 기(Mastering the game of Go without human knowledge) 제목의 논문으로 알파고제로(AlphaGo Zero)를 공개했다. 이는 데이터에 대한 학습 없이 스스로 진화하는 강화학습을 보여준 사례이다. 우리나라에서 는 2016년 3월 알파고로 인해 인공지능(Artificial Intelligence, AI)에 대한 일반 국민의 이해와 관심이 높아졌다. 2017년 초 다보스 포럼과 정 부의 지능정보사회 종합대책이 발표되고 5월 대통령 선거를 거치면서 4 차 산업혁명에 대한 정책적 관심 역시 집중되고 있는 상황이다.¹⁾

4차 산업혁명은 빅데이터(Big data)와 인공지능을 핵심으로 하는 지능 정보기술이 우리 삶의 다양한 분야에 보편적으로 활용됨으로써 새로운 가치가 창출되고 발전하는 사회를 의미한다. 4차 산업혁명(4IR: the Fourth industrial revolution)이란, 정보통신기술(ICT) 융합으로 인한 혁명의 시대를 의미하며, 2016년 1월 다보스에서 개최된 세계경제포럼 (World Economic Forum)에서 제시된 이후 전 세계적으로 크게 주목 받고 있다. 1784년 영국에서 시작된 증기기관과 기계화에 의한 1차 산업 혁명, 1870년 전기 이용과 노동력 분화를 통한 대량생산이 본격적으로

1) 연구배경 및 필요성은 최현수, 오미애(2017a)의 일부 내용을 수정·보완하여 재구성함.

서론 <<

1

시작된 2차 산업혁명에 이어 3차 산업혁명은 1969년 정보기술(IT)과 인

빠르게 커지고 있다. 데이터로부터 생성되는 부가가치 측면에서 보면, 데이터를 분석해 새롭게 얻을 수 있는 지식 또는 부가가치의 양과 차이는 크지 않을 수 있지만, 국가 또는 기업 간 기술 격차의 감소로 인해 경쟁이 치열해지는 환경 속에서 빅데이터의 활용은 큰 차이를 가져오는 중요한 요인이 될 것이다.

기계학습(Machine Learning)은 AI 의 한 분야로 데이터를 바탕으로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이며, 이미지 처리, 영상인식, 음성인식, 인터넷 검색 등의 다양한 분야의 핵심 기술로 예측(Prediction)에 탁월한 성과를 나타낸다. 빅데이터 시대의 데이터 활용가치가 증대되면서, 다양한 기관으로부터 생산되는 사회보장 빅데이터를 활용하여 미래를 예측할 수 있는 보건복지 분야 활용 사례가 복지사각지대 발굴과 위기아동발굴시스템이라고 할 수 있다. 복지사각지 대 발굴은 동절기 복지사각지대 발굴에 빅데이터를 활용하여 기계학습 기반 예측모형을 통해 고위험이 예상되는 11만4천명²⁾을 선별하여 지자 체가 전수조사를 실시하였으며, 1만7천명에게 필요한 서비스를 지원하였 다. 이는 단전정보를 가지고 지자체가 전수조사를 하여 대상자에게 서비 스를 지원하였던 경우보다 4배 정도 높은 성과를 보였다.

2) 2015년 12월 시점

〔그림 1-1〕 빅데이터를 통한 복지사각지대 발굴

자료: 보건복지부. (2017. 1. 9.). 보건복지부 2017 주요업무 계획 보도자료. p. 5.

또한, 아동의 권익 증진을 위해서 위기아동을 발굴할 수 있는 시스템 (위기아동발굴시스템)을 구축(2017.7.~)하고 있는 상황이다. 위기아동발 굴시스템은 장기결석, 건강검진 미실시 등의 빅데이터를 활용하여 학대 등 위기아동을 조기 발굴할 수 있는 시스템으로, 데이터 분석이 중요한 부분이며, 기계학습에 기반을 둔 예측모형을 적용할 수 있다.

〔그림 1-2〕 위기아동발굴시스템

자료: 보건복지부. (2017. 1. 9.). 보건복지부 2017 주요업무 계획 보도자료. p. 5.

캐나다 온타리오주에서도 대학, 연구원, 정부가 협력하여 아동 복지를 위해 행정데이터인 온타리오 아동학대 및 방임 데이터시스템(Ontario Child Abuse and Neglect Data System)을 활용하여 데이터를 분석한 사례가 있다(Fallon et al., 2017). 이를 통해 온타리오주의 아동 복지 서 비스 제공에 관한 근거 기반 정책을 설계하고 아동 재학대에 중요한 요인 을 확인할 수 있었다.

정책 관련 연구를 위한 행정데이터 중심의 사회보장 빅데이터 해외 활 용 사례는 이웃 특성과 안전성에 관한 연구(O'Brien et al., 2015), 대학 졸업자들의 소득에 관한 연구(Britton et al., 2015), 교육 실험의 장기적 인 영향에 관한 연구(Chetty et al., 2011a, b) 등이 있다.

이처럼 사회보장 빅데이터는 사회의 불평등 및 인간 행동을 연구하고 근거 기반의 사회 정책에 기여할 수 있는 강력한 자원이라고 할 수 있다.

여기에 기계학습 기법을 적극적으로 활용한다면, 앞서 언급한 복지사각 지대 발굴 및 위기아동발굴시스템처럼 기계학습에 기반을 둔 사회보장 빅데이터 분석·연구를 통해 효과적인 정책 수립 및 집행으로 공공·행정 부문에서 효율성 증대가 가능하다는 것을 보여줄 수 있을 것이다.

2. 연구 목적

본 연구에서는 현재 국내에서 생산되고 있는 사회보장 빅데이터의 특성 을 파악하고 기계학습(Machine Learning) 통계기법을 연구함으로써, 사 회보장 빅데이터 분석에 적합한 기계학습 기반 예측모형을 설계하고 근거 기반(evidence-based) 연구에 적용할 수 있는 방법론을 제시하고자 한 다. 기계학습 기반 예측모형은 데이터의 활용 가능성을 높이고 다양한 분 석을 가능하게 하여 새로운 가치를 도출하는 데 기여할 수 있다. 기계학습

은 방대한 데이터가 쌓이고 있는 사회정책 분야에 활용 가능하며 기계학습 기반 통계분석으로 예측 가능한 맞춤형 복지에 가까이 다가설 수 있게 할 것이다.

문서에서 기계학습(Machine Learning) 기반 사회보장 빅데이터 분석 및 예측모형 연구 (페이지 21-26)