• 검색 결과가 없습니다.

이 장에서는 사회보장 빅데이터와 유사한 형태의 분석 DB를 구축하여 가구의 생계급여 수급 여부에 영향을 미치는 요인들을 분석하고, 여러 예 측모형을 비교·분석하여 다양한 모형평가 기준으로 결과를 제시하였다.

예측모형을 평가하기 위하여 10fold CV를 이용하였기 때문에 예측모형 의 과적합 문제는 발생하지 않는다.

오분류율, AUC, ROC, Lift의 %Response 모두 기계학습 기법인 부 스팅의 결과가 제일 좋음을 확인할 수 있었다. 최신 기법인 딥러닝(CNN) 의 경우, 다른 분석 결과에 비해 민감도가 높은 편이다. 이는 복지 수급이 필요한 사람을 다소 과대해서 예측한 결과에서 비롯된 것으로, CNN 결 과를 바탕으로 복지 수급 여부를 결정하면 복지 수급이 필요한 사람이 복 지 수급을 받지 못할 확률은 줄어들 수 있다. 하지만 반대로 복지 수급을 받지 않아도 되는 사람까지 복지 서비스를 받을 수 있기 때문에 정부 입 장에서는 재정적 부담이 커진다. 따라서, 분석 모델의 선택은 단순한 정 확도에 의한 판단 이외에도 중요한 요인이 무엇인가에 따라 달라질 수 있 다. 딥러닝 기법은 종속변수가 범주형(binary)인 데이터인 분석DB에서 는 다른 기계학습 기법에 비해 좋은 성능을 보이지는 못했다. 분석 DB에 는 독립변수에도 범주형 변수가 많이 존재하기 때문에 이런 데이터에도 딥러닝의 예측결과가 좋을지에 대한 부분은 더 많은 연구가 필요하다.

Lift의 %Response(test 데이터의 확률값 상위 5%)로 종속변수가 범 주형일 때 적용할 수 있는 logistic 회귀모형과 부스팅 결과를 비교하면 logistic 방법을 적용했을 때보다 부스팅 방법의 성능이 2배 이상 되는 것 을 확인할 수 있다.

복지사각지대 발굴시스템 사례를 예로 들면, 모형에서 정확도에서 1%

차이가 난다는 것은 1만 명의 위기가구 대상자 리스트를 지자체에 제공 하였을 때, 정확도가 1% 높은 모형을 적용했을 경우 100명을 더 발굴할 수 있다는 것을 의미한다. 정확도 1% 의 차이는 모형 평가 부분에서는 크 게 차이가 나지 않는다고 할 수도 있지만, 행정 집행과 관련된 효율 측면 에서는 큰 차이를 보일 수 있다.

복지수급 예측 관련 분석 DB를 분석함으로써 도출할 수 있는 정책적 함의와 시사점은 다음과 같다. 복지사각지대의 예측을 통한 복지대상자 의 발굴 및 확인뿐만 아니라, 수급 여부 예측 결과를 바탕으로 실제 수급 여부와의 비교를 통하여 기초생활보장제도 개별 급여뿐만 아니라 각종 차상위 지원제도, 기초연금 및 장애인연금 등 다양한 복지제도의 수급률 에 대한 통계적 추정을 가능하게 함으로써 실증적 근거를 기반으로 제도 개선을 통한 수급률 제고방안 마련 등 정책적 측면에서 실질적으로 활용 할 수 있다는 점이다. 이처럼 사회보장 빅데이터를 기반으로 구축된 다양 한 예측모형은 정책 영역에서 중요한 의미와 함께 활용 가능하다고 할 수 있다.