A Study on the Fraud Detection of Industrial Accident Compensation Insurance

(1)

산재보험 부정수급 식별모형에 관한 연구

(A Study on the Fraud Detection of Industrial Accident Compensation

Insurance)

함승오 서울산업대학교

/

IT

정책대학원 석사과정

홍정식 서울산업대학교 산업정보시스템공학과 교수

/

Abstract Abstract Abstract Abstract 산재 발생 시 산재근로자는 근로복지공 단을 통해서 각종 급여를 받게 된다 본 논문. 은 심사 과정과 급여지급 후에 부정수급으로 판명된 산재 청구 건을 데이터 마이닝을 통해 서 분석하여 부정수급의 유형을 발견하고자 한다. 이 연구에서는 서울관내 4개 지사에서 8년 동안(2000 ~2007 )년 년 의 총61,536명의 최초요 양 신청을 한 산재근로자 자료를 대상으로 하였고 종속변수에 영향을 미치는, 8개의 독 립변수를 선택해서 사용한다. 데이터 마이닝 을 적용함에 있어서 가장 효율적인 허위․부 정 탐지 모델을 만들기 위해 의사결정나무분 석(Decision Tree)과 로지스틱 회귀분석 등의 다양한 기법을 적용 (Logistic Regresion) 하여 결과를 비교분석 하고, 오분류 비용을 적용하여 최적의 분류결정 값을 가지는 모델, 을 도출한다 분석결과 로지스틱 회귀분석이. , 산재보험 부정수급 유형 발견에 보다 효과적 인 모델로 판명되었다 또한 판별점. (Cut-Off) 로 했을 때 개변수 요양기간 업종형태 0.01 4 ( , , 의료기관 재해발생형태 가 부정수급에 탐지하, ) 는데 영향력이 큰 변수로 선정되었다. 서론 서론 서론 서론 1. 1. 1. 1. 산업재해 근로자에 대한 보상은 과실여 부와 관계없고 보험료는 전액 사업주가 부담 하는 것을 원칙으로 하며 근로자는 업무상의, 사유로 인해 부상 질병 장해 또는 사망한 경, , 우에 이를 회복시키거나 소득을 보장하고 그 가족의 생활보호를 위해 요양급여 휴업급여, , 상병보상연금 및 장애급여 간병급여 유족급, , 여를 지급받는다. 관리공단 내부에서는 부정수급에 관한 데이 터를 빈도분석 비교분석을 실시하여 관리적, , 교육적 등의 대책만을 제시할 뿐 내부적으로 관리시스템이 구축되지 않고 있다 부정수급. 에 대한 기존의 산재보험 보험사기 관리에서 는 선진국가의 보험사기 관리 일반모형을 도 출하여 우리나라에 적합한 관리방안을 제시 한 적은 있으나 관련 데이터를 수집해 통계, 적 기법을 이용하여 분석한 경우는 처음 시 도되는 연구이다. 본 연구는 기존에 수집된 데이터를 이용하 여 데이터 마이닝 기법과 로지스틱 회귀분석, 을 통해서 보험 부정수급자의 특성 및 유형 을 파악하고자 한다. 연구범위 연구범위연구범위 연구범위 2. 2.2. 2. 본 논문에서 사용된 데이터 구성은 아래 2008 한국경영과학회 추계학술대회 및 정기총회 342

(2)

표 에서 보는 바와 같이 서울관내 개 지 < 1> 4 사에서 8년 동안(2000년 ~ 2008 )년 의 총 명의 최초요양 신청을 한 산재근로자 61,536 자료를 대상으로 하였다. 표 데이터 구성 < 1> 이와 같은 데이터 구성에 대하여 의사결정 나무분석과 로지스틱 회귀분석을 적용하여 데이터 분석 및 탐지 모델을 발견하고자 한 다. 연구 방법 연구 방법 연구 방법 연구 방법 3. 3. 3. 3. 의사결정나무분석 의사결정나무분석 의사결정나무분석 의사결정나무분석 3.1 ( 3.1 ( 3.1 (

3.1 (CHAIDCHAIDCHAIDCHAID 알고리즘알고리즘알고리즘알고리즘))))

통계 Tool인 SPSS의 AnswerTree의 의 사결정나무분석 방법인 CHAID(kass, 1980) 알고리즘을 사용했다 이 알고리즘은 카이제. 곱 검정 이산형 목표변수 또는- ( ) F-검정 연속( 형 목표변수 을 이용하여 분리) (split)와 병합 을 반복하면서 다지분리 (merge) (multiway 를 수행하는 알고리즘이다 split) . 알고리즘은 첫 번째 과정에서 모든 CHAID 예측변수들에 대해서 최적분리를 탐색하고, 그 때의 카이제곱 통계량과 p-값을 계산한다. 다음으로 두 번째 과정에서는 첫 번째 과정 에서 계산된 p-값들을 비교하여 가장 작은 값을 가지는 예측변수를 선택하고 자식마 p-디를 형성한다. 로지스틱 회귀분석 로지스틱 회귀분석 로지스틱 회귀분석 로지스틱 회귀분석 3.2 3.2 3.2 3.2 로지스틱 회귀분석은 어떤 사건(event)이 발생하는지 안하는지를 직접 예측하는 것이 아니라 그 사건이 발생할 확률을 예측한다, . 분석결과 종속변수 값, 즉 확률이 판별점 보다 크면 그 사건이 일어나며 판 (Cut-Off) , 별점보다 작으면 그 사건이 일어나지 않는 것으로 예측하게 된다 따라서 종속변수 값은. 과 사이의 값을 갖는다 본 논문에서는 0 1 . 통계 Tool인 SPSS를 이용했다. 정상 부정수급 개수 명( ) 61,246 290 모형은 사후확률에 대한 추정식은 추정된 회귀계수 가 a, b1, ... .bp 일때 적절한 절단 값을 정하여 이 값을 기준으로, 개체를 분류할 때 실증분석 실증분석실증분석 실증분석 4. 4.4. 4. 의사결정 나무분석 의사결정 나무분석 의사결정 나무분석 의사결정 나무분석 4.1 4.1 4.1 4.1 의사결정나무에 의해서 생성된 이익도표 표 에서 볼 수 있는 바와 같이 이익도표 < -2> 는 노드 안에 있는 목표범주에 대하여 최고 비율과 최저 비율을 갖는 노드들에 대한 정 보를 보여 준다 전체 노드 중 부정수급에 대. 하여 가장 큰 영향력을 보이는 노드는 노드 노드 노드 그리고 노드 이다 14, 25, 19, 6 . 를 보면 전체 데이터 구성의 부정수급 Index 비율과 해당 노드의 부정수급 데이터 비율이 얼마나 차이를 보이는가를 비교하는 수치이 다 노드. 14의 경우 전체 데이터 구성의 부정 수급 비율과 비교해서 약 36배의 비율을 보 인다는 것을 알 수 있다. 또한 이익도표는 의사결정에 매우 유익한 정보를 준다 전체 노드에서 목표 노드의 몇. 를 최종 목표로 설정할 것인가를 정하게 되 % 면 분석에 필요한 노드들만 세분화하여 분석, 하고 예측 할 수 있다는 것이다 예를 들어, . , 이익도표에 누적통계량(Cumulative Statistics 을 보면 노드 의 를 ) 14, 25, 19, 6 1.1%(=682) 조사했을 때 전체 부정수급 중 11.5%(=53)를 발견할 수 있다. 2008 한국경영과학회 추계학술대회 및 정기총회 343

(3)

표 < -2> Gains Chart 로지스틱 회귀분석 결과 로지스틱 회귀분석 결과 로지스틱 회귀분석 결과 로지스틱 회귀분석 결과 4.2 4.2 4.2 4.2 아래 < -3>표 는 의사결정 나무분석 결과 에서 유의한 변수 4 (개 요양기간 업종형태 의, , 료기관 재해발생형태 를 가지고 분석한 결과, ) 이다. 표 < -3> 값이 일 때는 부당 에 분류될 가능 B + (1) 성이 크고, B값이 - 일 때는 정상(0)에 분 류될 가능성이 크다. 분류 중 의료기관에서 보면 비지정산재의료기관 은 B값이 -0.66 으로 정상 에 분류될 가능성이 크게 된다 3 (0) . 그리고 요양기간에서 보면 “50일미만”, “100 일 미만”, “150일미만 의 경우 각각” -1.234, 로 정상 에 분류될 가능성 크 -0.576, -0.251 (0) 고 요양기간이 길면 부당, (1) 분류될 가능성 이 크다는 정보를 얻을 수 있다. < -2>표 에 따르면 의료기관 대학병원( ), 업종 광업( , 제조 업 전기 가스 상수도 건설업, . . , ), 재해발생형태 간질환외 추락외 그리고 요양기간 일 미 ( , ) (50 만, 250일 미만 이 통계적으로 유의하게 나타) 났다 회귀 추정식은. ,



_{  }



 

    대학병원 일미만  분류정확도 비교 및 오분류 비용 측정 분류정확도 비교 및 오분류 비용 측정분류정확도 비교 및 오분류 비용 측정 분류정확도 비교 및 오분류 비용 측정 5. 5.5. 5. 분류정확도 비교 분류정확도 비교 분류정확도 비교 분류정확도 비교 5.1 5.1 5.1 5.1 그림 분류정확도 구성 < 1> 그림 에서 보면 예측 분류 정확도 < 1> (= ) 는 어떻게 계산되는지를 볼 수 있다 로지스. 틱 회귀분석에서 판별점(Cut-Off)을 0.1 0.01～ 까지 각각 0.01차이로 분석 후 분류정확도를 표 에서 나타냈다 그리고 모든 변수를 < -4> . 포함한 것과 주요 4개의 독립변수를 사용했 을 때를 비교분석했다. 표 < -4> 2008 한국경영과학회 추계학술대회 및 정기총회 344

(4)

분석결과 판별점(0.01)일 때 분류정확도가 독 립변수 개 변수(4 )=90.5%, 모든 변수를 포함 로 독립변수 개 변수 일 때 분류정확 =90.1% (4 ) 도가 좀 더 높았다. 오분류 비용측정 오분류 비용측정 오분류 비용측정 오분류 비용측정 5.2 5.2 5.2 5.2 앞에서 분류정확도를 측정할 때 부정수 급 판별점을 0.01로 한 것은 부정수급과 정상 의 사전확률이 같고, 1종 오류 및 2종 오류의 비용이 서로 같다는 가정을 적용한 것이나 이러한 가정이 현실과 부합하기 힘들다. 본 논문에서 1종 오류는 부정수급을 정상 건으로 오분류 함으로써 발생하는 손실은 부 정수급으로 인해 지급된 보험금(=부정수급금) 이고, 2종 오류는 정상 건을 부정수급으로 오 분류 함으로써 발생하는 손실로 정밀조사에 따른 비용 출장비 와 일일 평균임금 으로 나( ) 타내고 오분류 비용을 계산해서 아래 <표 와 같은 결과를 나타냈다 -5> . 계산식은 오류비용= 거짓(FP) × 부정수급 평균금액 + 거짓(FN) × 정밀조사 비용 출장( 비+ 하루 평균임금) 표 < -5> 결과적으로 판별점(0.01)으로 했을 때 6,659, 원으로 가장 적은 오류비용을 나타냈 609,330 다. 결론 및 추후연구 결론 및 추후연구 결론 및 추후연구 결론 및 추후연구 6. 6. 6. 6. 본 논문에서는 의사결정나무 기법의 한 알고리즘인 CHIAD 와 로지스틱 회귀분석을 이용하여 기존에 통계적 기법이 적용이 부재 했던 산재 부정수급에 대한 특성을 분석했고, 부정수급 오분류 비용을 적용하여 최적의 분, 류결정 값을 가지는 모델을 도출했다. 먼저 의사결정나무 기법을 이용한 분석 결과 가장 영향을 미치는 변수는 요양기간이었고 나머, 지는 업종형태와 의료기관 재해형태였다 그, . 리고 로지스틱 회귀분석 결과 모든 변수 보 다 의사결정나무 기법에서 주요한 변수인 독 립변수 요양기간 업종형태 의료기관 재해형( , , , 태 로 분석했을 때 분류정확도가 좀 더 높았) 다 마지막으로 분류정확도에서. , 1종 오류비 용 과 2종 오류비용을 적용했을 때 판별점 로 했을 때 가장 최적의 분류 모형을 (0.01) 나타냈다. 추후 연구과제로는 일단 전 지사로 데이터 구성을 확대하여 본 논문에서 제시한 방법을 이용하여 분석하고 가장 효과적인 모형을 추 정하고 이외 다양한 의사결정나무 알고리즘 들과 더불어 여러 가지 추론 기법들을 비교 연구하는 게 지속적으로 필요하다. 참고문헌 참고문헌참고문헌 참고문헌 7. 7.7. 7. 최종후 한상태 강현철 김은석 김미경 [ 1 ] , , , , 이성건 을 이용한 데이터 , AnswerTree 3.0 마이닝 예측 및 활용 , SPSS 아카데미 이학식 임지훈 매뉴얼 [ 2 ] , , SPSS 12.0 , 법문사, 2006 임영문 유창현 산업재해 예측모형을 [ 3 ] , , 위한 데이터 마이닝 기법 비교 , 한국산업경 영시스템학회 2006 김경원 산재보험 제도 개선방안 [ 4 ] , 연구 서강대학교 석사학위 논문, 2004 박종수 자동차보험사기 적발모형에 [ 5 ] , 관한 연구 한국리스크관리학회, 2006 2008 한국경영과학회 추계학술대회 및 정기총회 345