• 검색 결과가 없습니다.

이상치 탐색을 위한 통계적 방법과 활용 방안

N/A
N/A
Protected

Academic year: 2021

Share "이상치 탐색을 위한 통계적 방법과 활용 방안"

Copied!
91
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

이상치 탐색을 위한

통계적 방법과 활용 방안

(2)
(3)

이상치 탐색을 위한

통계적 방법과 활용 방안

연 구 진 연구책임자 선정연 부연구위원 공동연구자 김기영 주임연구원 김진휘 주임연구원

(4)
(5)

이상치는 관측치들이 주로 모여있는 곳에서 멀리 떨어져 있는 관측치로 정의된다. 이상치 탐색은 중요한 정보를 도출하거나 통계분석을 위한 사전 작업이라는 점에서 보건의료 영역에서 다빈도로 활용된다. 최근 의료기술의 발전, 고령화, 급여 확대 등으로 심사대상 명세서 물량과 청구 항목의 복잡성이 증가함에 따라 기존 건별 심사에서 요양기관을 중재·관리하는 분석 심사로 전환되고 있다. 이러한 심사 방식 변화에 따라 요양기관의 이상징후를 발견하는 이상치 탐색 방법의 중요성이 강조된다. 또한 질병분류, 적정성 평가 등 다양한 심사 평가 영역에서 이상치가 다뤄진다는 점에서 체계적인 검토·정리가 요구된다. 이 연구의 목적은 이상치 탐색 방법을 검토하여 자료의 특성과 활용 목적을 고려한 분석 방법을 제시하는 것이다. 이를 위해 이상치 탐색 방법을 검토하고, 사례 분석을 통하여 이상치 탐색 방법을 비교하였다. 이 연구는 체계적인 연구문헌 검토와 사례 분석 과정을 수행하여 자료의 특성과 목적에 따른 방법론을 제안했다는 점에서 의의가 있다. 정보기술 발달과 함께 이상치 탐색 방법도 활발하게 개발됨에 따라 자료의 특성과 목적에 맞는 방법을 지속적으로 검토해 볼 필요가 있다. 끝으로 이 보고서 내용은 연구자의 개인적 의견으로 건강보험심사평가원의 공식적인 견해가 아님을 밝혀둔다. 2019년 8월 건강보험심사평가원 원장 김 승 택 건강보험심사평가원 연구소장 허 윤 정

(6)
(7)

www.hira.or.kr i 요 약 v 제1장 서 론 1 1. 연구배경 1 2. 연구목적 2 3. 연구내용과 방법 2 제2장 이상치 탐색 개요 5 1. 이상치 탐색 관련 업무 현황 5 2. 이상치 탐색의 개념 6 3. 이상치 탐색 방법의 분류 8 제3장 이상치 탐색 방법 11 1. 단변량 자료에서 이상치 탐색 11 2. 다변량 자료에서 이상치 탐색 21 3. 시계열 자료에서 이상치 탐색 29 제4장 진료비 청구자료를 활용한 사례분석 41 1. 단변량 자료에서의 사례분석 41 2. 시계열 자료에서의 사례분석 47 제5장 결론 및 고찰 51

(8)

ii 건강보험심사평가원

표 목 차

<표 1> 이상치 탐색 업무 관련 인터뷰 대상 사업부서 2 <표 2> 이상치 탐색 관련 심사평가원 업무 현황 6 <표 3> 접근 방법에 따른 이상치 탐색 방법의 분류 8 <표 4> 통계적 이상치 탐색 방법 분류에 따른 심사평가원 업무 적용(안) 10 <표 5> 표준화 점수 산출 결과 12 <표 6> 수정된 표준화 점수 산출 결과 15 <표 7> 데이터 수와 검정값에 따른 딕슨 Q-검정의 검정통계량 16 <표 8> 그럽스 T 검정의 검정통계량과 기각역 16 <표 9> 상자그림을 활용한 이상치 탐색 결과 20 <표 10> 슈하르츠 관리도의 종류 30 <표 11> 자료의 수(n)에 따른 관리도 계수() 31 <표 12> 분기별 고가도 지표 자료의 예 31 <표 13> 이상치 제외 전·후에 따른 이상치 탐색 방법별 진료비 평균 44 <표 14> 이상치 제외 전·후에 따른 진료비 평균 차이가 통계적으로 유의하게 나타난 질병군의 비율 45 <표 15> 단변량 자료에서 이상치 탐색 방법의 특징 46 <표 16> 지표연동자율개선제 관리지표 47 <표 17> 시계열 자료의 이상치 탐색 사례분석 결과 49 <표 18> 공통적으로 이상징후가 나타난 요양기관에 대한 이상치 탐색 방법별 일치도 50 <표 19> 단변량 자료의 이상치 탐색 방법의 장점과 단점 51 <표 20> 다변량 자료의 이상치 탐색 방법의 장점과 단점 52 <표 21> 시계열 자료의 이상치 탐색 방법의 장점과 단점 53

(9)

www.hira.or.kr iii

그림 목차

[그림 1] 현행 심사와 분석심사의 Frame 변화 1 [그림 2] 연구수행 체계도 3 [그림 3] 자료의 구조에 따른 이상치 탐색 방법의 분류 8 [그림 4] 단변량 자료의 이상치 탐색 원리 9 [그림 5] 진료비 예제에 대한 산점도 13 [그림 6] 상자그림 그리는 방법 18 [그림 7] 공간 분할을 통한 이상치 탐색 원리 28 [그림 8] 이상치 탐색을 위한 iForest 방법 29 [그림 9] 슈하르츠 관리도 개요 30 [그림 10] 고가도 지표 자료의  관리도 32 [그림 11] 고가도 지표 자료의 누적합 관리도 35 [그림 12] 고가도 지표 자료의 지수가중이동평균 관리도 37 [그림 13] Hidiroglou-Berthelot 방법의 개념 37 [그림 14] 사례분석 대상 질병군 선정 42 [그림 15] 이상치 탐색 방법의 왜도에 따른 이상치 비율 43 [그림 16] 수정된 상자그림을 활용한 이상치 탐색 46 [그림 17] 건당 진료비 고가도 지표와 내원일수 지표의 산점도 49

(10)
(11)

www.hira.or.kr v

요 약

1. 서론

가. 연구배경

○ 건강보험심사평가원(이하 ́심사평가원 ́)에서는 환자분류체계 개발, 포괄수가 산정 기준 마련 등 다양한 심사평가 사업의 업무 영역에서 이상치 탐색 방법이 활용됨 ○ 특히, 진료행태가 평균적인 수준을 벗어나는 요양기관을 중재·관리하는 방향으로 심사제도가 변화됨에 따라 이상치 탐색이 중요한 부분을 차지함

나. 연구목적

○ 본 연구에서는 이상치 탐색 방법을 검토하여 자료의 특성과 활용 목적을 고려한 분석 방법을 제시하고자 하며, 구체적인 목적은 다음과 같음 - 첫째, 이상치 탐색 방법을 검토하여 장·단점을 확인하고, - 둘째, 자료 특성과 목적을 고려하여 심사평가원의 업무와 이상치 탐색 방법을 분류하고, - 셋째, 사례분석을 통해 다양한 이상치 탐색 방법을 비교함

다. 연구내용과 방법

○ 이상치 탐색 방법이 활용되고 있는 심사평가원 업무현황을 조사함 - 이상치 탐색 방법을 업무에 적용하고 있는 사업부서를 선정하여 사업부서 담당자와 인터뷰를 통해 이상치를 탐색하는 업무 내용과 이상치 정의를 위한 통계적 방법, 정의 기준 등을 조사함 ○ 문헌 검토 등을 통해 이상치 탐색의 정의, 목적, 방법 분류 등 통계적 이론과 세부적인 방법을 검토함 - 이상치 탐색과 관련된 통계적 이론 검토를 통해 방법에 대한 분류 기준을 정리하고, 심사평가원 업무와 연계하여 방법을 분류함

(12)

vi 건강보험심사평가원

- 구체적인 이상치 탐색 방법을 소개하고, 통계적 가정 사항, 장·단점 등을 정리함 ○ 검토된 이상치 탐색 방법은 사례분석을 통하여 각 방법의 특성을 비교함

- 진료비 분포가 상이한 질병군(Adjacent Disease Related Group, ADRG) 데이터를 구축하여, 이상치 탐색 방법을 적용함. 진료비 분포 변화에 따른 이상치 비율 변화를 비교함

- 대표적인 심사 지표인 건당 진료비 고가도 지표(Episode Costliness Index, ECI), 내원일수 지표(Visit Index, VI)를 산출함. 요양기관마다 분기별 지표 산출 결과를 활용하여 탐지된 이상치의 일치도를 비교함

2. 이상치 탐색 개요

가. 이상치 탐색 관련 업무 현황

○ 심사, 포괄수가, 분류체계 등 심사평가원의 다양한 업무 영역에서 이상치 탐색 방법이 적용되며, 그 목적은 안정적인 결과 산출과 이상징후 감지로 구분할 수 있음 ○ 안정적인 결과 도출을 위한 심사평가원 업무는 주로 열외군을 제외하기 위해 이상치를 탐색하며, 환자분류체계 개발, 포괄수가 산정이 있음 ○ 이상치 탐색 방법은 진료행태의 이상징후 감지를 위한 목적으로 활용되며, 고액진료비 명세서 선정, 분석심사가 있음

나. 이상치 탐색의 개념

○ 통계학 측면에서 이상치는 관측치들이 주로 모여있는 곳에서 멀리 떨어져 있는 관측치로 정의됨1)

○ 이상치 탐색은 이상치 탐색 영역에 따라 outlier detection, noise detection, anomaly detection, novelty detection, fraud detection, intrusion detection 등 다양한 용어로 사용됨

1) Kim J.(2006), Weight Reduction Method for Outlier in Survey Sampling, The Korean Communications in Statistics, 13(1): 19-27

(13)

www.hira.or.kr vii ○ 이상치는 비합리적인 이상치와 합리적인 이상치로 구분할 수 있음 - 비합리적인 이상치는 입력 오류 등 자료의 오염으로 인해 발생한 이상치를 의미함 - 합리적인 이상치는 정확하게 측정되었으나 다른 자료들과 전혀 다른 경향이나 특성을 보이는 이상치를 의미함 ○ 이상치 탐색은 분석 결과의 안정성을 위한 이상치 제거, 자료의 대체 등을 위한 목적과 중요한(새로운) 정보 탐색을 위한 목적으로 활용됨

○ 이상치 탐색을 수행하면서 가면효과(masking effect)와 수렁효과(swamping effect)를 주의해야 함

다. 이상치 탐색 방법의 분류

○ 본 연구에서는 심사평가원 업무의 적용을 고려하여 자료의 구조에 따라 이상치 탐색 방법을 분류하였으며, 이상치 탐색 시 활용하는 변수의 개수와 시계열 자료 여부에 따라 이상치 탐색 방법을 분류함 시계열 자료 여부 예 아니오 변수의 개수 1개 2개 이상 적용 방법 적용 방법 적용 방법 Shewhart 누적합(CUSUM) 지수가중이동평균 Hidiroglou-Berthelot 표준화 점수 수정된 표준화 점수 통계적 가설검정 사분위수범위 수정된 사분위수범위 준사분위수범위 회귀진단 마할라노비스 거리 LOF iForest [요약 그림 1] 자료의 구조에 다른 이상치 탐색 방법의 분류

(14)

viii 건강보험심사평가원 ○ 단변량 자료에서 이상치 탐색 방법은 이상치 영역을 정의하여 이상치를 탐색하는 방법으로, 단변량 자료의 이상치 탐색 방법은 정의된 이상치 영역의 포함 여부에 대한 판단 개념임 ○ 다변량 자료에서 이상치 탐색 방법은 연관성이 존재하는 2개 이상의 변수 정보를 활용하여 관측치 사이의 거리, 밀도 등을 기반으로 이상치를 탐색하는 방법임 ○ 시계열 자료에서 이상치 탐색 방법은 단변량 자료의 이상치 탐색 방법과 유사한 개념 이며, 본 연구에서는 감시(surveillance)를 위한 기법을 중심으로 검토함 자료의 구조 이상치 탐색 방법 적용 업무 단변량 자료 ·표준화 점수 ·수정된 표준화 점수 ·통계적 가설검정 ·사분위수범위 ·수정된 사분위수범위 ·준사분위수범위 ·환자분류체계 개발 결과 검토 ·포괄수가 산정 근거 마련 ·고액진료비 청구명세서 선정 ·부당청구 의심기관 탐색 ·관리 지표 기반의 분석 심사 다변량 자료 ·회귀진단에서 이상치 탐색 ·마할라노비스 거리 ·LOF(Local Outlier Factor) ·iForest(isolation Forest) ·고액진료비 청구명세서 선정 ·관리 지표 기반의 분석 심사 시계열 자료 ·Shewhart ·누적합(CUSUM) ·지수가중이동평균 ·Hidiroglou-Berthelot ·관리 지표 기반의 분석 심사 <요약 표 1> 통계적 이상치 탐색 방법 분류에 따른 심사평가원 업무 적용(안)

3. 이상치 탐색 방법

가. 단변량 자료에서 이상치 탐색

1) 표준화 점수(Z-score)를 활용한 이상치 탐색 ○ 표준화 점수는 평균이 이고, 표준편차가 인 정규분포를 따르는 관측치들이 자료의 중심(평균)에서 얼마나 떨어져 있는지를 나타냄

(15)

www.hira.or.kr ix ○ 일반적으로 표준화 점수의 절대값이 3보다 큰 경우에 이상치로 정의하며, 연구마다 이상치 정의를 위한 기준은 다양하게 제시함 ○ 이상치 정의를 위한 절대적인 기준은 없으며, 경험에 근거하여 이상치 판단 기준을 제시하는 것이 합리적인 대안임 2) 수정된 표준화 점수(Modified Z-score)를 활용한 이상치 탐색 ○ 표준화 점수는 평균과 표준편차에 의존하므로, 산출 과정에 이상치의 영향을 받는 문제점이 있음 ○ 수정된 표준화 점수는 표준화 점수의 문제점을 보완하기 위해 중앙값()과 중앙값 절대편차(median absolute deviation, MAD)를 이용하여 산출함

○ Iglewicz와 Hoaglin(1993)은 수정된 표준화 점수의 절대값이 3.5보다 큰 경우에 이상치로 판단하는 것을 제안함 3) 통계적 가설검정을 활용한 이상치 탐색 ○ 통계적 가설검정 방법은 최소값 혹은 최대값의 이상치 여부에 대한 검정임 ○ 이상치로 판단된 관측치를 제외해 나가면서 이상치가 존재하지 않을 때까지 반복적으로 검정을 수행하여 이상치를 정의함 가) 딕슨의 Q 검정(Dixon Q-test) ○ 딕슨의 Q 검정은 오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이 (gap)에 대한 비율을 활용하여 이상치 여부를 검정하는 방법임

○ 데이터 수가 30개 미만인 경우에 적절한 방법이며, Robert Dean, Wilfrid Dixon 등은 딕슨의 Q 검정을 하나의 자료에 대해 한 번만 수행하는 것을 제안함

○ 데이터 수와 검정값(최소값 혹은 최대값)에 따라 검정통계량이 산출되며, 검정통계량이 임계값보다 큰 경우 이상치로 결정함

(16)

x 건강보험심사평가원

나) 그럽스 T 검정(Grubbs T-Test)

○ 그럽스 T-검정은 정규분포를 만족하는 단변량 자료에서 이상치를 검정하는 방법이며, t-분포에 근거한 임계치를 산출하여 검정통계량이 임계치보다 큰 경우 이상치로 결정함 다) Generalized ESD(Extreme Studentized Deviate) Test

○ 그럽스 T-검정을 일반화한 방법으로 여러 개의 이상치에 대한 검정이 가능함 ○ 검정통계량은 내림차순으로 정렬하여 각 관측치별로 산출되며, 검정통계량이 t-분포에 근거한 임계치보다 크면 해당 관측치를 이상치로 결정함 라) 카이제곱 검정(Chi-Square Test) ○ 카이제곱 검정은 데이터가 정규분포를 만족하나, 자료의 수가 적은 경우에 이상치를 검정하는 방법임 ○ 검정통계량은 자유도가 1인 카이제곱분포를 따르는 통계량이며, 임계치보다 클 경우 한 개 이상의 이상치가 있다고 판단함 4) 사분위수범위를 활용한 이상치 탐색 ○ 상자그림은 최소값, 최대값, 제 1사분위수(), 제 2사분위수(), 제 3사분위수 ()를 활용하여 데이터를 시각적으로 요약한 그래프임 ○ 상자그림에서 표현되는 최소값과 최대값은 이상치를 제외한 데이터의 최대값과 최소값을 의미하며, 이상치는 사분위수범위를 활용하여 정의함 ○ 사분위수범위는 제 1사분위수(Q1)와 제 3사분위수(Q3)의 차이로 정의되며, 사분위수 범위의 1.5배를 초과하는 관측치는 약한 이상치, 3배를 초과하는 관측치는 강한 이 상치로 정의함 5) 수정된 사분위수범위를 활용한 이상치 탐색 ○ 수정된 사분위수범위를 활용한 이상치 정의 방법은 기존의 사분위수범위를 활용한 방법을 일반화한 것으로 비대칭 분포에서도 이상치를 합리적으로 정의할 수 있음

(17)

www.hira.or.kr xi

○ 수정된 사분위수범위는 데이터의 치우침 정도에 대한 강건한 척도인 medcouple(MC)을 활용하여 이상치를 정의함

6) 준사분위수범위(Semi interquartile rage, SIQR)을 활용한 이상치 탐색 ○ 준사분위수범위는 사분위수범위를 변형한 통계량으로 사분위범위의 절반으로 정의 되며, 비대칭 자료에서 활용할 수 있는 방법임

나. 다변량 자료에서 이상치 탐색

1) 회귀진단(Regression diagnostics)에서의 이상치 탐색 ○ 회귀진단은 추정된 회귀식에 대한 전반적인 검토를 의미하며, 회귀식 추정에 영향을 미치는 극단치를 탐색하는 것을 포함함 ○ 회귀진단을 통한 이상치 탐색 방법에는 레버리지, 표준화 잔차, 스튜던트 잔차, 스튜던트 제외 잔차, 쿡의 거리, DFFITS, DFBETAS 등이 있음 가) 레버리지(Leverage) ○ 레버리지는 독립변수의 각 관측치가 독립변수들의 평균에서 떨어진 정도를 나타내는 통계량임 ○ 레버리지는 0과 1사이의 값을 가지며, 일반적으로 레버리지 평균의 2~4배를 초과하는 관측치를 이상치로 정의함 나) 표준화 잔차(Standardized residual) ○ 잔차는 추정된 회귀모형에 의해 산출된 예측치와 실제로 측정된 관측치의 차이를 의미하며, 표준화 잔차는 잔차를 표준화한 통계량임 ○ 일반적으로 표준화 잔차의 절대값이 2나 3을 초과하는 관측치를 이상치로 정의함 다) 스튜던트 잔차(Studentized residual) ○ 스튜던트 잔차는 잔차를 잔차의 표준오차로 나눈 통계량으로, t-분포를 기반으로 이상치를 탐색함 ○ 절대적인 수치로는 스튜던트 잔차의 절대값이 3 또는 4를 초과하면 이상치로 의심함

(18)

xii 건강보험심사평가원 라) 쿡의 거리(Cook’s distance) ○ 레버리지 통계량은 독립변수들 사이의 관계를 통해 이상치를 판단하는 반면에 쿡의 거리는 추정된 회귀모형을 기반으로 이상치를 탐지함 ○ 쿡의 거리는 추정된 회귀모형에 대한 각 관측치들의 전반적인 영향력 정도를 측정 하기 위해 잔차와 레버리지를 동시에 고려한 척도임 ○ 쿡의 거리가 1보다 큰 경우, 강한 이상치로 판단함 마) DFFITS(Difference of fits) ○ 모든 관측치를 활용하여 추정된 회귀모형의 예측치와 번째 관측치를 제외한 후 추정된 회귀모형의 예측치 변화 정도를 측정하는 방법으로, DFFITS 값이 클수록 이상치일 가능성이 높음 바) DFBETAS(Difference of betas) ○ 모든 관측치를 활용하여 추정된 회귀모형의 회귀계수와 번째 관측치를 제외한 후 추정된 회귀모형의 회귀계수 변화 정도를 측정하는 방법임 ○ 데이터의 수가 적은 경우( ≤ ), DFBETAS의 절대값이 1보다 크면 이상치로 판단 하며, 데이터의 수가 큰 경우(  ), DFBEETAS의 절대값이 보다 클 경우 이상치로 판단함 2) 마할라노비스 거리(Mahalanobis Distance)를 활용한 이상치 탐색 ○ 마할라노비스 거리는 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량임 ○ 이상치 탐색을 위해 고려되는 모든 변수 간에 선형관계가 만족하고, 각 변수들이 정규 분포를 따르는 경우에 적용할 수 있는 전통적인 접근법임 ○ 마할라노비스 거리의 이상치 정의 기준은 개의 변수에 대해, 자유도가 인 카이제곱 분포의 임계값을 초과하는 경우에 이상치로 정의함

(19)

www.hira.or.kr xiii 3) LOF(Local Outlier Factor)

○ LOF는 관측치 주변의 밀도와 근접한 관측치 주변의 밀도의 상대적인 비교를 통해 이상치를 탐색하는 기법임 ○ 각 관측치에서 번째 근접이웃까지의 거리를 산출하여 해당 거리 안에 포함되는 관측치의 개수를 나눈 역수 값의 개념으로 산출됨 ○ LOF의 값이 1에 가까울수록 주변 관측치와 유사한 밀도임을 의미하며, 1보다 커질 수록 밀도가 낮음을 의미하므로 이상치로 의심할 수 있음 4) iForest(Isolation Forest) ○ iForest 기법은 관측치 사이의 거리 또는 밀도에 의존하지 않고, 데이터마이닝 기법인 의사결정나무(Decision tree)를 이용하여 이상치를 탐지하는 방법임 ○ 의사결정나무 기법으로 분류모형을 생성하여 모든 관측치를 고립시켜나가면서 분할 횟수로 이상치를 탐색함 ○ 의사결정나무 모형에서 적은 횟수로 Leaf 노드에 도달하는 관측치일수록 이상치일 가능성이 큼

다. 시계열 자료에서 이상치 탐색

○ 시계열 자료에서 이상치 탐색은 대부분 모형 적합을 통해 관측치 사이의 연관성을 제거한 잔차를 산출한 후, 잔차에 대해 방법을 적용함

○ 감시(surveilance) 목적의 통계적 공정관리(Statistical Process Control, SPC) 기법을 시계열 자료의 이상치 탐색에 활용할 수 있음

○ 감시를 위한 기법 또한 관측치 사이의 독립성을 만족해야 적용이 가능하나, 일반적 으로 독립성 가정에 대한 부분은 무시되는 경우가 많음

(20)

xiv 건강보험심사평가원

1) 슈하르츠(Shewhart) 관리도

○ 슈하르츠 관리도는 관리하고자 하는 값을 중심선(Central Line)으로 하여 관리하한 (Lower control limit)과 관리상한(Upper control limit)을 설정하고, 관측값을 시간의 경과에 따라 표시하는 통계적인 과정임

○ 슈하르츠 관리도의 관리한계는 일반적으로 (관리값)±3×(관리통계량의 표준편차)로 정의되며, 관리모수와 관리통계량에 따라 다양한 관리도가 존재함

2) 누적합(Cumulative sum, CUSUM) 관리도

○ 슈하르츠 관리도는 이해하기 쉽고 적용이 간편한 장점이 있으나, 현재의 관측값으로 이상치 여부를 판단하기 때문에 작은 변화나 변화 속도가 늦은 경우에는 비효율적임 ○ 누적합 관리도는 처음부터 현재까지 통계량의 누적합을 사용하는 방법으로, 작은 변화에 대한 효과가 누적된 통계량을 통해 추세의 작은 변화를 감지하는데 유용함 ○ 누적합 관리도의 이상치 정의는 의사결정 구간을 벗어나는 시점을 의미함 ○ 작은 변화에 대한 이상치를 탐지하기 때문에 변이가 큰 자료보다 안정적인 자료에서 적용하기 적합함(예, 고가도 지표, 내원일수 지표 등)

3) 지수가중이동평균(Exponentially Weighted Moving Average, EWMA) 방법 ○ 지수가중이동평균 방법은 최근 관측값에 큰 가중치를 주어 최근 변화를 반영하여 이 상치를 탐지하는 방법임 ○ 지수가중이동평균 값을 기반으로 관리상한과 관리하한을 정의하고, 관리한계를 벗어 나는 시점의 관측치를 이상치로 판단함 ○ 지수가중이동평균과 관리한계를 정의할 때, 많은 연구에서 상수에 대한 다양한 수치를 제안하고 있으나, 사용자의 경험적 판단에 의해 결정하는 것이 가장 합리적임 4) Hidiroglou-Berthelot 방법 ○ Hidiroglou-Berthelot(H-B) 방법은 앞에서 언급한 시계열 자료의 이상치 탐색 방법과 다르게 이전 시점과 현재 시점의 비로 이상치를 탐지하는 방법임

(21)

www.hira.or.kr xv ○ Hidiroglou-Berthelot 방법은 정기적으로 수행되는 경기동향조사에서 활용되며, 단위의 크기(size of unit)를 고려하여 이상치에 대한 허용범위를 정의하는 방법임 ○ Hidiroglou-Berthelot 방법은 비율에 대해 사분위범위를 적용하여 제안한 방법으로 통계적 가정이 필요하지 않으나, 결정해야 할 상수가 많고 산출 과정이 복잡함

4. 진료비 청구자료를 활용한 사례분석

가. 단변량 자료에서의 사례분석

1) 사례분석 방법 ○ 상이한 진료비 분포를 보이는 질병군을 선정하여 각 질병군별 청구명세서 단위의 데이터 셋을 생성함 ○ 구축된 데이터 셋별로 3장에서 제시한 이상경향탐색 방법을 적용하여 이상치로 탐지 되는 청구명세서 비율 변화를 비교함 2) 분석대상 선정 ○ 심사일 기준 2018년 진료비청구자료 입원 명세서를 대상으로 함 ○ 총 1,307개의 질병군 중 1,249개의 질병군을 사례분석 대상으로 선정함 - 질병군 코드가 결측이거나 오류인 6개 질병군을 제외함 - 오른쪽으로 꼬리가 긴 특성을 가진 진료비 분포의 특성을 고려하여 왜도가 음수인 질병군과 왜도가 30을 초과하는 52개 질병군을 제외함

(22)

xvi 건강보험심사평가원 전체 1,307개 질병군 질병군 오류 코드 제외 (6개) 진료비 왜도가 0보다 작거나 30을 초과하는 질병군 제외 (52개) 분석대상 1,249개 질병군 [요약 그림 2] 사례분석 대상 질병군 선정 3) 사례분석 결과 ○ 사례분석 과정에서 이상치 정의를 위한 상수는 공통적으로 ̍3 ̍을 적용하였으며, 각 이상치 탐색 방법의 왜도 변화에 따른 이상치 비율의 변화를 비교함 - 대부분의 이상치 탐색 방법들은 대칭분포를 가정하기 때문에 왜도가 0을 벗어나는 분포에서는 하단 이상치를 탐지하지 않음 - 표준화 점수를 활용한 방법은 왜도에 따른 이상치 비율의 변화가 크지 않음 - 수정된 표준화 점수를 활용한 방법은 분포에 따른 이상치 정의 비율 변화가 큼 - 사분위수범위와 준사분위수범위를 활용한 방법 다른 방법과 유사한 결과를 보임

(23)

www.hira.or.kr xvii [요약 그림 3] 이상치 탐색 방법의 왜도에 따른 이상치 비율 ○ 각 이상치 탐색 방법을 적용하여 정의된 이상치를 제외하여 이상치 제외 전과 평균 차이를 확인함 - 왜도가 0~1인 질병군 그룹에서 이상치 제외 전·후에 따른 진료비 평균 차이가 가장 적게 나타남 - 왜도가 1을 초과하는 질병군의 경우, 이상치가 많이 제외되는 방법일수록 이상치 제외 전의 진료비 평균과 차이가 크게 나타남

(24)

xviii 건강보험심사평가원 왜도 이상치 제외 전 진료비 평균 이상치 제외 후 진료비 평균 표준화 점수 수정된 표준화 점수 사분위수범위 준사분위수 범위 0~1미만 7,366,315원 7,289,805원 7,230,243원 7,350,942원 7,301,726원 1~2미만 8,967,899원 8,672,269원 8,190,356원 8,786,997원 8,868,488원 2~3미만 7,004,063원 6,638,336원 6,143,489원 6,619,600원 6,726,631원 3~4미만 5,548,872원 5,126,984원 4,648,340원 5,035,707원 5,122,128원 4~5미만 4,525,045원 4,198,016원 3,823,012원 4,082,323원 4,148,721원 5이상 2,450,188원 2,242,610원 1,981,116원 2,147,534원 2,180,912원 <요약 표 2> 이상치 제외 전·후에 따른 이상치 탐색 방법별 진료비 평균 ○ 각 이상치 탐색 방법을 적용하여 정의된 이상치를 제외하여 이상치 제외 전과 평균 차이에 대한 통계적 검정(t-test)를 수행함 - 왜도가 커질수록 이상치 제외 전의 진료비 평균과 차이가 나타나는 질병군의 비율이 증가함 - 사분위수범위와 준사분위수범위를 활용한 방법은 표준화 점수 방법에 비해 많은 이상치를 정의하나 평균 차이를 나타낸 질병군은 표준화 점수 방법과 유사하거나 적음 - 대칭인 분포에서, 최소한의 이상치 정의로 진료비 평균 차이를 보이는 방법인 표준화 점수를 활용하는 방법이 가장 합리적인 방법으로 판단됨 왜도 질병군 개수 이상치 탐색 방법 표준화 점수 수정된 표준화 점수 사분위수범위 준사분위수 범위 전체 1,249건 55.1% 77.5% 55.6% 48.9% 0~1미만 84건 3.6% 7.1% 1.2% 3.6% 1~2미만 229건 18.3% 47.6% 7.4% 4.4% 2~3미만 241건 43.6% 83.8% 42.7% 28.2% 3~4미만 212건 67.0% 90.6% 71.7% 61.8% 4~5미만 145건 78.6% 92.4% 83.4% 79.3% 5이상 338건 83.4% 96.2% 88.8% 84.0% <요약 표 3> 이상치 제외 전·후에 따른 진료비 평균 차이가 통계적으로 유의하게 나타난 질병군의 비율

(25)

www.hira.or.kr xix 4) 소결 ○ 표준화 점수를 활용한 이상치 탐색 방법은 많은 이상치를 정의하지 않으며, 자료의 분포에 따라 이상치 비율이 크게 변하지 않는 강건한 특성을 보임 ○ 수정된 표준화 점수를 활용한 이상치 탐색 방법은 정의되는 이상치가 많으며, 분포에 따라 이상치 비율에 대한 변이 차이가 큼 ○ 수정된 사분위수범위를 활용한 이상치 탐색 방법은 대칭이 아닌 분포에서 상·하단 이상치를 모두 탐지해야 하는 경우에 적용할 수 있음 ○ 준사분위수범위를 활용한 이상치 탐색 방법은 비대칭인 자료에서 활용할 수 있도록 제안된 방법이나, 그 특징이 명확하게 나타나지 않음 - 비대칭분포에서 상·하단 이상치를 모두 탐지해야 하는 경우에는 준사분위수범위 방법보다 수정된 사분위수범위 방법을 활용하는 것을 제안함 구분 이상치 정의 비율 강건성 대칭 자료의 적용 비대칭 자료의 적용 표준화 점수 적음 강건함 상·하단 이상치 모두 탐지 한쪽 이상치만 탐지 수정된 표준화 점수 많음 강건하지 않음 상·하단 이상치 모두 탐지 한쪽 이상치만 탐지 사분위수범위 보통 보통 상·하단 이상치 모두 탐지 한쪽 이상치만 탐지 수정된 사분위수범위 보통 보통 상·하단 이상치 모두 탐지 상·하단 이상치 모두 탐지 준사분위수범위 보통 보통 상·하단 이상치 모두 탐지 한쪽 이상치만 탐지 <요약 표 4> 단변량 자료에서 이상치 탐색 방법의 특징

나. 시계열 자료에서의 사례분석

1) 사례분석 방법 ○ 지표연동자율개선제의 지표 중 진료비 고가도 지표와 내원일수 지표를 활용하여 시계열 자료에서의 사례분석을 수행함

(26)

xx 건강보험심사평가원 ○ 지표연동자율개선제는 의료의 질과 관련된 지표를 기반으로 요양기관의 적정진료 실현과 의료 질 향상을 도모하고자 운영하는 제도임 ○ 고가도 지표는 요양기관의 환자구성을 고려한 특정 질병에 대해 전체 요양기관의 건당 진료비와 해당 요양기관의 건당진료비를 비교하는 상대지표임 ○ 내원일수 지표는 요양기관의 환자구성을 고려한 특정 질병에 대해 전체 요양기관의 내원일수와 해당 요양기관의 내원일수를 비교하는 상대지표임 ○ 고가도 지표와 내원일수 지표의 연관성을 검토 후, 두 지표에 대해 동일한 이상치 탐색 방법을 적용하여 이상치 판단에 대한 일치도를 비교하는 사례분석을 수행함 2) 분석대상 선정 ○ 지표연동자율개선제 운영을 위해 진료비 청구자료를 기반으로 산출한 요양기관의 분기별 입원 건당 고가도 지표와 내원일수 지표 자료를 활용함 ○ 2013~17년 분기별로 입원 건당 고가도 지표와 내원일수 지표가 모두 산출된 3,247기관을 대상으로 함 ○ 입원 건당 고가도 지표와 내원일수 지표의 산점도와 상관계수를 통해 두 지표 사이의 연관성을 확인함 [요약 그림 4] 건당 진료비 고가도 지표와 내원일수 지표의 산점도

(27)

www.hira.or.kr xxi 3) 사례분석 결과 ○ 시계열 자료의 이상치 탐색 방법별 사례분석 결과는 <요약 표 5>와 같이 나타남 이상치 탐색 방법 이상징후 탐지 기관 수 일치도(Kappa 계수) 슈하르츠 관리도 3,201 기관 0.39 누적합 관리도 1,205 기관 0.43 지수가중이동평균 1.699 기관 0.38 Hidiroglou-Berthelot 2,063 기관 0.35 <요약 표 5> 시계열 자료의 이상치 탐색 사례분석 결과 ○ 4가지 방법에서 공통적으로 이상징후가 나타난 533개의 요양기관 대상으로 시점에 대한 일치도를 검토한 결과는 <요약 표 6>과 같으며, 누적합 방법의 일치도가 0.52 로 가장 높음 이상치 탐색 방법 CI 이상치 여부 VI 이상치 여부 일치도 (Kappa 계수) 전체 (%) Yes (%) No (%) 슈하르츠 관리도 전체 (%) 10,660 (100) 2,695 (25.3) 7,965 (74.7) 0.44 Yes (%) 2,735 (25.7) 1,591 (14.9) 1,144 (10.7) No (%) 7,925 (74.3) 1,104 (10.4) 6,821 (64.0) 누적합 관리도 전체 (%) 10,660 (100) 5,651 (53.0) 5,009 (47.0) 0.52 Yes (%) 5,647 (53.0) 4,370 (41.0) 1,277 (12.0) No (%) 5,013 (47.0) 1,281 (12.0) 3,732 (35.0) 지수가중 이동평균 전체 (%) 10,660 (100) 6,250 (58.6) 4,410 (41.4) 0.40 Yes (%) 6,102 (57.2) 4,614 (43.3) 1,488 (13.9) No (%) 4,558 (42.8) 1,636 (15.3) 2,922 (27.5) Hidiroglou -Berthelot 전체 (%) 10,660 (100) 1,229 (11.5) 9,431 (88.5) 0.41 Yes (%) 1,188 (11.1) 581 (5.4) 607 (5.7) No (%) 9,472 (88.9) 648 (6.1) 8,824 (82.8) *CI: 진료비 고가도 지표, VI: 내원일수 지표 <요약 표 6> 공통적으로 이상징후가 나타난 요양기관의 이상치 탐색 방법별 일치도

(28)

xxii 건강보험심사평가원

5. 결론 및 고찰

○ 학술적인 이상치의 정의는 관측치들이 주로 모여있는 곳에서 멀리 떨어져 있는 관측치를 의미하며, 이상치 탐지 목적에 따라 다양한 용어와 정의가 존재함 ○ 심사평가원 업무의 이상치 탐색 목적은 안정적인 결과 산출과 이상징후 감지로 구분할 수 있음 ○ 이상치 탐색 방법을 분류하기 위한 기준은 다양하나, 본 연구에서는 자료특성에 따라 방법을 분류함 - (단변량 자료) 표준화 점수, 수정된 표준화 점수, 통계적 가설검정, 사분위수범위, 수정된 사분위수범위, 준사분위스범위 - (다변량 자료) 회귀진단, 마할라노비스 거리, LOF, iForest - (시계열 자료) 슈하르츠 관리도, 누적합 관리도, 지수가중이동평균, Hidiroglou-Berthelot 이상치 탐색 방법론 장점 단점 표준화 점수 ·일관된 비율로 이상치를 탐색할 수 있음 ·데이터가 정규분포를 따라야 함 수정된 표준화 점수 ·데이터의 수가 적은 경우에 적용 하기 적합함 ·통계적 가정사항이 요구되지 않음 통계적 가설검정 ·이상치 결정에 대한 기준이 명확함 ·한 개의 이상치에 대해 검정이 가능함 ·여러 개의 이상치를 탐색하기 위해서는 반복적으로 검정을 수행해야 함 사분위수범위 ·데이터의 수가 적은 경우에도 적용할 수 있음 ·산출과정이 쉬우며, 일반적으로 많이 사용하는 방법임 ·이상치 탐색을 위한 상수는 자료 의 분포 등을 고려하여 경험적인 판단으로 결정해야 함 수정된 사분위수범위 ·데이터 분포의 대칭 여부에 상관 없이 적용할 수 있음 ·산출 과정이 복잡함 준사분위수범위 ·산출과정이 쉬움 ·일반적으로 사용하는 방법이 아님 <요약 표 7> 단변량 자료의 이상치 탐색 방법의 장점과 단점

(29)

www.hira.or.kr xxiii 이상치 탐색 방법론 장점 단점 회귀진단 ·SAS 프로시저를 활용하여 쉽게 결과를 산출할 수 있음 ·정규성, 선형성 등 통계적 가정 사항이 많음 ·회귀모형 설정을 위한 검토 작업 으로, 이상치 탐색이 주요한 목적 은 아님 마할라노비스 거리 ·전통적인 방법으로, 관측치 사이의 거리뿐만 아니라 분포도 함께 고려함 ·통계적 가정 사항이 많으며, 산출 과정이 복잡함 LOF ·통계적 가정사항이 요구되지 않음 ·군집분석 방법으로, 이상치 탐색은 분류 결과에 대한 부수적인 정보임 iForest ·통계적 가정사항이 요구되지 않 으며, 비교적 이해하기 쉬움 ·산출과정이 복잡하나, R의 패키 지를 활용하면 쉽게 적용할 수 있음 <요약 표 8> 다변량 자료의 이상치 탐색 방법의 장점과 단점 이상치 탐색 방법론 장점 단점 슈하르츠 관리도 ·이해하기 쉽고, 산출 과정이 간편함 ·이론적으로는 독립적인 자료에 적용이 가능하여, 시계열 모형을 통해 계절성 등을 제거해야 함 누적합 관리도 ·미세한 변화에 대한 감지가 가능함 지수가중이동평균 ·계절성을 보이고, 변이가 큰 시계열 자료에 적용할 수 있음 ·상대지표 등 변이가 안정적인 지표에는 적용이 부적합함 Hidiroglou-Berthelot ·통계적 가정이 필요하지 않음 ·결정해야 할 상수가 많고 산출 과정이 복잡함 <요약 표 9> 시계열 자료의 이상치 탐색 방법의 장점과 단점 ○ 본 연구에서 검토한 이상치 탐색 방법의 타당성을 명확하게 비교하기 위해서는 이상치가 정의된 자료가 필요함 ○ 건강보험 진료비청구자료에는 이상치가 정의된 정보가 없어, 이상치 탐색의 정확성 비교를 위한 한계점이 존재하였음 ○ 본 연구에서는 전통적인 이상치 탐색 방법을 중심으로 검토하였으나, 분석심사 적용을 위해서는 최신 기법에 대한 방법 검토에 대한 추가적인 연구가 요구됨

(30)
(31)

www.hira.or.kr 1

제1장 서 론

1. 연구배경

○ 건강보험심사평가원(이하 ́심사평가원 ́)에서는 환자분류체계 개발, 포괄수가 산정 기준 마련 등 다양한 심사평가 사업의 업무 영역에서 이상치 탐색 방법이 활용됨 ○ 특히, 진료행태가 평균적인 수준을 벗어나는 요양기관을 중재·관리하는 방향으로 심사제도가 변화됨에 따라 이상치 탐색이 중요한 부분을 차지함 - 현행 심사방식은 명세서 건 단위의 심사로 필수기재 항목 등에 대한 전산심사를 거쳐 심사직원이 직접 심사하는 전문심사로 진행됨 - 의료기술의 발전, 고령화, 급여 확대 등으로 심사대상 명세서 물량과 청구 항목의 복잡성이 증가함에 따라 현행 심사방식에 대한 개선이 요구됨 - 개선된 심사방식인 분석심사는 분석지표 기반의 심사로 일반적인 요양기관과 다른 진료 형태를 보이는 요양기관에 대해 심층심사를 진행하는 방식임 [그림 1] 현행 심사와 분석심사의 Frame 변화 *심사평가체계 개편 설명회 자료. 건강보험심사평가원(내부자료). 2019.

(32)

2 건강보험심사평가원

2. 연구목적

○ 본 연구에서는 이상치 탐색 방법을 검토하여 자료의 특성과 활용 목적을 고려한 분석 방법을 제시하고자 하며, 구체적인 목적은 다음과 같음 - 첫째, 이상치 탐색 방법을 검토하여 장·단점을 확인하고, - 둘째, 자료 특성과 목적을 고려하여 심사평가원의 업무와 이상치 탐색 방법을 분류하고, - 셋째, 사례분석을 통해 다양한 이상치 탐색 방법을 비교함

3. 연구내용과 방법

○ 이상치 탐색 방법이 활용되고 있는 심사평가원 업무현황을 조사함 - 이상치 탐색 방법을 업무에 적용하고 있는 사업부서를 선정함 - 사업부서 담당자와 인터뷰를 통해 이상치를 탐색하는 업무 내용과 이상치 정의를 위한 통계적 방법, 정의 기준 등을 조사함 영역 부서 업무 심사 심사실 심사운영부 전문심사 대상 명세서 선정 심사기획실 가치심사개발부 이상경향 감지 및 분석심사 대상 선정 평가 평가운영실 요양기관 적정성 평가 평가관리실 수가 포괄수가실 포괄수가기준부 7개 질병군 포괄수가 산정 기준 마련 포괄수가실 포괄수가개발부 신포괄수가 산정 기준 마련 환자분류체계 혁신연구센터 분류체계개발부 환자분류체계 개발 결과 검토 사후관리 급여조사실 조사기획부 부당청구 의심기관 탐지 <표 1> 이상치 탐색 업무 관련 인터뷰 대상 사업부서

(33)

www.hira.or.kr 3 ○ 문헌 검토 등을 통해 이상치 탐색의 정의, 목적, 분류 방법 등 통계적 이론과 세부적인 방법을 검토함 - 이상치 탐색과 관련된 통계적 이론 검토를 통해 방법에 대한 분류 기준을 정리하고, 심사평가원 업무와 연계하여 방법을 분류함 - 구체적인 이상치 탐색 방법을 소개하고, 통계적 가정 사항, 장·단점 등을 정리함 ○ 검토된 이상치 탐색 방법은 사례분석을 통하여 각 방법의 특성을 비교함

- 진료비 분포가 상이한 질병군(Adjacent Disease Related Group, ADRG) 데이터를 구축하여, 이상치 탐색 방법을 적용함. 진료비 분포 변화에 따른 이상치 비율 변화를 비교함

- 대표적인 심사 지표인 건당 진료비 고가도 지표(Episode Costliness Index, ECI), 내원일수 지표(Visit Index, VI)를 산출함. 요양기관마다 분기별 지표 산출 결과를 활용하여 탐지된 이상치의 일치도를 비교함 심사평가원 업무 현황조사 ·사업부서 담당자와 인터뷰를 통한 이상치 탐색과 관련된 심사평가원 업무 현황 조사 이상치 탐색 관련 통계적 개념 정립 ·이상치 탐색의 통계적 정의, 목적, 분류 방법 등 검토 이상치 탐색 방법 분류와 심사평가원 업무의 적합 ·이상치 탐색 방법 분류 기준 제시 ·통계적 분류 기준에 따른 심사평가원 업무 적용(안) 제시 이상치 탐색 방법 검토 ·구체적인 이상치 탐색 방법 검토 사례분석을 통한 이상치 탐색 방법 비교 ·진료비 청구자료를 활용한 사례분석 수행 [그림 2] 연구수행 체계도

(34)
(35)

www.hira.or.kr 5

제2장 이상치 탐색 개요

1. 이상치 탐색 관련 업무 현황

○ 심사, 포괄수가, 분류체계 등 심사평가원의 다양한 업무 영역에서 이상치 탐색 방법이 적용되며, 그 목적은 안정적인 결과 산출과 이상징후 감지로 구분할 수 있음 ○ 안정적인 결과 도출을 위한 업무는 주로 열외군을 제외하기 위해 이상치를 탐색함 - 포괄수가를 산정하는 과정에서 질환군별로 안정적인 평균 진료비를 산출하기 위해 이상치를 탐색하여 제외함 - 환자분류체계의 타당성을 검증하는 과정에서 극단치의 영향으로 환자분류체계 개발 결과가 잘못 도출될 가능성이 있어, 이를 예방하기 위한 목적으로 활용함 ○ 이상치 탐색 방법은 진료행태의 이상징후 감지를 위한 목적으로 활용됨 - 과잉 청구 등의 가능성이 보이는 고액진료비 명세서를 선정하여 심층적인 진료비 심사를 진행하기 위한 목적으로 이상치를 탐색함 - 요양기관 단위의 의료 질과 비용 관리 지표를 산출하여, 다른 진료행태를 보이는 요양기관을 선정하기 위한 목적으로 이상치를 탐색함

(36)

6 건강보험심사평가원 이상치 탐색 목적 사업부서 이상치 탐색 내용 이상치 탐색 방법 안정적인 결과 산출 포괄수가 기준부 7개 질병군 포괄수가 산정 근거 마련 ·요양기관 종별 동일 질병군의 의료행위 단위 수가 산출 ·(Q1-2.5×IQR, Q3+2.5×IQR) 범주를 초과하는 수가를 이상치로 정의 포괄수가 개발부 신포괄수가 산정 근거 마련 ·질병군(AADRG)별 에피소드 단위의 총 진료비 산출 ·(Q1-2.5×IQR, Q3+2.5×IQR) 범주를 초과하는 수가를 이상치로 정의 분류체계 개발부 환자분류체계 개발 결과 검토 ·질병군(ADRG)별 에피소드(입원), 청구 명세서(외래) 단위의 총 진료비 산출 ·(Q1-3×IQR, Q3+3×IQR) 범주를 초과 하는 총 진료비를 이상치로 정의 이상징후 감지 가치심사 개발부 지표 기반의 분석심사 ·질환 주제별 요양기관 단위의 분석심사 지표 산출 ·분석심사 지표별 전문가 합의에 의한 이상치 정의 심사운영부 고액진료비 청구명세서 선정 ·입원/외래별 청구명세서 단위의 총진료비 산출 ·청구명세서당 진료비가 절대적인 금액을 초과하는 명세서를 이상치로 정의 조사기획부 부당청구 의심기관 탐색 ·요양기관별 청구명세서 건, 진료비 등 청구현황 산출 ·부당청구 룰(rule)별 시그마 규칙을 활용한 이상치 정의 *Q1: 제 1사분위수, Q3: 제 3사분위수, IQR: 사분위범위(=Q3-Q1) <표 2> 이상치 탐색 관련 심사평가원 업무 현황

2. 이상치 탐색의 개념

○ 데이터마이닝, 인공지능, 기계학습 등 고급 분석기법을 활용한 이상치 탐색 방법들이 개발되면서 이상치 탐색 영역과 목적에 따라 용어와 정의가 다양해짐

- outlier detection, noise detection, anomaly detection, novelty detection, fraud detection, intrusion detection 등 이상치 탐색과 관련된 다양한 용어가 사용됨

(37)

www.hira.or.kr 7 ○ 통계학 측면에서 이상치는 관측치들이 주로 모여있는 곳에서 멀리 떨어져 있는 관측치로 정의됨1) - 이상치는 다른 방법에 의해 생성되어졌다는 의심을 불러일으킬 정도로 나머지 관측 치들과 다른 관측치임(Hawkins, 1980) - 이상치는 데이터 셋의 나머지 관측치들과 모순되게 나타나는 관측치로 정의됨 (Johnson, 1992) - 이상치는 다른 관측치들과 일관성이 없는 것으로 나타나는 관측치나 관측치의 집합 으로 정의됨(Barnett and Lewis, 1994)

○ 이상치 탐색은 일관성 있는 분석 결과를 산출하기 위해서 우선적으로 수행되어야 하며, 이상치가 포함된 자료의 분석은 모형의 오류, 편향된 결과를 도출할 수 있음 ○ 이상치는 일반적으로 오류(error)나 잡음(noise)으로 고려되나, 자료에 대한 중요한 정보를 제공할 수도 있음 ○ 이상치는 비합리적인 이상치와 합리적인 이상치로 구분할 수 있음 - 비합리적인 이상치는 입력 오류 등 자료의 오염으로 인해 발생한 이상치를 의미함 - 합리적인 이상치는 정확하게 측정되었으나 다른 자료들과 전혀 다른 경향이나 특성을 보이는 이상치를 의미함 ○ 이상치 탐색은 분석 결과의 안정성을 위한 이상치 제거, 자료의 대체 등을 위한 목적과 중요한(새로운) 정보 탐색을 위한 목적으로 활용됨

○ 이상치 탐색을 수행하면서 가면효과(masking effect)와 수렁효과(swamping effect)를 주의해야 함 - 가면효과는 일부 극단치에 의해 이상치로 분류되야 할 측정값들이 정상범주의 값으로 나타나는 현상이며, 수렁효과는 정상 범주의 측정값이 이상치와 근접하여 같은 이상치로 나타나는 현상임 - 가면효과와 수렁효과를 해결하기 위해서는 강건한 중심값(centroid)의 측정과 이상치에 영향을 덜 받는 공분산 행렬을 사용하는 것임

1) Kim J.(2006), Weight Reduction Method for Outlier in Survey Sampling, The Korean Communications in Statistics, 13(1): 19-27

(38)

8 건강보험심사평가원

3. 이상치 탐색 방법의 분류

○ 이상치 탐색 방법은 <표 3>과 같이 자료의 크기, 차원 등에 따라 분류할 수 있음 접근 방법 이상치 탐색 방법 분류 자료의 크기 소표본, 대표본 자료의 차원 일차원, 이차원, 다차원 변수의 개수 일변량, 이변량, 다변량 목표 변수의 유무 지도 방법, 비지도 방법 통계적 방법 모수적 방법, 비모수적 방법, 준모수적 방법 <표 3> 접근 방법에 따른 이상치 탐색 방법의 분류 ○ 본 연구에서는 심사평가원 업무의 적용을 고려하여 진료의 구조에 따라 이상치 탐색 방법을 분류함 - 이상치 탐색 시 활용하는 변수의 개수와 시계열 자료 여부에 따라 이상치 탐색 방법을 분류함 시계열 자료 여부 예 아니오 변수의 개수 1개 2개 이상 적용 방법 적용 방법 적용 방법 Shewhart 누적합(CUSUM) 지수가중이동평균 Hidiroglou-Berthelot 표준화 점수 수정된 표준화 점수 통계적 가설검정 사분위수범위 수정된 사분위수범위 준사분위수범위 회귀진단 마할라노비스 거리 LOF iForest [그림 3] 자료의 구조에 따른 이상치 탐색 방법의 분류

(39)

www.hira.or.kr 9 ○ 단변량 자료에서 이상치 탐색 방법은 이상치 영역을 정의하여 이상치를 탐색하는 방법임 - 단변량 자료의 이상치 탐색 방법은 오염된 관측치를 탐색하는 방법이 아닌 정의된 이상치 영역의 포함 여부에 대한 판단 개념임 [그림 4] 단변량 자료의 이상치 탐색 원리 ○ 다변량 자료에서 이상치 탐색 방법은 연관성이 존재하는 2개 이상의 변수 정보를 활용하여 관측치 사이의 거리, 밀도 등을 기반으로 이상치를 탐색하는 방법임 ○ 시계열 자료에서 이상치 탐색 방법은 단변량 자료의 이상치 탐색 방법과 유사한 개념 이며, 본 연구에서는 감시(surveillance)를 위한 기법을 중심으로 검토함 ○ 이상치 탐색 방법 분류에 따라 <표 2>에 제시한 업무에서 적용할 수 있는 방법을 <표 4>에 제시함 - 환자분류체계 개발과 포괄수가 산정은 진료비에 대한 하나의 변수 정보에 기반하여 이상치를 탐색·제거하는 과정을 거치므로 단변량 자료의 이상치 탐색 방법을 적용할 수 있음 - 고액진료비 청구명세서는 단변량과 다변량 자료의 이상치 탐색 방법을 모두 적용 할 수 있음 ·고액진료비 청구명세서 선정은 진료비 정보에 대해 이상치를 탐색한다는 측면에서 단변량 자료의 이상치 탐색 방법을 적용할 수 있음

(40)

10 건강보험심사평가원 ·그러나 명세서서식(입원/외래), 진료과목, 질환 등 진료비에 영향을 주는 다양한 정보를 고려하여 고액진료비를 선정한다는 측면에서는 다변량 자료의 이상치 탐색 방법을 적용할 수 있음 - 부당청구 의심기관 선정은 부당청구가 의심되는 청구 유형 등을 정의하여 규칙 (rule)을 생성하고, 규칙마다 점수를 부여하여 부당청구 의심기관을 선정하는 과정으로 진행됨 ·부당청구 패턴에 대한 규칙을 정의하는 부분은 통계적 방법이 아닌 경험에 근거하여 판단하는 부분으로 본 연구에서 검토한 방법을 적용할 수 없음 ·그러나 규칙에 의해 부여된 점수로 부당청구 의심기관을 탐지하는 부분은 단변량 이상치 탐색 방법을 적용할 수 있음 - 분석 심사는 단변량 자료, 다변량 자료, 시계열 자료에서의 이상치 탐색 방법을 모두 적용할 수 있음 ·개발한 지표를 기반으로 다각적 측면에서 요양기관의 이상징후를 탐색하기 위해서는 지표별 이상치, 지표들에 대한 종합적인 패턴, 시계열 추이 등을 모두 고려해야 함 자료의 구조 이상치 탐색 방법 적용 업무 단변량 자료 ·표준화 점수 ·수정된 표준화 점수 ·통계적 가설검정 ·사분위수범위 ·수정된 사분위수범위 ·준사분위수범위 ·환자분류체계 개발 결과 검토 ·포괄수가 산정 근거 마련 ·고액진료비 청구명세서 선정 ·부당청구 의심기관 탐색 ·관리 지표 기반의 분석 심사 다변량 자료 ·회귀진단에서 이상치 탐색 ·마할라노비스 거리 ·LOF(Local Outlier Factor) ·iForest(isolation Forest) ·고액진료비 청구명세서 선정 ·관리 지표 기반의 분석 심사 시계열 자료 ·Shewhart ·누적합(CUSUM) ·지수가중이동평균 ·Hidiroglou-Berthelot ·관리 지표 기반의 분석 심사 <표 4> 통계적 이상치 탐색 방법 분류에 따른 심사평가원 업무 적용(안)

(41)

www.hira.or.kr 11

제3장 이상치 탐색 방법

1. 단변량 자료에서 이상치 탐색

가. 표준화 점수(Z-score)를 활용한 이상치 탐색

○ 표준화 점수는 평균이 이고, 표준편차가 인 정규분포를 따르는 관측치들이 자료의 중심(평균)에서 얼마나 떨어져 있는지를 나타냄 - 표준화 점수 산출을 위해서는 관측치들이 정규분포를 따른다는 가정을 만족해야 함 - 정규분포를 만족하지 않는 경우, 로그변환, Box-Cox 변환2)을 적용하여 정규분포를 하도록 관측치를 변환하는 방법이 있음 ○ n개의 각 관측치에 대한 표준화 점수는 다음과 같이 정의함    ,   ⋯ ○ 일반적으로 표준화 점수의 절대값이 3보다 큰 경우에 이상치로 정의하며, 연구마다 이상치 정의를 위한 기준은 다양하게 제시함

- 미국 국립표준기술연구소(National Institute of Standards and Technology)에서는 표준화 점수의 절대값이 3.5를 초과하는 경우 이상치로 정의함 - Aggarwal(2013)은 표준화 점수의 절대값이 3을 초과하는 경우 이상치로 정의함 ○ 이상치 정의를 위한 절대적인 기준은 없으며, 경험에 근거하여 이상치 판단 기준을 제시하는 것이 합리적인 대안임 2) Box-Cox 변환: 정규분포가 아닌 자료를 정규분포를 따르도록 변환하는 방법이며, 아래와 같은 방법으로 변환함. 는 데이터 분포에 따라 결정되며,  값을 3, 2, 1, 0, -1, -1/2, -1/3으로 변경하면서 데이터가 정규분포를 만족 하도록 하는 값으로 결정함           if  ≠ ln  if   

(42)

12 건강보험심사평가원 ○ 진료비 자료에 대해 표준화 점수를 활용하여 이상치를 탐색하고자 하는 경우 아래와 같은 SAS 프로시저를 활용할 수 있음 /*진료비 자료(예시), AMT=진료비*/ data AMT_DATA; input AMT @@; datalines; 13580 13580 13580 17320 26020 27160 27160 28060 28060 28060 40740 40740 40740 42090 52040 54320 67900 67900 78030 81480 84180 102680 116600 128350 744080 851230 ; run; /*표준화 점수 산출*/

proc standard data=AMT_DATA out=Z_SCORE mean=0 std=1; var AMT; run; ○ 위 예제에 대한 표준화 점수 산출 결과는 <표 5>와 같으며 표준화 점수가 3보다 큰 25, 26번째 관측치가 이상치로 정의됨 연번 진료비 표준화 점수 연번 진료비 표준화 점수 1 13,580원 -0.46 14 42,090원 -0.32 2 13,580원 -0.46 15 52,040원 -0.27 3 13,580원 -0.46 16 54,320원 -0.26 4 17,320원 -0.44 17 67,900원 -0.20 5 26,020원 -0.40 18 67,900원 -0.20 6 27,160원 -0.39 19 78,030원 -0.15 7 27,160원 -0.39 20 81,480원 -0.13 8 28,060원 -0.39 21 84,180원 -0.12 9 28,060원 -0.39 22 102,680원 -0.03 10 28,060원 -0.39 23 116,600원 0.04 11 40,740원 -0.33 24 128,350원 0.10 12 40,740원 -0.33 25 744,080원 3.09 13 40,740원 -0.33 26 851,230원 3.61 <표 5> 표준화 점수 산출 결과

(43)

www.hira.or.kr 13 [그림 5] 진료비 예제에 대한 산점도

나. 수정된 표준화 점수(Modified Z-score)를 활용한 이상치 탐색

○ 표준화 점수는 평균과 표준편차에 의존하므로, 산출 과정에 이상치의 영향을 받는 문제점이 있음 ○ 수정된 표준화 점수는 표준화 점수의 문제점을 보완하기 위해 중앙값()과 중앙값 절대편차(median absolute deviation, MAD)를 이용하여 산출함

- 중앙값은 관측치를 오름차순으로 정렬하였을 때, 중앙에 위치한 관측치를 의미하며 관측치의 수가 짝수인 경우에는 중앙에 위치한 두 값의 평균으로 산출됨 - 중앙값의 절대편차는 관측치와 중앙값 차이의 절대값에 대한 중앙값으로 아래 수식과 같이 정의됨    , 는 중앙값 ○ n개의 각 관측치에 대한 수정된 표준화 점수는 다음과 같이 정의됨     ,   ⋯ ○ 수정된 표준화 점수를 활용한 이상치 탐색 방법은 관측치의 수가 적은 경우에 적합한 방법으로 알려져 있음

(44)

14 건강보험심사평가원 ○ Iglewicz와 Hoaglin(1993)은 수정된 표준화 점수의 절대값이 3.5보다 큰 경우에 이상치로 판단하는 것을 제안함 ○ 수정된 표준화 점수 산출을 위한 별도의 SAS 프로시저는 없으나, 아래와 같은 SAS 코드를 활용하여 산출할 수 있음 /*진료비의 중앙값(MEDIAN) 산출*/

proc means data=AMT_DATA noprint; var AMT;

output out=STATS_OUT median=MEDIAN;

run;

/*진료비와 중앙값의 차이의 절대값(DIFF) 산출*/

proc sql;

create table MODIFIED_Z_SCORE1 as

select t1.*, t2.MEDIAN, abs(t1.AMT - t2.MEDIAN) as DIFF from AMT_DATA as t1, STATS_OUT as t2;

quit;

/*진료비와 중앙값 차이 절대값(DIFF)에 대한 중앙값(MAD) 산출*/

proc means data=MODIFIED_Z_SCORE1 noprint;

var DIFF;

output out=MODIFIED_Z_SCORE2 median=MAD;

run;

/*수정된 표준화 점수(M) 산출*/

proc sql;

create table MODIFIED_Z_SCORE as

select t1.AMT, 0.6745*t1.DIFF/t2.MAD as M

from MODIFIED_Z_SCORE1 as t1, MODIFIED_Z_SCORE2 as t2;

quit;

○ 수정된 표준화 점수 산출 결과는 <표 6>과 같으며 수정된 표준화 점수가 3.5보다 큰 25, 26번째 관측치가 이상치로 탐지되었고, 표준화 점수를 활용한 방법과 동일한 결과를 보임

(45)

www.hira.or.kr 15 연번 진료비 수정된 표준화 점수 연번 진료비 수정된 표준화 점수 1 13,580원 0.74 14 42,090원 0.02 2 13,580원 0.74 15 52,040원 0.28 3 13,580원 0.74 16 54,320원 0.34 4 17,320원 0.64 17 67,900원 0.71 5 26,020원 0.41 18 67,900원 0.71 6 27,160원 0.38 19 78,030원 0.98 7 27,160원 0.38 20 81,480원 1.07 8 28,060원 0.36 21 84,180원 1.14 9 28,060원 0.36 22 102,680원 1.63 10 28,060원 0.36 23 116,600원 2.01 11 40,740원 0.02 24 128,350원 2.32 12 40,740원 0.02 25 744,080원 18.74 13 40,740원 0.02 26 851,230원 21.60 <표 6> 수정된 표준화 점수 산출 결과

다. 통계적 가설검정을 활용한 이상치 탐색

○ 통계적 가설검정 방법은 최소값 혹은 최대값의 이상치 여부에 대한 검정임 ○ 이상치로 판단된 관측치를 제외해 나가면서 이상치가 존재하지 않을 때까지 반복적으로 검정을 수행하여 이상치를 정의함 1) 딕슨의 Q 검정(Dixon Q-Test) ○ 딕슨의 Q 검정은 오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이 (gap)에 대한 비율을 활용하여 이상치 여부를 검정하는 방법임

- 데이터 수가 30개 미만인 경우에 적절한 방법이며, Robert Dean, Wilfrid Dixon 등은 딕슨의 Q 검정을 하나의 자료에 대해 한 번만 수행하는 것을 제안함

○ (가설) 귀무가설: 최소값 혹은 최대값이 이상치이다. 대립가설: 최소값 혹은 최대값이 이상치가 아니다.

(46)

16 건강보험심사평가원 ○ <표 7>과 같이 데이터 수와 검정값(최소값 혹은 최대값)에 따라 검정통계량이 산출 되며, 검정통계량이 임계값보다 큰 경우 이상치로 결정함 - 검정통계량에 따른 임계값 테이블은 <부록>에 제시함 데이터 수 (n) 검정값 검정 통계량 데이터 수 (n) 검정값 검정 통계량 3≤n≤7 최소값        11≤n≤13 최소값        최대값          최대값          8≤n≤10 최소값          n≥14 최소값          최대값          최대값          <표 7> 데이터 수와 검정값에 따른 딕슨 Q-검정의 검정통계량 2) 그럽스 T-검정(Grubbs T-Test) ○ 그럽스 T-검정은 정규분포를 만족하는 단변량 자료에서 이상치를 검정하는 방법임 ○ (가설) 귀무가설: 데이터에 이상치가 없다. 대립가설: 데이터에 한 개 이상의 이상치가 있다. ○ <표 8>과 같이 대립가설에 따라 검정통계량이 산출되며, t-분포에 근거한 임계치를 산출하여 검정통계량이 임계치보다 큰 경우 이상치로 결정함 대립가설 검정통계량(G) 기각역 최소값 혹은 최대값이 이상치이다. max|- |/ G >    

            최소값이 이상치이다. ( - )/ G >    

             최대값이 이상치이다. ( - )/ <표 8> 그럽스 T 검정의 검정통계량과 기각역

(47)

www.hira.or.kr 17 3) Generalized ESD(Extreme Studentized Deviate) Test

○ 그럽스 T-검정을 일반화한 방법으로 여러 개의 이상치에 대한 검정이 가능함 - 상단 이상치에 대해서만 탐지가 가능하며, 이상치의 개수를 정확히 알고 있는 경우에 제안된 방법임3) ○ (가설) 귀무가설: 데이터에 이상치가 없다. 대립가설: 데이터에 r개의 이상치가 있다. ○ 검정통계량은 내림차순으로 정렬한 후 아래와 같은 수식에 의해 각 관측치별로 산출되며, 평균()과 표준편차()는

번째 관측치까지 제외하여 산출됨    ○ 검정통계량()이 t-분포에 근거한 임계치()보다 크면 해당 관측치를 이상치로 결정함  

                         ,            , 는 유의수준 4) 카이제곱 검정(Chi-Square Test) ○ 카이제곱 검정은 데이터가 정규분포를 만족하나, 자료의 수가 적은 경우에 이상치를 검정하는 방법임 ○ (가설) 귀무가설: 데이터에 이상치가 없다. 대립가설: 데이터에 한 개 이상의 이상치가 있다. ○ 검정통계량은 아래와 같이 정의되며 자유도가 1인 카이제곱분포를 따르는 통계량임       , 은 최소값 혹은 최대값, 는 평균, 는 표준편차 ○ 기각역은 자유도가 1인 카이제곱분포의 값을 임계치로 정의됨 - 이 최소값인 경우:     , 이 최대값인 경우:       

3) Nicokae-Marius Jula.(2014) Software solutions for identifying outliers. Computational Methods in Social Science. 2014. 2(2): 5-14

(48)

18 건강보험심사평가원

라. 사분위수범위를 활용한 이상치 탐색

○ 상자그림(boxplot)은 최소값, 최대값, 제 1사분위수(), 제 2사분위수(), 제 3 사분위수()를 활용하여 데이터를 시각적으로 요약한 그래프임 - 상자그림에서 표현되는 최소값과 최대값은 이상치를 제외한 데이터의 최대값과 최소값을 의미하며, 이상치는 사분위수범위를 활용하여 정의함 [그림 6] 상자그림 그리는 방법 ○ 사분위수범위는 제 1사분위수()와 제 3사분위수()의 차이로 정의되며, 사분위수 범위를 활용한 이상치 정의 수식은 아래와 같음   ×  ×, , 는 상수 ○ 일반적으로 상수()는 1.5나 3을 적용하며, 사분위수범위의 1.5배를 초과하는 관측치는 약한 이상치, 3배를 초과하는 관측치는 강한 이상치로 정의함

(49)

www.hira.or.kr 19

○ 아래와 같은 SAS 코드를 활용하여 사분위수범위를 산출하고, 이상치를 탐지할 수 있음

/*제1사분위수(Q1), 제3사분위수(Q3), 사분위범위(IQR) 산출*/

proc means data=AMT_DATA noprint; var AMT;

output out=STATS_OUT Q1=Q1 Q3=Q3 qrange=IQR;

quit; /*사분위수범위의 하한(IQR_LR)과 상한(IQR_UR) 산출*/ data CAL_IQR; set STATS_OUT; IQR_LR = Q1-1.5*IQR; IQR_UR = Q3+1.5*IQR; run; /*사분위수범위를 벗어난 관측치에 대해 이상치 Tagging*/ proc sql; *사분위수범위 하한과 상한 출력; select IQR_LR, IQR_UR

from CAL_IQR;

*사분위수범위를 벗어난 관측치에 대해 이상치 Tagging; create table IQR as

select t1.AMT,

case when t1.AMT < t2.IQR_LR or t1.AMT > t2.IQR_UR then 'Y'

else 'N' end as OUTLIER_YN from AMT_DATA as t1, CAL_IQR as t2;

quit;

○ 진료비에 대한 사분위수범위는 (–54,320원, 162,960원)으로 산출되었으며, <표 9>와 같이 25, 26번째 관측치가 이상치로 탐지됨

(50)

20 건강보험심사평가원 연번 진료비 이상치 여부 연번 진료비 이상치 여부 1 13,580원 N 14 42,090원 N 2 13,580원 N 15 52,040원 N 3 13,580원 N 16 54,320원 N 4 17,320원 N 17 67,900원 N 5 26,020원 N 18 67,900원 N 6 27,160원 N 19 78,030원 N 7 27,160원 N 20 81,480원 N 8 28,060원 N 21 84,180원 N 9 28,060원 N 22 102,680원 N 10 28,060원 N 23 116,600원 N 11 40,740원 N 24 128,350원 N 12 40,740원 N 25 744,080원 Y 13 40,740원 N 26 851,230원 Y <표 9> 상자그림을 활용한 이상치 탐색 결과

마. 수정된 사분위수범위를 활용한 이상치 탐색

○ 수정된 사분위수범위를 활용한 이상치 정의 방법은 기존의 상자그림을 활용한 방법을 일반화한 것으로 비대칭 분포에서도 이상치를 합리적으로 정의할 수 있음 ○ 수정된 사분위수범위는 데이터의 치우침 정도에 대한 척도인 왜도(skewness)를 활용함 ○ 왜도에 대한 강건한 통계량인 medcouple(MC)을 적용하여 이상치를 정의하며 수식은 아래와 같음    , ≤ ≤   -  ≤  ≤⋯≤  , 는 중앙값 -            

참조

관련 문서

 기업은 업무 절차에 따라 조직화되어 가치사슬 활동을 실행하며 이 경우, 정보기술: 부서지원  프로세스 그 자체를 지원..  포터의 가치사슬 모형은

따라서 주어진 자료에서 대표치 이외의 통계적 정보를 얻고자 하는 경우에는 산술평균를 선택하는 것이 바람직하다고 볼 수 있다.. •

전력의 변환과 제어가 동시에 가능한 제어 정류 소자인 SCR (Silicon controlled rectifier)이 개발됨에 따라 전력을 제어하게 되는 소위 전력전자의

따라서 관리기관에서는 적극적인 사업 홍보와 함께 컨설팅 업체 정보시스템을 구축 하여 정책수요자들에게 제공할 필요가 있다..

Keywords:job analysis, DACUM chart, duty, task and step, electricity and computer Fields, vocational education fields, vocational education curricula,

이를 통해 건강을 위해 일상생활 속에서 실천할 수 있는 신체에 맞는 운동을 계획할 수 있다.. 코딩을 통해 나에 게 맞는 운동을 설계하여 아바타와 함께 신체활동을

이 모듈에서는 조명 제작 전문가로서 조명 제작에 대한 의뢰서를 받아 분석하고 조명을 제작 하기 위한 탐색을

에너지 자원분야에서는 현재 각 기관 구축된 자료의 공유 활성화 및 활용 기술 개발을 중점적으로 추진할 필요가 있다 활용할 경우 중복투자 방지를 통한 비용 손실을 줄