• 검색 결과가 없습니다.

쿡의 거리(Cook ̍s distance)

가. 회귀진단(Regression diagnostics)에서 이상치 탐색

5) 쿡의 거리(Cook ̍s distance)

 

,   ⋯

- 는 번째 관측치를 제외하여 추정된 회귀모형으로부터 산출한 예측값임 - 는 번째 관측치를 제외하여 산출한 MSE이며, 는 레버리지 값임

○ 스튜던트 제외 잔차는 자유도가 (n-p-1)인 t-분포의 값(      )을 기준 으로         이면 해당 관측치를 이상치로 결정함

5) 쿡의 거리(Cook ̍s distance)

○ 레버리지 통계량은 독립변수들 사이의 관계를 통해 이상치를 판단하는 반면에 쿡의 거리는 추정된 회귀모형을 기반으로 이상치를 탐지함

○ 쿡의 거리는 추정된 회귀모형에 대한 각 관측치들의 전반적인 영향력 정도를 측정 하기 위해 잔차와 레버리지를 동시에 고려한 척도임

○ 전체 데이터를 기반으로 추정한 회귀모형으로부터 산출된 예측값( ∙ )과 번째 관측치를 제외하여 추정된 회귀모형의 예측값( ) 차이 제곱에 대한 평균의 개념 으로 아래 수식과 같이 산출함

 

  

  

 ∙   

,   ⋯

○ 쿡의 거리()가 ≥ 

    

인 경우 이상치로 판단하며,  인 경우 강한 이상치로 판단함

24

건강보험심사평가원

6) DFFITS(Difference of fits)

○ 모든 관측치를 활용하여 추정된 회귀모형의 예측치()와 번째 관측치를 제외한 후 추정된 회귀모형의 예측치() 변화 정도를 측정하는 방법임

  



 

,   ⋯

- 는 번째 관측치를 제외하여 산출한 MSE이며, 는 레버리지 값임

○ DFFITS 값이 클수록 이상치일 가능성이 높으며, 데이터의 수에 따른 이상치 정의 기준은 다음과 같음

- 데이터의 수가 적은 경우( ≤ ),   

- 데이터의 수가 큰 경우(  ),     

7) DFBETAS(Differnce of betas)

○ 모든 관측치를 활용하여 추정된 회귀모형의 회귀계수()와 번째 관측치를 제외한 후 추정된 회귀모형의 회귀계수( )의 변화 정도를 측정하는 방법임

  



  

,   ⋯

- 는 번째 관측치를 제외하여 산출한 MSE임

- 는 독립변수 행렬 에 대한  행렬의 번째 대각원소임

○ 데이터의 수에 따른 DFBETAS의 값의 이상치 정의 기준은 다음과 같음 - 데이터의 수가 적은 경우( ≤ ),   

- 데이터의 수가 큰 경우(  ),   

www.hira.or.kr

25 [예시] SAS를 활용한 회귀진단에서 이상치 탐색

○ 다음의 진료비, 내원일수 예시 자료를 활용하여 회귀진단을 통한 이상치 탐색을 수행함

/*진료비, 내원일수 자료(예시)*/

data AMT_DAY_DATA;

input AMT DAY @@;

datalines;

13580 8 13580 6 13580 7 17320 1 26020 8 27160 5 27160 9 28060 9 28060 11 28060 5 40740 7 40740 8 40740 8 42090 7 52040 5 54320 5 67900 10 67900 6 78030 7 81480 7 84180 7 102680 5 116600 5 128350 6 744080 4 851230 7

; run;

○ 회귀모형을 설정한 후, proc reg 프로시저의 r과 influence 옵션을 통해 레버리지, 쿡의 거리 등 이상치 탐색을 위한 통계량을 산출함

- 종속변수는 진료비(AMT), 독립변수는 내원일수(DAY)로 하여 회귀모형을 설정함 - r 옵션: 스튜던트 잔차, 쿡의 거리 산출

- influence 옵션: 스튜던트 제외 잔차, 레버리지, DFFITS, DFBETAS 산출

proc reg data=AMT_DAY_DATA; model AMT = DAY / r influence; run;

26

건강보험심사평가원

○ SAS 프로시저를 통한 관측치별 이상치 판단을 위한 통계량 산출 결과를 <표>와 같이 정리함

통계량 SAS Output 이상치 기준 이상치

레버리지 Hat Diag H >0.23(=3*2/26) 4번 관측치 스튜던트 잔차 Student Residual >2.38(=) 25, 26번 관측치 스튜던트 제외 잔차 RStudent >3.76(=) 26번 관측치 쿡의 거리 Cook ̍s D >0.17(=4/24) 4, 25, 26번 관측치

DFFITS DFFITS >1 25, 26번 관측치

DFBETAS DFBETAS >1 25번 관측치

<표> 회귀진단에서 이상치 탐색 통계량에 따른 이상치 탐색 결과

○ 각 통계량에 따라 이상치 탐색 결과가 다르지만, 25, 26번째 관측치가 다빈도로 이상치로 정의됨

www.hira.or.kr

27 나. 마할라노비스 거리(Mahalanobis Distance)를 활용한 이상치 탐색

○ 마할라노비스 거리는 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량임

○ 이상치 탐색을 위해 고려되는 모든 변수 간에 선형관계를 만족하고, 각 변수들이 정규 분포를 따르는 경우에 적용할 수 있는 전통적인 접근법임

○ 마할라노비스 거리를 산출하는 수식은 아래와 같으며, 는 평균, 는 공분산 행렬임



   ,   ⋯

○ 마할라노비스 거리의 이상치 기준은 개의 변수에 대해, 자유도가 인 카이제곱 분포의 임계값을 초과하는 경우에 이상치로 정의함



   , 는 유의수준

관련 문서