제2절 대표성 평가를 위한 지표 27) - 2020년 한국복지패널 심층분석 - 한국복지패널 종단 분석 및 표본 특성 분석

1. 응답률(Response Rate : RR)

조사자료의 응답률은 엄밀히 평가하고자 한다면 표본으로 선정된 개체에 대해 조사 불가능, 부재, 부적격 등의 다양한 원인으로 무응답이 발생할 수 있기 때문에 이러한 원인들을 응답률에 포함시켜야 한다. 이러한 기준은 초기표본을 어떻게 정의하는가에 따라 IGEN98(Interagency Group on Establishment Nonresponse), BLS(Bureau of Labor Statistics), Census Bureau, BCS(Bethlehem, Cobben and Schouten, 2011), OMB 등의 다양한 기준이 존재한다. 즉, 사업체 조사 또는 가구단위 조사에 따

또한 종단면 조사의 경우 1차 조사 표본을 기준으로 각 차수별 응답 표본에 대한 비 2015, 2462-2463; 이현주 외, 2017, 84).

3. 무응답 가중치의 분산

 _     2015, 2463-2464; 이현주 외, 2017, 85-86).

5. 무응답 가중치와 조사변수 간의 상관계수

무응답매커니즘(nonresponse mechanism)이 임의결측(missinq at random:MAR) 인 경우 조사변수와 무응답 조정 가중치간의 상관관계가 높게 나타난다. 이러한 특성 을 반영한 척도로서 상관관계수가 클수록 표본의 대표성은 낮아진다고 볼 수 있다(조 태경·손창균, 2015, p.2464; 이현주 외, 2017, 87-88). 상관계수를 구하기 위해 가구

경상소득과 횡단가중치를 적용하였다.

6. 응답 성향점수 예측을 위한 로지스틱 회귀의 곡선영역

응답률 또는 부차그룹 응답률은 조사문항에 응답하기 위해 선택된 응답자의 확률인 응답성향 점수(reponse propensity score)를 추정하는데 있어 대략적인 추정치로 간 주할 수 있다. 따라서 앞에서 언급한 무응답 가중치의 일반화된 형태로서 주어진 공변량 을 이용하여 응답자들의 응답성향을 예측하기 위해 이항 변수에 대해 로지스틱 모형과 같은 통계모형을 사용한다. 이와 같이 예측된 응답 성향점수의 역수를 무응답 가중치로 사용할 수 있다. 따라서 이러한 측면에서 로지스틱 회귀모형의 예측력을 무응답 편향에 대한 하나의 지표로 사용할 수 있다. 민감도와 특이도를 평가하는 지표중의 하나인 AUC(Area Under the Curve)는 이항변수에 대한 C통계량이 하나의 척도가 된다.

  _   _ _,

여기서 는 concordant, 는 discordant, 는 tie를 나타낸다.

이 값의 범위는 0.5~1.0이며 AUC값이 높을수록 예측력이 높으며, 로지스틱 회귀에 서 무응답을 ‘0’으로 코딩한 경우 특이도는 증가하지만 민감도는 낮아지므로 결과적으 로 1에 가까울수록 대표성은 떨어진다(조태경·손창균, 2015, p.2464; 이현주 외, 2017, 82-83).

7. R-indicator

Schouten, Cobben and Bethlehem (2009)은 조사의 품질을 나타내는 척도로서 예측 응답 성향 점수의 변동성을 사용하는 방법을 제안하였다. 기본적인 개념은 만일 예측된 응답성형점수가 변동성이 크지 않다면, 응답자와 무응답자간에 구별되는 응답 과 특성들 간의 연관성이 낮을 것이며, 따라서 무응답 편향의 위험이 낮을 것이라는 것 이다. 이러한 개념은 MCAR(missing completely at random) 또는 MAR(missing at random) 상황과 유사하다. 또 다른 측면에서 만일 예측된 응답성향 점수간의 변동

성이 크다면 응답자와 무응답자간의 차이를 나타내는 응답변수들 간의 관계가 높을 것

FMI(Fraction of Missing Information)은 결측자료와 다중대체이론에서 개발된 것으로 결측 단위에 대해 대체된 값에 관한 불확실성의 측도이다(조태경·손창균,

_



  

 은  개의 대체값들을 이용한 추정치의 평균이고,   _ 

   _은 추정치의 총분산이며,  _{  }



^ ^^^^^{은 대체값내 분}

산으로서  개의 대체 데이터세트를 사용하여 구한 개의 추정치의 분산 _의 평균이다.

FMI값은 무응답률이 높을수록 큰 값을 가지게 되며, 결과적으로 대표성은 낮아지게 된다(조태경·손창균, 2015, p.2465; 이현주 외, 2017, p.89).

문서에서 2020년 한국복지패널 심층분석 - 한국복지패널 종단 분석 및 표본 특성 분석 (페이지 179-185)