• 검색 결과가 없습니다.

한국아동패널 데이터 활용

4. 가중치 산출

가. 가중치 부여 방법

한국아동패널은 시점별 모집단 현황 및 종단적 변화를 의미있게 분석할 수 있도 록 매년 횡‧종단면 가중치를 산출하여 그 값을 제공하고 있다. 특히 한국아동패널 과 같이 층화 다단계 표본추출에 의해 구축된 복합표본설계(Complex sample design)의 경우, 표본설계와 조사 차수별 응답 실태를 반영하여 산출한 가중치를 적용한 추정 과정을 통해 적절한 통계분석이 가능하다.

패널조사는 매년 동일한 표본을 대상으로 이루어지는 조사로, 일시적으로 특정 조사 차수에 참여하지 않거나, 사망, 이민, 강력거절 등의 사유로 패널에서 완전히 이탈하는 표본 마모(Sample attrition)가 발생하여 표본 구성에서 조사 차수별 변 동이 발생할 수 있다. 또한 모집단인 2008년 전국 출생아의 수에도 매년 변동이 생길 수 있으므로 자료의 대표성 확보를 위해 가중치 보정이 매년 이루어져야 한 다. 한국아동패널에서는 표본설계 시 의료기관과 신생아 가구 추출에 따른 추출확 률을 결합하여 계산한 설계가중치를 기초로, 표본 마모 등의 무응답 발생에 따른 모수 추정의 편향을 보정하기 위한 무응답 보정계수와 사후층화변수에 대한 보정 승수를 종합한 횡단면 가중치와 종단면 가중치를 개발하여 제공한다1).

한국아동패널 산출된 가중치는 우리나라 2008년 신생아 전체의 분포적 특성을

1) 14차년도 횡‧종단면 가중치는 한국갤럽 상근 자문위원인 이계오 박사에 의해 산출됨.

분류

분류 변인명(소분류) 8차 9차 10차 11차 12차 13차

제도·방식이용 여부 /D9-2 /D3-10 /D3-10 /D3-10 /D3-10 출산 및 육아지원

제도·방식도움 정도

F21-3

/D9-3 - - - -

-출산 및 육아지원 제도·방식 필요 우선순위

F21-4

/D10 - - - -

-기타 기타

지원

국가 및 직장 지원이 출산 및 양육환경 향상에 미치는 영향

F21-5

/D11 - - - -

-생활비 지원 여부 및

지원처 D52 D10-11 D10-11 D10-11 D10-11 D10-11

나타내므로 모집단의 특성치인 모평균(또는 모비율)을 추정하기 위해서 다음과 같 은 표본가중평균을 사용한다.

 

  

  

  





  

  

  





 

  

  

  





(: 지역층, : 층내 의료기관, : 표본 가구)

: 각 표본 신생아 가구에 부여된 가중치

: 각 조사 대상 가구에서 얻은 각종 조사 변수에 대한 관측치들

  

  

  

 : 모든 표본 가구에 대한 가중치의 합

한국아동패널 데이터를 사용하여 통계적으로 타당한 분석을 실행하기 위해서는 관련 가중치를 적절하게 활용해야 한다. 예를 들어, 14차년도 조사자료(1,348 가 구 대상)에 대한 분석을 위해서는 14차년도 횡단면 가중치를 사용해야 하고, 1~14 차년도 조사에 지속적으로 참여한 967가구를 활용한 분석에서는 1~14차년도 종 단면 가중치를 적용하여 분석해야 한다.

나. 14차년도 가중치 보정

가중치 보정을 위해 패널가구의 응답 패턴을 분석하고, 응답 가구와 무응답 가구 의 특성을 파악하였다. 패널조사의 가중치 보정을 위해서는 우선 패널가구의 응답 패턴을 분석하는 동시에 조사 누락으로 인한 편향(bias)을 줄이기 위하여 응답 가 구와 무응답 가구의 특성상 차이를 파악하는 것이 필요하다. 본 연구에서는 1~14 차년도 패널가구의 응답 여부에 따른 가구 특성 분석을 통해 구체적인 횡‧종단면 가중치를 도출하였다.

한국아동패널 조사의 1~14차년도 조사 참여 분포는 <표 Ⅱ-4-1>과 같다. 우선 원패널2) 가구 중에서 14차년도 조사까지 모두 참여한 가구는 967가구이며, 원패

2) 원패널: 한국아동패널 1차 조사에 참여한 2,078가구를 의미함.

널 기준 표본 유지율은 46.5%로 전년대비 1.1%p 하락한 수치이다. 2~3차 조사에 신규 추가된 가구를 포함한 전체 패널3) 기준 대비 표본 유지율은 46.2%였다. 14차 년도 조사에서 단조 결측 패턴4)에 해당하지 않는 무응답 가구를 포함한 전체 패널 대비 응답률은 62.7%로, 13차년도 응답률인 65.0%에 비해 약 2.3%p 낮아졌다.

무응답의 일부는 단조 결측 패턴을 보이지 않았으므로 횡‧종단면 가중치를 각각 별도로 작성하는 것을 원칙으로 하였다. 결과적으로, 한국아동패널의 14차년도 횡 단면 가중치는 2021년 조사에 참여한 1,348가구, 종단면 가중치는 2008년부터 2021년 조사에 모두 참여한 967가구를 기준으로 산출하였다.

<표 Ⅱ-4-1> 연도별 한국아동패널조사 참여 분포

주: 1) 14차년도 조사 성공 사례수는 1,348가구임.

2) ‘○’는 해당 차수에 참여, ‘X’는 해당 차수에 비참여, ‘-’는 해당 차수에는 표본에 속하지 않았음을, ‘※’는 단조 결측 패턴이 아닌 경우를 의미함.

3) 전체패널: 한국아동패널은 예비 표본의 합류를 3차년도까지 허용하여, 1차년도(2008년) 조사에 참여하지 않고 2차년도(52가구), 3차년도(20가구)에 신규로 참여한 경우를 모두 포괄하여 총 2,150가구를 전체 패널 로 정의함.

4) 단조 결측 패턴(Monotone missing pattern)이란 패널참여 시점부터 꾸준히 조사에 참여하다가 특정 년도 부터 지속적으로 조사에 불참하는 것을 의미함.

구분

참여 여부

가구수 % 1차 2차 3차 4차 5차 6차 7차 8차 9차 10

11

12

13

14

원패널

전체 조사 성공 O O O O O O O O O O O O O O 967 45.0

14차년도 탈락 O O O O O O O O O O O O O X 56 2.6

13차년도 탈락 O O O O O O O O O O O O X X 24 1.1

12차년도 탈락 O O O O O O O O O O O X X X 23 1.1

11차년도 탈락 O O O O O O O O O O X X X X 23 1.1

10차년도 탈락 O O O O O O O O O X X X X X 40 1.9

9차년도 탈락 O O O O O O O O X X X X X X 28 1.3

8차년도 탈락 O O O O O O O X X X X X X X 22 1.0

7차년도 탈락 O O O O O O X X X X X X X X 23 1.1

6차년도 탈락 O O O O O X X X X X X X X X 44 2.0

5차년도 탈락 O O O O X X X X X X X X X X 37 1.7

4차년도 탈락 O O O X X X X X X X X X X X 36 1.7

3차년도 탈락 O O X X X X X X X X X X X X 75 3.5

2차년도 탈락 O X X X X X X X X X X X X X 89 4.1

2차년도 신규; 조사 성공 - O O O O O O O O O O O O O 19 0.9

3차년도 신규; 조사 성공 - - O O O O O O O O O O O O 8 0.4

기타; 14차년도 성공 ※ O 354 16.5

기타; 14차년도 탈락 ※ X 282 13.1

전체 2,150 100.0

가중치 산출은 무응답에 의해 발생할 수 있는 편향을 보정하는 승수와 사후층화 (post-stratification)변수에 대한 보완 가중치를 계산하는 과정으로 진행된다(김 지현 외, 2021: 247). 첫째, 가중치 산출을 위하여 우선, 무응답에 따른 편향 감소 및 가중치 산출 방안 일관성 유지를 위하여 불참 패널에 대한 무응답 보정을 실시 하였다. 무응답 보정은 기존 가중치 산출에 적용했던 무응답 조정 계급 (non-response adjustment class)을 그대로 유지하는 것을 원칙으로 하였다. 따 라서 기존과 동일하게 조사 참여 여부를 종속변수, 가구별로 가장 최근에 조사된 거주지(권역), 어머니 취‧학업 여부, 아동의 출생 순위를 설명 변수로 로지스틱 회 귀분석을 실시하여 응답확률을 계산하였다. 로지스틱 회귀분석 결과는 <표 Ⅱ -4-2>와 같다.

종단면 데이터의 무응답 패턴에서 3개 설명변수(아동 출생순위, 어머니 취‧학업 여부와 거주지역) 모두 통계적으로 유의미한 영향을 미치지 않은 것으로 나타났으 며, 횡단면 데이터의 무응답 패턴에서도 3개 설명변수(아동 출생순위, 어머니 취‧학 업여부와 거주지역) 모두 유의미한 영향을 미치지 않은 것으로 나타났다. 하지만 연도별로 일관성을 유지할 수 있도록 가중치 보정 과정에는 패널가구의 거주권역, 아동의 출생순위와 어머니의 취‧학업 여부 등을 사용하여 무응답 조정 계급을 구성 하였다. 거주권역 6개 범주(서울, 경인, 대전‧충청‧강원·세종, 대구‧경북, 부산‧울산‧

경남, 광주‧전라·제주), 출생 순위 2개 범주(첫째, 둘째 이상), 어머니의 취‧학업 2개 범주(취‧학업, 미취‧학업)을 기준으로 총 24개 무응답 조정 계급을 구성하고, 각 계 급 내 가중 응답률(Weighted response rate)을 산출하였다. 산출된 값의 역수를 무응답 조정 승수로 사용하여 해당 계급 내의 응답 가구 가중치를 조정하는 방식으 로 분석을 수행하였다.

<표 Ⅱ-4-2> 14차년도 횡․종단면 자료 무응답 로지스틱 모형 분석 결과

구분 14차년도 횡단면 자료 1~14차년도 종단면 자료

df Wald-χ2 p-value df Wald-χ2 p-value

출생순서 1 1.3738 0.2412 1 1.4820 0.2235

모 취업 여부 1 0.4113 0.5213 1 0.1663 0.6835

지역(권역) 5 5.1286 0.4044 5 5.5547 0.3520

둘째, 모집단의 변동을 반영하고, 패널 마모에 따른 편향을 최소화하기 위해 2021년 17개 시·도별5) 만 13세 남‧여 아동(주민등록인구 기준)수와 한국아동패널 의 해당 범주별 표본 가중치의 합이 일치하도록 하는 사후 층화 보정6)을 통해 가 중치를 계산하였다. 계산된 가중치 중에서 이상치(outlier)는 절사 조정하여 최종 적으로 가중치를 결정하였다. 이와 같은 방식으로 산출된 가중치의 분포 관련 기술 통계량은 <표 Ⅱ-4-3>과 같다.

<표 Ⅱ-4-3> 14차년도 최종 횡․종단면 가중치 부여 결과

구분 평균 중위수 표준편차 사례수 최솟값 최댓값

14차 횡단면 가중치 348.00 282.02 198.73 1,348 39.74 1,013.12 1~14차 종단면 가중치 485.11 399.68 301.36 967 53.87 1,440.86

가중치 산출 및 활용에 대한 내용은 한국아동패널 홈페이지 내 ‘한국아동패널 사용자 지침서’에서도 안내하고 있으며, 사용자 지침서는 공공데이터가 공개되는 시점인 매해 연말 정기적으로 업데이트할 예정이다.

5) 세종시는 충청남도, 제주도는 전라남도로 병합하여 계산함.

6) 사후층화 과정에서 가중치의 사분위수와 사분위수 범위(Inter-Quartile Range; IQR)를 기준으로

 을 넘는 수치를 극단(Outlier)로 간주하고 절사하였으며, 이를 보완하기 위해 해당 값이 포함된 계급 내의 다른 가중치들을 절사된 만큼 부풀리는 방식을 적용해 극단적으로 크게 산출된 가중치를 조정함.