표본 가중치 - 조사 설계 - 2018 식품소비행태조사 기초분석보고서

조사 설계

3. 표본 가중치

3.1. 가중치 산출 개요

○ 복합표본설계(complex sampling design)에 의한 조사자료를 분석할 때, 개별 응답개체의 조사값



_은 표본가중치



_와 곱한 가중합의 형태로 모총합 을 추정함.

○ 표본가중치(sampling weight)는 표본개체가 대표하는 모집단 개체수의 추정 량임. 따라서 표본가중치의 산출에 다음의 요소를 적절히 반영한다면, 표본 가중합 이 동일한 표본설계하에서 반복적으로 추출될 때 갖는 기댓값인 모총합과 일치되는 설계기반 불편추정량(design-based unbiased estimator) 이 됨(밸리언트, Valliant 2004).

○ 식품소비행태조사의 기본적인 표본추출단위는 집락(조사구, 집계구 혹은 아 파트 단지)과 집락 내 가구이며, 가구 내 주 구입자, 성인 가구원, 청소년 가 구원은 각각의 분석단위임. 따라서 조사단위는 물론 분석단위별 모집단을 대표할 수 있는 표본가중치를 산출하여 관련된 통계분석이 가능하도록 함.

○ 식품소비행태조사의 일차추출단위인 집락은 기본적으로 표본층별로 집락 크기비례확률추출로 표본으로 선택됨. 2018년 이후의 조사 안정성을 위해 표본 A의 집락단위인 조사구는 보다 큰 단위인 집계구로 교체되었음. 따라 서 집락가중치는 해당 단위의 추출확률을 반영하여 정의됨.

○ 식품소비행태조사의 기본적인 분석단위는 가구를 대표하는 주 구입자와 해 당 가구 내 성인 및 청소년으로 구분됨. 기존의 가중치 산출방식은 가구를 대표하는 주 구입자와 가구 구성원인 성인과 청소년을 분리하여 고려하는

방식을 채택함. 하지만, 2017년에는 기존 가중치 산출방식을 수정하여 특정 가구의 주 구입자와 성인 및 청소년임을 함께 고려하는 통합가중치 (integrated weighting) 방식을 적용함.

○ 2018 식품소비행태조사를 위한 표본은 2017년 표본조사에 응답한 (주소기 준의) 가구 및 집락 내 추가로 선택된 표본가구들로 구성됨. 표본구성의 연 혁을 반영하여 조사구와 집계구 및 신규아파트로부터 추출한 표본을 각각 표본 A(



_)와 표본 B(



_)로 표기함. 따라서 이러한 구조를 반영하여 개별표 본이 각각 모집단을 대표할 수 있는 표본가중치의 산출이 필요함.

3.2. 표본 A 가중치

○ 표본 A의 가중치 산출은 표본집락, 집락 내 가구, 가구 내 구성원의 순서에 따라 순차적으로 산출함.

지역 가구수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw

수도권 690 8,828,547 12,795.0 8,275.3 1,686.8 10,979.5 57,538.0 1.418 충청권 411 1,942,778 4,727.0 3,048.0 1,311.3 3,849.5 19,964.5 1.416 호남권 403 1,985,381 4,926.5 2,841.9 1,455.1 4,123.1 17,138.4 1.333 대경권 293 1,804,110 6,157.4 3,801.8 1,143.7 4,963.0 25,278.3 1.381 경남권 431 2,794,395 6,483.5 4,281.8 1,329.3 5,325.7 27,493.2 1.436 강원권 133 545,067 4,098.2 2,515.2 846.7 3,554.7 13,452.1 1.377 전국 2,361 17,900,278 7,581.7 6,339.6 846.7 5,631.1 57,538.0 1.699

<표 2-4> 표본 A 권역별 주 구입자 최종 가중치 분포

지역 응답수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw 수도권 1,348 18,952,775 14,059.9 9,439.7 1,884.2 11,416.8 72,022.0 1.451 충청권 728 4,023,736 5,527.1 3,673.9 1,242.8 4,423.5 28,888.5 1.442

수도권 341 8,820,065 25,865.3 15,397.0 1,656.2 22,747.2 92,864.5 1.354 충청권 154 1,942,778 12,615.4 11,684.3 1,192.9 8,276.0 63,349.5 1.858 호남권 154 1,969,568 12,789.4 12,078.6 1,004.3 8,704.1 80,517.0 1.892 대경권 135 1,804,110 13,363.8 11,121.3 1,495.6 9,801.5 66,227.3 1.693 경남권 204 2,794,395 13,698.0 9,833.1 2,500.4 10,484.1 61,069.5 1.515 강원권 88 545,067 6,193.9 5,266.0 1,007.2 4,801.8 26,953.5 1.723

전국 1,076 17,875,984 16,613.4 13,944.8 1,004.3 12,930.7 92,864.5 1.705

<표 2-7> 표본 B 권역별 주 구입자 최종 가중치 분포

지역 응답수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw 수도권 663 18,978,423.7 28,625.1 17,290.3 2,329.4 25,362.6 118,807.4 1.365 충청권 250 4,024,713.3 16,098.9 15,308.5 1,317.4 10,912.6 87,197.7 1.904 호남권 333 4,116,188.3 12,360.9 11,440.9 965.3 8,945.4 109,875.6 1.857 대경권 274 3,794,074.1 13,847.0 10,646.2 1,265.8 11,094.8 66,315.2 1.591 경남권 391 5,921,266.2 15,143.9 12,006.5 2,276.5 12,182.5 101,270.3 1.629 강원권 137 1,122,012.4 8,189.9 7,305.5 982.2 6,499.0 42,132.2 1.796

전국 2,048 37,956,678.0 18,533.5 15,644.4 965.3 14,222.5 118,807.4 1.713

<표 2-8> 표본 B 권역별 성인 최종 가중치 분포

- 혼합계수 유도를 위해 고려한 주 구입자 설문문항은 가구 내 식료품 구입 전국 3,437 17,893,292 5,206.1 4,373.3 288.8 3,931.7 40,989.5 1.7057

<표 2-11> 혼합표본 권역별 주 구입자 혼합 가중치 분포

○ 성인 혼합 가중치 산출을 위해서 가구 내 성인용 설문의 일부 주요항목을

○ 청소년 혼합 가중치 산출을 위해서 가구 내 청소년용 설문의 일부 주요항목 을 고려하여 혼합계수



를 구한 후, 혼합가중치를 산출함.

- 혼합계수 유도를 위해 고려한 청소년 설문문항은 지난 일주일간 식사의 규칙성, 식생활 만족도, 우리나라 식품안전성에 대한 의견, 다이어트 여부, 규칙적 운동 여부의 총 5가지의 비율특성을 추가적으로 고려<표 2-12>

- 혼합계수는 총 15가지 비율특성별 혼합계수의 가중평균으로 0.7097

○ 청소년 응답수는 총 614명임. 이들의 최종가중치는 전체 평균 5,081.5이고 221.7~29,348.6의 범위를 가지며 분산증가분은 1.5870 정도임<표 2-14>.

- 권역별로는 수도권의 청소년 최종 가중치의 평균값이 6,730.5로 가장 크 고, 대경권이 가장 작은 2,457.4 수준

권역 청소년수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw

수도권 226 1,521,100 6,730.5 4,661.1 326.7 6,152.2 29,348.6 1.4796 충청권 52 337,151 6,483.7 3,915.9 476.4 5,869.4 18,641.9 1.3648 호남권 97 378,550 3,902.6 2,499.3 679.9 3,550.3 12,963.7 1.4101 대경권 123 302,255 2,457.4 1,824.8 221.7 2,053.9 8,376.3 1.5514 경남권 94 484,580 5,155.1 2,917.7 986.8 4,564.0 13,912.8 1.3203 강원권 22 96,433 4,383.3 2,329.6 898.2 4,032.3 10,688.0 1.2825

전국 614 3,120,069 5,081.5 3,893.3 221.7 4,084.0 29,348.6 1.5870

<표 2-14> 혼합표본 권역별 청소년 혼합 가중치 분포

4. 추정

4.1. 추정 개요

○ 본 조사의 조사대상은 가구 내 주 구입자, 성인 구입자, 청소년 구입자로 이 루어져 있어, 각 조사대상의 모수추정 및 자료 분석이 가능함.

○ 각 조사대상은 선택되는 복잡표본추출방식(complex sampling)과 표본추출 틀의 모집단 포괄범위(coverage) 및 무응답 정도를 고려한 표본가중치가 함 께 고려되어 모수추정 및 자료 분석이 이루어져야 함.

4.2. 모수추정

4.2.1.

총합추정

○본 조사를 통해 얻게 되는 대부분의 모수는 총합추정량(total estimator)에 기 초하여 산출됨.

- 특성치 에 대한 총합추정량 은 다음과 같이 나타낼 수 있음.

 _{  }



^



_{  }^^ _{  }



^^ ^^^^ ^(2-1)

여기서 _와 _는 각각 층 번째 조사구 내 번째 표본응답개체의 표본가중치와 조사값을 나타내며, 는 총 표본층 수, _는 층내 조사구 수, _는 조사구 내 표본응답개체

○조사단위별로 총합추정량이 계산되며, 주 구입자, 성인 구입자, 청소년 구입 자 각각의 표본가중치와 조사값이 선택되어 사용되어야 함.

4.2.2.

영역총합추정

○식품소비행태를 권역별, 성별, 연령별 등의 세부 영역으로 나누어 통계를 구 하는 것을 영역추정(domain estimation)이라 칭함.

○영역 총합추정을 위해서는 식품소비행태가 특정한 영역에 포함되는지의 여 부를 나타내는 지시자(indicator)를 먼저 정의한 후 총합을 추정함.

- 영역 지시자와 새로운 변수를 다음과 같이 정의

_ __ 



^{ ∈}^{ ∉ }^^

_^  __

여기서 _⊂  는 특정 세부영역 

- 영역총합추정량(domain total estimator)은 위의 변수로 정의되는 가중합 형태로 다음과 같이 추정

^  _{  }



^ _{  }



^^ _{  }



^^ ^^^^^

4.2.3.

총합함수추정

○모수는 종종 ×  총합벡터

 __′의 함수인   

으로 표현 되며 표본추정량은 총합추정량을 해당 함수에 대입하여 구할 수 있음.

 

4.3. 분산추정

4.3.1.

총합추정

○총합추정량 을 층별 총합추정량의 단순평균합 형태로 표현한다면 층 간 독립표본의 성질을 이용하여 다음과 같이 분산추정식을 추정할 수 있음.

  _{  }



^ ^^^{ }_{  }



^ ^__ 

  _

  



_

_ _^ _ (2-4)

- _ _{  }^^ ___는 조사변수 의 층 총합 _ _{  }^^ _{  }^^ _의 불편 추정량이고, _ __는 층 내 표본추출률임.

- _의 표현은 분산추정식 이 일차추출단위 합성값 _에 대한 연 산자 형태로 나타날 수 있음을 나타냄.

- 본 조사의 경우, 층내 표본추출률 _은 매우 작아 위의 식에서 생략될 수 있음.

4.3.2.

영역총합추정

○영역총합추정량의 분산추정식은 의 일차추출단위 합성값을 적절히 교 체하여 다음과 같이 구할 수 있음.

^  _^

여기서 _^ _{  }^^ ___^은 영역총합추정량의 일차추출단위 합성값임.

4.3.3.

총합함수추정

- 하지만 위의 식은 혼합표본의 특성보다는 전체 표본에 대한 총합인 식 (2-2)가 고려된 다소 간소한 근사적 분산추정의 형태에 해당

○식품소비행태조사의 혼합표본 특성을 고려하면 두 독립표본에 대한 혼합추 정 총합들에 대한 테일러정리를 이용한 선형근사 분산추정량을 사용할 수 있음.

- 기존표본 _와 신규표본 _에 대한 총합 및 크기에 대한 4가지 총량의 함 수인 식 (2-3)의 평균추정을 고려하여 이에 대해 테일러 선형근사를 적용 하여 분산추정식을 유도하면 다음과 같이 표현됨.

_  ^_  ^_ (2-6)

- 따라서 평균추정량 (혹은 비율추정량)에 대한 분산계산은 기존표본과 신 규표본에 대해 각각 분산을 추정한 후, 이를 식 (2-4)로 취합하여 계산하 는 것이 바람직함.

- 식 (2-6)과 비교하여 식 (2-5)은 매우 단순하지만 다소 부정확한 분산값을 얻을 수 있음(박인호 외, 2014, 표 4-1).

4.3.5.

상대표준오차추정

○일반적으로 표본오차를 분산이나 표준오차로 표현할 때, 흔히 상대표준오차 (Relative Standard Error: RSE), 혹은 변동계수(Coefficient of Variation: CV) 로 칭하는데 다음과 같이 정의됨.

 



^ 

- 위의 변동계수는 앞서 고려한 통계량 , ^, , 에 대해 각각 정의될 수 있음.

4.4. 트렌드 분석

4.4.1.

반복조사

○식품소비행태조사에서는 우리나라 소비자의 식품소비행태에 대한 현황파악 은 물론 사회적 여건변화에 대응한 변화인 트렌드(trend) 분석이 가능한 조 사를 추구함. 이를 위해 매해 모집단에 대한 횡단면적 표본조사를 실시하되 연속된 두 시점에서 표본의 일부를 중복하여 조사하는 반복조사의 형태를 고려함.

○ 2018년도 표본조사에서는 기존 조사구 표본응답가구를 기초로 한 표본 A(

_)와 이와 독립적으로 추출한 집계구와 신규아파트 가구표본을 기초로 한 표본 B(_)를 혼합한 표본인 _ _∪_에 대해 조사를 수행함.

- 2017년과 2018년 조사를 위한 표본을 각각 _과 _라고 표기하면, 올해 조사를 위해 작년도 표본 _과 중복된 표본을 _ _∩_으로 나타내 고 중복되지 않은 표본을 _ _ _로 각각 표기

- 본 조사에서는 표본가구가 두 조사시점에서 서로 중복될 뿐, 동일가구에 대한 식별을 필수적으로 하지 않기 때문에 패널조사와는 구분되고 조사 대상의 일부만을 중복시키는 일 년을 주기로 갖는 반복조사임.

4.4.2.

순변동 추정

○반복조사의 특성상 매 조사 시점 의 수준(level) 추정량은 물론 연속된 두 시점 간의 추정량의 차이추정, 즉 트렌드 혹은 순변동(net change)에 대한 추정량을 정의할 수 있음.

- 표본평균(혹은 비율)의 순변동은 다음과 같이 정의됨.

_ __ (2-7)

- 고정된 모집단으로부터 단순확률표본이 추출된다고 가정한다면 평균의 순변동 분산식은 다음과 같이 표현됨(홀트·스키너 Holt and Skinner 1989: p.8).

__  _^__^_ ______ (2-8)

여기서 _^와 _는 각각 시점의 모분산과 두 시점 간 특성치의 상관계 수를 나타냄.

- 만약 두 시점 간의 표본중복이 없이 독립적으로 추출하였다면 분산식은 아래의 식과 같아짐.

_^ _  _^__^_ (2-9)

- 수준 추정이 주목적이며 두 시점 간의 높은 양의 상관계수(예, 0.7)를 갖 는다면 중복비율을 높이는 것이 효율적일 수도 있음. 수준과 순변동 추정 을 모두 고려하는 조사에서는 50%를 다소 넘는 중복을 허용하는 것이 좋

문서에서 2018 식품소비행태조사 기초분석보고서 (페이지 54-71)