• 검색 결과가 없습니다.

조사 설계

3. 표본 가중치

3.1. 가중치 산출 개요

❍ 복합표본설계(complex sampling design)에 의한 조사자료를 분석할 때, 개별 응답개 체의 조사값 와 표본 가중치 를 곱한 가중합의 형태로 모총합을 추정함.

❍ 표본 가중치(sampling weight)는 표본개체가 대표하는 모집단 개체 수의 추정량임.

따라서 표본 가중치의 산출에 다음의 요소를 적절히 반영한다면 표본 가중합 이 동일 한 표본 설계하에서 반복적으로 추출될 때 갖는 기댓값인 모총합과 일치되는 설계기반 불편추정량(design-based unbiased estimator)이 됨(Valliant 2004).

- 표본 설계에 따른 개체별 불균등 포함 확률 - (단위)무응답에 대한 보정

- 보조정보를 이용한 표본추정량과 모집단 총합과의 벤치마킹

❍ 식품소비행태조사의 기본적인 표본추출 단위는 집락(조사구, 집계구 혹은 아파트 단지) 과 집락 내 가구이며, 가구 내 주 구입자, 성인 가구원, 청소년 가구원은 각각의 분석 단 위임. 따라서 조사 단위는 물론 분석 단위별 모집단을 대표할 수 있는 표본 가중치를 산 출하여 관련된 통계분석이 가능하도록 함.

❍ 식품소비행태조사의 일차추출 단위인 집락은 기본적으로 표본층별로, 집락크기비례확 률추출이 표본으로 선택됨. 2018년 이후 조사 안정성을 위해 표본 A의 집락 단위인 조 사구는 보다 큰 단위인 집계구로 교체되었음. 따라서 집락 가중치는 해당 단위의 추출확 률을 반영하여 정의됨.

❍ 식품소비행태조사의 기본적인 분석 단위는 가구를 대표하는 주 구입자와 해당 가구 내 성인·청소년으로 구분됨. 기존의 가중치 산출방식은 가구를 대표하는 주 구입자와 가구

구성원인 성인과 청소년을 분리하여 고려하는 방식을 채택함. 하지만, 2017년부터는 기존 가중치 산출방식을 수정하여 특정 가구의 주 구입자와 성인·청소년을 함께 고려하 는 통합 가중치(integrated weighting) 방식을 적용함(박인호 외 2인, 2017).

❍ 2019 식품소비행태조사를 위한 표본은 2018년 표본조사에 응답한 (주소 기준 동일) 가 구 및 집락 내 추가로 선택된 표본 가구들로 구성됨. 표본구성의 연혁을 반영하여 조사 구와 집계구 및 신규 아파트로부터 추출한 표본을 각각 표본 A()와 표본 B()로 표기 함. 따라서 이러한 구조를 반영하여 개별표본이 각각 모집단을 대표할 수 있는 표본 가 중치의 산출이 필요함.

3.2. 표본 A 가중치

❍ 표본 A의 가중치 산출은 표본집락, 집락 내 가구, 가구 내 구성원의 순서에 따라 순차적 으로 산출함.

표 2-7 표본 A 권역별 주 구입자 최종 가중치 분포

지역 가구 수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw

수도권 664 8,828,548 13,296.0 8,678.0 1,642 11,688 53,311 1.426 충청권 410 1,942,778 4,738.5 2,769.2 914 4,175 16,872 1.342 호남권 407 1,985,381 4,878.1 2,994.0 778 3,860 17,941 1.377 대경권 277 1,804,110 6,513.0 4,278.2 798 5,080 27,818 1.431 경남권 441 2,794,395 6,336.5 4,284.9 921 5,111 24,436 1.457 강원권 122 545,067 4,467.8 3,137.3 796 3,489 14,263 1.493 전국 2,321 17,900,280 7,712.3 6,602.7 778 5,403 53,311 1.733

표 2-8 표본 A 권역별 성인 최종 가중치 분포

지역 응답 수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw

수도권 1,254 20,225,783 16,129.0 10,711.0 1,991 13,840 73,132 1.441 충청권 735 4,269,417 5,808.7 3,734.0 892 4,862 27,952 1.413 호남권 840 4,296,506 5,114.9 3,172.2 753 4,342 22,717 1.385 대경권 536 3,928,411 7,329.1 4,249.9 885 6,314 25,862 1.336 경남권 793 6,134,047 7,735.2 4,932.7 1,133 6,184 27,554 1.407 강원권 150 1,158,499 7,723.3 5,190.0 1,251 6,371 25,251 1.452 전국 4,308 40,012,663 9,288.0 8,090.6 753 6,635 73,132 1.759

표 2-9 표본 A 권역별 청소년 최종 가중치 분포

지역 응답 수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw

수도권 123 1,478,079 12,016.9 8,897.9 1,510 9,221 47,841 1.548 충청권 49 346,785 7,077.2 3,259.1 1,834 6,818 16,208 1.212 호남권 68 372,536 5,478.5 2,452.1 729 4,940 13,080 1.200 대경권 77 303,083 3,936.1 2,727.2 507 3,199 14,563 1.480 경남권 52 456,393 8,776.8 5,245.6 1,076 7,910 23,926 1.357 강원권 20 91,101 4,555.1 2,834.0 2,170 3,922 12,090 1.387 전국 389 3,047,977 7,835.4 6,556.9 507 5,586 47,841 1.700

3.3. 표본 B 가중치

❍ 표본 B의 가중치 산출도 표본 A와 동일한 방식으로 표본집락, 집락 내 가구, 가구 내 구 성원의 순서에 따라 순차적으로 산출함.

표 2-10 표본 B 권역별 주 구입자 최종 가중치 분포

권역 가구 수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw

수도권 291 8,828,547 30,338.6 22,203.5 2,433 25,019 146,974 1.536 충청권 168 1,942,779 11,564.2 11,759.7 362 7,580 66,203 2.034 호남권 142 1,985,382 13,981.6 17,786.2 980 8,745 132,588 2.618 대경권 140 1,804,110 12,886.5 11,486.4 1,277 9,020 57,802 1.795 경남권 202 2,794,395 13,833.6 11,018.0 1,628 10,494 66,580 1.634 강원권 73 545,068 7,466.7 8,679.9 870 3,624 32,276 2.351 전국 1,016 17,900,280 17,618.4 17,962.9 362 11,493 146,974 2.039

표 2-11 표본 B 권역별 성인 최종 가중치 분포

권역 응답 수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw

수도권 547 20,225,781 36,975.8 25,187.5 2,776 31,716 186,019 1.464 충청권 266 4,269,418 16,050.4 17,030.4 403 9,809 103,101 2.126 호남권 298 4,296,506 14,417.8 17,711.0 947 9,195 159,095 2.509 대경권 282 3,928,411 13,930.5 12,392.5 742 10,068 63,861 1.791 경남권 380 6,134,048 16,142.2 13,326.3 1,686 12,829 79,392 1.682 강원권 95 1,158,499 12,194.7 15,220.4 1,394 5,785 61,459 2.558 전국 1,868 40,012,663 21,420.1 21,183.3 403 15,014 186,019 1.978

표 2-12 표본 B 권역별 청소년 최종 가중치 분포

지역 응답 수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw

수도권 55 1,478,079 26,874.2 14,516.1 3,709 27,033 65,180 1.292 충청권 32 346,785 10,837.0 13,738.2 808 6,361 63,824 2.607 호남권 39 372,536 9,552.2 8,652.9 883 7,393 39,984 1.821 대경권 51 303,083 5,942.8 5,523.6 643 5,543 33,158 1.864 경남권 28 456,393 16,299.7 14,129.9 2,038 15,802 75,354 1.751 강원권 16 91,101 5,693.8 5,247.8 2,072 3,241 20,029 1.849 전국 221 3,047,977 13,791.8 13,844.1 643 9,130 75,354 2.008

3.4. 혼합표본 가중치

3.4.1. 혼합표본 가중치 개요

❍ 2019 식품소비행태조사를 위한 표본은 기존표본 의 2,321개 응답 가구와 신규 표본

의 1,016개 응답 가구로 구성됨. 따라서 두 개의 독립 표본을 하나의 표본으로 혼합함 에 있어 서로가 갖는 설계효과(design effect)를 반영하기 위해 Hartley(1962)가 제시 한 혼합 가중치 산출(composite weighting) 방식을 이용하여 가중치를 산출함.3)

3.4.2. 주 구입자 혼합 가중치

❍ 주 구입자 혼합 가중치 산출을 위해서 주 구입자용 설문의 일부 주요 항목을 고려하여 혼합계수 를 구한 후, 혼합 가중치를 산출함.

- 혼합계수 유도를 위해 주 구입자 설문문항 중 가구 내 식료품 구입 빈도, 인터넷을 통 한 식품 구입 여부, 친환경 식품 구입 여부, 기능성 식품 섭취 여부 등을 포함한 총 10 가지의 비율 특성을 고려<표 2-13>

- 혼합계수는 총 10가지 비율 특성별 혼합계수의 가중평균으로 0.7124

❍ 전체 주 구입자 응답 수는 3,337명이고 이들의 최종 가중치는 전체 평균 5,364.2임. 이 는 83~41,157의 범위를 가지며, 분산증가분은 1.833의 정도임<표 2-14>.

- 권역별로는 수도권 주 구입자 최종 가중치의 평균값이 9,244.6으로 가장 크고, 강원 권, 충청권, 호남권은 각각 2,795.2, 3,361.2, 3,616.4의 낮은 평균값

3) 혼합표본 가중치의 기본적 산출방안 및 기술은 기존 조사와 동일한 방식을 따름(박인호 외 2017).

표 2-13 주 구입자 혼합 가중치 산출에 고려된 비율 특성

수도권 955 8,828,547 9,244.6 6,431.1 555 7,731 41,157 1.484 충청권 578 1,942,778 3,361.2 2,352.8 83 2,813 15,094 1.490 호남권 549 1,985,381 3,616.4 2,872.9 223 2,846 30,229 1.631 대경권 417 1,804,110 4,326.4 3,241.2 291 3,331 21,476 1.561 경남권 643 2,794,395 4,345.9 3,182.3 371 3,476 18,865 1.536 강원권 195 545,067 2,795.2 2,414.7 198 2,145 11,011 1.746 전국 3,337 17,900,280 5,364.2 4,895.7 83 3,836 41,157 1.833

3.4.3. 성인 혼합 가중치

❍ 성인 응답 수는 총 6,176명이고 이들의 최종 가중치는 전체 평균 6,478.7임. 이는

수도권 1,801 20,225,782 11,230.3 7,811.9 633 9,508 56,460 1.484 충청권 1,001 4,269,417 4,265.2 3,198.0 92 3,469 23,504 1.562 호남권 1,138 4,296,506 3,775.5 2,961.2 216 3,053 36,269 1.615 대경권 818 3,928,411 4,802.5 3,344.9 169 3,872 19,966 1.485 경남권 1,173 6,134,047 5,229.4 3,733.1 384 4,188 21,272 1.510 강원권 245 1,158,499 4,728.6 4,105.7 318 3,492 19,494 1.754 전국 6,176 40,012,663 6,478.7 5,947.0 92 4,591 56,460 1.843

3.4.4. 청소년 혼합 가중치

❍ 청소년 응답 수는 총 610명이고 이들의 최종 가중치는 전체 평균 4,996.7임. 이는 184~34,134의 범위를 가지며 분산증가분은 1.811 정도임<표 2-17>.

- 권역별로 수도권의 청소년 최종 가중치의 평균값이 8,303.8로 가장 크고, 대경권, 강 원권이 각각 2,367.8, 2,530.6의 상대적으로 작은 평균값

표 2-17 혼합표본 권역별 청소년 혼합 가중치 분포

권역 청소년 수 합계 평균 표준편차 최솟값 중위수 최댓값 Lw

수도권 178 1,478,079 8,303.8 5,763.8 1,063 6,942 34,134 1.482 충청권 81 346,785 4,281.3 3,188.0 232 3,913 18,287 1.554 호남권 107 372,536 3,481.6 2,111.7 253 3,218 11,456 1.368 대경권 128 303,083 2,367.8 1,883.4 184 1,984 10,390 1.633 경남권 80 456,393 5,704.9 3,902.3 584 4,951 21,590 1.468 강원권 36 91,101 2,530.6 1,963.1 594 1,858 8,626 1.602 전국 610 3,047,977 4,996.7 4,499.9 184 3,598 34,134 1.811

4. 추정

4.1. 추정 개요

❍ 본 조사의 조사 대상은 가구 내 주 구입자, 성인 구입자, 청소년 구입자로 이루어져 있어 각 조사 대상별 모수추정 및 자료 분석이 가능함.4)

❍ 각 조사 대상에 대해서는 선택되는 복잡표본추출방식(complex sampling)과 표본추 출틀의 모집단 포괄범위(coverage) 및 무응답 정도를 고려한 표본 가중치를 함께 고려 하여 모수추정 및 자료 분석을 진행해야 함.

4) 2019년 조사의 기본적 틀은 기존 조사와 동일한 방식을 따르고 있어서, 본 장에서의 추정에 대한 기술은 박인호 외 (2017)와 같음.

4.2. 모수추정

4.2.1. 총합추정

❍ 본 조사를 통해 얻게 되는 대부분의 모수는 총합추정량(total estimator)에 기초하여 산출됨.

- 특성치 에 대한 총합추정량  를 다음과 같이 정의

    

     

  (식 2-2)

- 여기서 와 는 각각 층 번째 조사구 내 번째 표본응답개체의 표본 가중치 와 조사값을 나타내며, 는 총 표본층 수, 는 층 내 조사구 수, 는 조사구 내 표 본응답개체 수

- 이는 1.1절장에 기술한 바와 같이 두 개의 독립표본으로부터 얻는 두 개의 총합추정 량의 가중합의 형태로 식 (2-1)과 동일한 추정량

❍ 조사 단위별로 총합추정량이 계산되며, 3절에서 기술한 바와 같이 주 구입자, 성인 구입 자, 청소년 구입자 각각의 표본 가중치와 조사값을 선택, 사용함.

4.2.2. 영역총합추정

❍ 식품소비행태를 권역별, 성별, 연령별 등의 세부 영역으로 나눈 통계를 구하는 것을 영 역추정(domain estimation)이라 칭함.

❍ 영역총합추정을 위해서는 식품소비행태가 특정한 영역에 포함되는지의 여부를 나타내 는 지시자(indicator)를 먼저 정의한 후 총합을 추정함.

- 영역지시자와 새로운 변수를 다음과 같이 정의

   

 ∈ ∉ 

  

여기서  ⊂  는 특정 세부영역 를 의미

- 영역총합추정량(domain total estimator)은 위의 변수로 정의되는 가중합 형태로 다음과 같이 추정

  

     

 

4.2.3. 총합함수추정

❍ 모수는 종종 ×  총합벡터

 ′의 함수인   

으로 표현되며, 표 본추정량은 총합추정량을 해당 함수에 대입하여 구할 수 있음.

 





여기서

 ′와

  ′    

는 각각  개의 조사값과 총합추정량임.

❍ 비추정은 위의 총합함수추정의 특수형태(즉,   )인데 평균과 영역별 비율 등이 그 예임.

- 두 총합의 비추정은 다음과 같이 정의

    

여기서 와 는 특성치 와 의 총합추정량

- 만일 모든 개체에 대해 ≡ 이라 놓는다면, 은 모집단 크기 에 대한 추정량

이 되며, 비추정량은 다음과 같은 평균추정량으로 계산

    (식 2-3)

- 위의 평균추정량을 독립된 두 표본으로부터 얻게 되는데 다음과 같이 두 추정량의 가 중합이 됨. 단, 와 는 각각 표본  로부터 얻어지는 총합과 크기에 대 한 추정량

  



 

  

  (식 2-4)

4.3. 분산추정

4.3.1. 총합추정

❍ 총합추정량 을 층별 총합추정량의 단순평균합 형태로 표현한다면 층간 독립표본의 성질을 이용하여 다음과 같이 분산추정식을 추정할 수 있음.

    

   

   

      (식 2-5)

-    는 조사변수 의 층 총합      의 불편추정 량이고,  는 층 내 표본추출률

- 의 표현은 분산추정식 이 일차추출 단위 합성값 에 대한 연산자 형태 로 나타날 수 있음을 의미

- 본 조사의 경우, 층 내 표본추출률 은 매우 작아 위의 식에서 생략 가능

4.3.2. 영역총합추정

≡ 인 경우에 해당함.

   (식 2-6)

- 하지만 위의 식은 혼합표본의 특성보다는 전체 표본에 대한 총합인 (식 2-6)이 고려 된 다소 간소한 근사적 분산추정의 형태에 해당

❍ 식품소비행태조사의 혼합표본 특성을 고려하면, 두 독립표본에 대한 혼합추정 총합들 에 대한 테일러정리를 이용한 선형근사 분산추정량을 사용할 수 있음.

- 기존표본 와 신규표본 에 대한 총합 및 크기에 대한 4가지 총량의 함수인 식 (4-3)의 평균추정을 고려하여 이에 대해 테일러 선형근사를 적용하여 분산추정식을 유도하면 다음과 같이 표현

    (식 2-7)

- 따라서 평균추정량(혹은 비율추정량)에 대한 분산계산은 기존표본과 신규표본에 대 해 각각 분산을 추정한 후, 이를 (식 2-5)로 취합하여 계산하는 것이 바람직

- 따라서 평균추정량(혹은 비율추정량)에 대한 분산계산은 기존표본과 신규표본에 대 해 각각 분산을 추정한 후, 이를 (식 2-5)로 취합하여 계산하는 것이 바람직

관련 문서