• 검색 결과가 없습니다.

전수층 무응답 처리를 위한 가중치 보정법에 관한 연구 논문보기 | 통계개발원

N/A
N/A
Protected

Academic year: 2021

Share "전수층 무응답 처리를 위한 가중치 보정법에 관한 연구 논문보기 | 통계개발원"

Copied!
20
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

전수층 무응답 처리를 위한 가중치 보정법에 관한 연구

1)

전승신

2)

· 신기일

3)

요약

표본설계는 적은 수의 표본을 사용하여 추정의 정확성을 높이는 방법을 사용해야 한다. 이를 위 해 층화표본추출법이 대표적으로 사용되며 특히 사업체조사의 경우 대기업을 전수 추출하는 수 정절사법(modified cut-off sampling)이 흔히 사용된다. 그러나 최근 조사현실의 악화로 전수층에 다수의 단위무응답이 발생하고 있으며 이는 전수층 모수 추정의 정확성을 떨어뜨리는 중요한 요 인이 된다. 이에 본 연구에서는 전수층에서 다수의 무응답이 발생되고 무응답 대체가 현실적으 로 어려운 경우에 사용할 수 있는 가중치 보정법을 제안하였다. 즉 전수층을 동일응답그룹 (response homogeneity group)방법의 하나인 세부층으로 나눈 후 새로운 가중치를 적용하여 모 수를 추정하는 방법을 제안하였다. 또한 모의실험을 통하여 제안된 방법의 우수성을 확인하였다. 주요 용어: 수정절사법, 정보적 표본설계, 선형 응답률 모형, 파워형 응답률 모형

1. 서론

최적의 표본설계 방법은 주어진 정확성 수준을 만족하면서 최적의 표본을 사용하 여 조사하는 설계 방법이다. 이를 위해 표본 추출틀에 있는 층화변수를 이용하여 층 을 나눈 후 표본을 추출하는 층화추출법이 흔히 사용된다. 이때 일부 자료가 평균 또 는 총계 추정에 큰 영향을 주게 되면 이 자료를 하나의 층으로 묶어 전수층을 만들게 되며 이렇게 모집단을 전수층과 표본층으로 나누는 표본설계 방법을 수정절사법 (modified cut-off sampling)이라 한다. 이 방법은 적은 수의 표본을 사용하여 추정의 정확성을 향상시키는 표본설계 방법 중 하나로 사업체조사에서 흔히 사용하는 방법이 다. Hidiroglou (1986)는 층화추출법의 특수한 경우로 수정절사표본설계법을 제안하였 으며 이후 Lavallee와 Hidiroglou (1988)는 전수층과 절사층 그리고 여러 개의 표본층 으로 구성된 절사표본설계법을 연구하였고 이를 바탕으로 LH 알고리즘을 제안하였다. Hidiroglou와 Srinath (1993)는 LH 알고리즘을 일반화한 General Lavallee-Hidiroglou 알고리즘을 제안하였다. 또한 Rivest (2002)는 수정된 LH 알고리즘을 발표하였으며 Baillargeon과 Rivest (2011)는 R 패키지를 개발하여 절사표본설계법을 쉽게 사용할 수 있도록 하였다. 이와 같이 절사법과 관련된 다수의 논문이 발표되었다. 1) 이 연구는 2019년 한국외국어대학교 교내연구비 지원을 받아 수행되었음. 2) 대학원생, 한국외국어대학교 통계학과 3) 교수, 한국외국어대학교 통계학과, 교신저자 E-mail: keyshin@hufs.ac.kr

(2)

최근 조사 현실의 악화로 인해 다수의 단위무응답이 발생하며 표본층 뿐만 아니라 전수층에서도 단위무응답이 발생한다. 표본층의 경우 단위무응답이 발생하게 되면 표 본 대체(sample substitution)를 통해 이 문제를 큰 틀에서 해결할 수 있다. 그러나 전 수층의 경우 예비 표본이 없기 때문에 표본 대체는 불가능하다. 이에 전수층에서 발 생한 단위무응답을 해결하는 방법의 하나로 전수층 크기를 축소하는 방안이 연구되었 다. Lee and Shin (2016)은 비용함수를 고려하여 전수층 규모를 축소하기 위한 최적 절사점 결정 방법을 연구하였다. 그러나 전수층의 규모를 축소하더라도 전수층에서 발생한 무응답을 적절히 처리할 수 있는 방법은 여전히 필요하다. 이를 위해 항목무 응답의 결측치 대체 방법 사용을 고려할 수도 있으나 국내 현실에서는 전수층의 결측 치 대체가 어려운 경우가 대부분이므로 실질적으로 사용할 수 있는 방법은 가중치 보 정방법이다. 최근 단위무응답이 MAR(missing at random)와 같이 랜덤으로 발생하지 않고 층 화변수 또는 관심변수에 영향을 받는 경우가 다수 발생하고 있음에도 불구하고 주어 진 자료의 특성을 고려하지 않고 층 전체 자료에 동일한 가중치를 적용하는 방법이 흔히 사용된다. 이 경우 추정의 정확성이 담보될 수 없으므로 층화변수 또는 관심변 수에 영향을 받는 무응답이 발생할 경우에는 이를 고려한 새로운 가중치 보정방법이 사용되어야 한다. 최근 정보적 표본설계 기법을 응용하여 무응답 편향을 보정하는 방 법이 제안되었다. Chung and Shin (2017)과 Min and Shin (2018)은 무응답이 발생한 경우에 정보적 표본설계 기법을 이용하여 편향을 보정하는 방법을 연구하였으며 이를 위해 새로운 가중치를 적용하는 가중치 보정 방법을 제안하였다. 또한 Sandal 등 (1992)은 셀 가중치 보정방법으로 동일응답그룹(response homogeneity group: RHG) 모형을 설명하였다.

이에 본 연구에서는 동일응답그룹 방법의 하나인 Min and Shin (2018)과 Chung and Shin (2017)의 세부층 구성 방법을 적용하여 전수층 가중치를 보정함으로써 추정 의 정확성을 향상시키는 방법을 제안하였으며 모의실험을 통해 우수성을 확인하였다. 본 논문의 구성은 다음과 같다. 2절에서는 기존에 사용하고 있는 전수층 단위무응 답 가중치 보정 방법을 살펴보았다. 3절에서는 본 연구에서 제안한 새로운 전수층 가 중치 보정방법을 설명하였으며 4절에 모의실험 결과를 수록하였다. 실제 자료 분석을 실시하는 것이 타당하지만 전수층 실제자료를 얻는 것이 현실적으로 어렵기 때문에 본 연구에서는 실시하지 못하였다. 5절에 결론과 연구의 한계점을 수록하였다.

2. 전수층 단위무응답 가중치 보정방법

2.1 전수층 단위무응답 국내 표본 조사는 조사 현실의 악화로 인해 단위무응답이 다수 발생한다. 이를 위 해 대부분의 조사에서 예비표본을 준비하여 응답 거절과 같은 단위무응답 발생에 대 비한다. 그러나 전수층에서는 예비표본을 준비할 수 없기 때문에 최종 조사 비율이

(3)

저조한 경우가 많이 발생한다. 이렇게 무응답이 많이 발생한 자료는 자료의 수가 줄 어들게 되므로 추정의 정밀성이 떨어지게 되며 특히 무응답 또는 응답이 보조변수인 종사자 수 또는 관심변수에 영향을 받게 되면 추정 결과에 편향이 발생하게 된다. 흔 히 전수층 내에서도 규모가 상대적으로 작은 대기업의 경우에 상대적으로 응답할 확 률이 더 높으며 특히 산업을 선도하는 대규모 사업체의 경우 거절할 가능성이 더 높 은 것이 현실이다. 최근에는 종사자 규모 대신에 매출액 규모를 기준으로 표본설계가 수행되는 경우가 있으나 이 경우에도 유사한 현상이 일어난다. 특히 전수층은 전체 모집단 총합에 미치는 영향이 매우 크기 때문에 전수층의 정확한 추정 방법 사용은 매우 중요하다. 2.2 전수층 무응답 가중치 보정 방법 전수층에서 발생한 무응답 처리 방법으로 사용되는 대표적인 방법이 무응답 대체 법과 무응답 가중치 보정 방법이다. 무응답 대체법에 관한 많은 이론이 이미 개발되 었고 이를 실무에도 적용하고 있지만 우수한 추정 결과를 주는 무응답 대체법을 사용 하기 위해서는 충분한 보조정보가 있어야 한다. 따라서 충분한 보조정보가 없고 무응 답이 MAR(missing at random) 가정을 따른다고 가정할 수 있다면 평균 대체법과 같 은 간단한 무응답 대체법을 사용할 수밖에 없다. 반면 가중치 보정방법은 비표본오 차에 영향을 주는 다른 요인을 함께 고려할 수 있고 또한 MAR 가정 하에서 평균 대 체법과 같은 효과를 낼 수 있으므로 충분한 보조정보가 없는 경우에 효과적으로 사용 될 수 있다. 가중치 보정법은 흔히 여러 단계를 거쳐 이루어진다. 먼저 표본설계 당시의 층별 가중치를     라 하자. 여기서  는 각각 층별 모집단 수와 층별 표본 수이 다. 그리고 각 층에서 무응답이 랜덤으로 발생하고, 수정된 새로운 모집단이 얻어졌으 며 또한 행정자료 또는 보조 자료로 부터 추가 정보가 있는 경우 최종 가중치 는 다음과 같이 구해진다.  ×    × ×  (3.1) 여기서    는 무응답 보정인자로        로 구해지며 는 최종 응답 한 표본 수이다. 또한 은 모집단 보정인자로      로 구해지며  는 새롭게 얻어진 층별 모집단 수이다. 또한 는 밴치마크 보정인자로     로 구해진다. 는 보조자료 또는 행정자료에 의해 얻어진 참값 또는 목표 값이고 은 표본 조사에서 얻어진 결과 값이다. 만약 이상점을 고려한다면 이상점 보정

(4)

인자를 추가하여 최종 가중치를 얻을 수 있다. 이와 같이 여러 과정을 거쳐 최종 가 중치 가 구해지고 이 최종 가중치가 추정에 사용된다. 본 연구에서는 무응답 보정 만을 고려하기 때문에 다른 모든 보정인자가 ‘1’인 경우를 고려하였다. 즉 본 연구에 서 사용된 최종 보정 가증치는 다음과 같다.  ×    (3.2)

3. 세부층을 이용한 전수층 무응답 가중치 보정 방법

이 절에서는 절사법에서 전수층의 무응답 보정 추정량을 제안하였다. 이제   개 의 표본층이 있고  번째 층이 전수층인 절사법을 고려하자. 그리면 흔히 무응답만을 고려한 전수층의 최종 가중치로 다음의 (3.3)식이 사용된다.  ×       ×        (3.3) 결국 모집단 수를 최종 조사 표본 수로 나누어 준 값을 최종 가중치로 사용한다. 따라서 총합 추정 및 평균 추정을 위해 다음의 추정량을 사용한다.  

     

       (3.4) 이 방법은 응답이 보조변수 또는 관심변수와 무관하게 랜덤으로 이루어졌다는 가 정 하에서 유용하게 사용될 수 있다. 그러나 2절에서도 언급하였듯이 응답이 랜덤이 아닌 경우가 흔히 발생하며 이 경우 무시할 수 없는 결측(NM: non-ignorable missing)이 되어 (3.4)식의 사용은 더 이상 정확한 결과를 주지 않는다.

이에 본 연구에서는 Chung and Shin (2017)과 Min and Shin (2018)에서 제안한 방법인 세부층 구성을 이용한 가중치 보정 방법을 제안하였다. 이 방법은 가중치 보 정 방법인 동일응답그룹(RHG: response homogeneity group) 방법의 특수한 경우에 해당되며 동일응답그룹에 관한 내용은 Sandal 등 (1992)을 살펴보기 바란다.

본 연구에서 제안한 방법은 다음과 같다. 먼저 전수층을 보조변수(종사자 수 또는 매출액) 를 기준으로 전수층을 다수의 세부층으로 나눈다. 이때 세부층의 개수는 전

수층의 모집단 수에 따라 달라질 수 있으나 만들어진 각 세부층에 포함된 자료 수가 약 10개 정도가 되도록 세부층의 수를 결정하면 무리 없이 우수한 결과를 얻을 수 있

(5)

다고 판단된다. 물론 이 결과는 Min and Shin (2018)의 모의실험 결과에 기초한 것으 로 Min and Shin (2018) 논문은 정규분포를 따르는 경우만을 연구하였기 때문에 사 업체조사처럼 꼬리가 긴 분포를 갖는 경우로 직접 그 결과를 확장하는 것은 주의할 필요가 있다. 특히 전수층 표본 수가 많지 않은 경우에 너무 많은 수로 세부층을 나 눌 경우 오히려 좋지 않은 결과를 얻을 수 있다. 세부층을 나누는 방법은 여러 가지가 있을 수 있으나 본 연구에서는 모집단 자료 에 포함된 보조변수 의 분위수를 기준으로 나누는 방법을 사용하였다. 이제 전수층 을 나눈 세부층의 층 개수를  이라 하고 번째 세부층을 분위수 기준으로 나누었다 고 가정하자. 그러면 전수층인  층의 번째 세부층에서 세부층의 모집단 수와 최종 응답 자료 수인 와 가 얻어지며 이를 이용하여 번째 세부층의 새로운 가중치 를 다음의 (3.5) 식으로 정의할 수 있다.     (3.5) 물론 (3.5)식의 세부층 가중치의 합은

   

     

       × 

    이 된다. 따라서 최종 총합 추정량  및 평균 추정량 은 다음과 같다. 

   

      

 

     (3.6) 여기서 (3.4)와 (3.6)을 비교하면 (3.6)에서   인 경우가 기존에 흔히 사용하는 방법에 해당된다.

4. 모의실험

4.1 모의실험 설계 및 비교통계량 본 모의실험에서는 기존에 사용하고 있는 추정량인 (3.4)식의 추정값과 본 연구에 서 제안한 가중치 보정추정량 (3.6)식의 추정값을 비교하였다. 이를 위해 초모집단모 형을 갖는 전수층 자료와 응답 자료를 생성하였다. 또한 제안된 추정량의 성능을 비 교하기 위한 비교통계량을 설명하였다.

(6)

4.1.1 모집단 생성과정 (1) 층화변수 및 보조변수 생성 흔히 사용되는 층화변수는 종사자 규모 또는 매출액 규모이다. 또한 이 층화변수 는 보조변수로도 사용되고 있으며 종사자 수 또는 매출액이 증가할수록 모집단 수가 감소하기 때문에 본 연구에서는 보조변수 가 감마 분포를 따른다고 가정하였다. 즉 ∼에서  개의 자료를 생성하였다. 이후 최종 보조변수 자료 값은     를 사용하였다. 이는 본 논문에서는 전수층을 다루기 때문에 실제 조 사에서는 종사자 수 300인 이상을 전수층으로 다루는 경우가 흔히 있으므로    을 사용하였다. 또한      을 사용하였다. (2) 관심변수 생성 관심변수 는 층화변수인 에 영향을 받는 경우가 흔히 있으며 이를 기초로 만 든 모형을 초모집단모형(super-population model)이라 부른다. 이에 본 연구에서는 초 모집단모형을 기초로 관심변수를 생성하였다. 전수층은 사업체조사에서 흔히 사용되 고 있고 또한 초모집단모형의 오차가 로그-정규분포를 따르는 경우가 많이 있으므로 로그-정규분포를 고려하였으며 또한 기본적인 분포인 정규분포도 고려하였다. 이에 정규분포와 로그-정규분포를 이용한 초모집단모형을 이용하여 관심변수 자료 값을 생 성하였다. 1) 정규분포     (4.1) 여기서  ,  을 사용하였으며  ∼ 이고  이다. 2) 로그-정규분포 log     (4.2) 여기서  ,  을 사용하였으며  ∼ 이고  이다. 두 분포 모두  인 경우가 관심변수가 층화변수 또는 보조변수에 영향을 받지 않는 경우에 해당되나 흔히 관심변수가 보조변수와 관계가 있으므로 본 연구에서는 이를 고려하지 않았다. 또한 이상점이라 판단할 수 있을 정도의 매우 큰 값이 생성될

(7)

수 있으므로 이를 제거하기 위해 일률적으로 5% 자료를 추가로 생성한 뒤 상위 5% 자료를 제거하여 최종 모집단 자료를 생성하였다. 즉 100개의 모집단을 생성하기 위 해 105개의 데이터를 생성 후 관심변수 기준 상위 5개의 자료는 제거하였다. 500개 의 모집단 자료 생성도 동일한 방법이 사용되었다. 만약 실제 자료에서 이상점과 무 응답이 동시에 있는 경우라면 이상점의 가중치를 먼저 ‘1’로 처리하고 이상점이 아닌 자료의 무응답을 본 연구에서 제시한 방법으로 가중치를 보정한다면 우수한 결과가 얻어질 수 있을 것으로 판단된다. 다만 본 연구에서는 이상점 처리와 관련된 내용을 연구하는 것이 주된 목적이 아니기 때문에 일률적으로 이상점 발생 가능성을 제거하 였다. (3) 모집단 수 전수층을 고려하기 때문에 모집단 수와 배정된 표본 수는 일치한다. 대부분의 표 본 조사에서 전수층의 모집단 수는 많지 않기 때문에 본 연구에서는      을 사용하였다. 4.1.2 응답률 모형 본 연구에서는 응답률이 보조변수 에 영향을 받는 경우와 관심변수 에 영향을 받는 경우를 고려하였다. 무응답과 관련된 응답률 모형은 매우 다양하지만 본 연구에 서는 다음의 두 모형을 사용하였다. (1) 선형 응답률 모형 보조변수 선형 응답률 모형은 응답이 보조변수 와 관계가 있으며 그 관계가 선 형인 경우를 의미한다. 이를 반영하기 위해 다음의 모형을 사용하였다.    (4.3) 여기서 는 번째 개체가 응답할 확률이며 의 부호에 따라 보조변수가 커짐에 따라 응답률이 증가할 수도 감소할 수도 있다. 예를 들어 사업체조사에서 이 음수 인 경우 대규모 사업체일수록 응답률이 떨어지는 것을 반영한다. 또한 관심변수 가

응답률에 영향을 줄 수 있으며 이러한 관심변수 선형 응답률 모형은 Chung and Shin (2017)과 Min and Shin (2018)에서도 사용되었다. 모형은 다음과 같다.

(8)

물론  인 경우에는 응답률이 모두 동일하며 따라서 랜덤으로 응답이 이루어 진 경우에 해당된다. (2) 파워형 응답률 모형 파워형 응답률 모형은 응답률과 보조변수 또는 관심변수와의 관계가 파워형인 경 우를 나타낸다. 보조변수 와 관심변수 의 파워형 응답률 모형은 다음과 같이 정의 된다. 보조변수 파워형 응답률 모형:  ×   (4.5) 관심변수 파워형 응답률 모형:  ×   (4.6) 파워형 응답률 모형에서도   인 경우가 랜덤으로 응답이 이루어진 경우이다. 4.1.3 층화 최종적으로 얻어진 자료는     … 개이고 무응답에 의한 가중치 보정을 고려해야 한다. 이를 반영하기 위해 하나의 전수층을  개의 세부층으로 나눈다. 실제 자료 분석에서는 모집단에 보조변수 의 정보만 있으므로 보조변수를 기준으로 세부

층을 나눈다. Chung and Shin (2017)에서는 모집단 자료에 포함된 보조변수의 분포를 등간격으로 나누어 세부층을 구성하였으나 Min and Shin (2018)은 등간격보다 보조 변수의 분위수를 이용할 경우 더욱 우수한 결과를 주는 것을 보였다. 특히 Min and Shin (2018)은 정규분포에서 실제 자료 분석에서 사용할 수 있는 세부층 개수와 세부 층 내의 표본 자료 개수를 정하였다. 이에 본 논문에서는 분위수를 이용하여 세부층 을 구성하였다. 또한 층의 개수로   인 경우   를 사용하였으며   인 경우에는   을 사용하였다. 여기서   인 경우가 전수층 내 모든 표본의 가 중치를 동일하게 주는 기존의 방법이다. 4.1.4 비교통계량 (3.4)와 (3.6)식을 이용하여 얻어진 평균 추정값은 다음의 세 가지 비교통계량, 편 향(bias), 절대편향(absolute bias; Abias) 그리고 제곱근 MSE(root mean squared error; RMSE)를 이용하여 결과의 성능을 비교하였다. 각 통계량의 정의는 다음과 같 다.   

     

(9)

  

       

 

       여기서   을 사용하였고 각 반복마다 새로운 모집단을 생성하여 통계량을 계산하였으며 이는 생성된 특정 모집단의 영향을 줄이기 위함이다. 이에 번째 반복 모집단 평균의 참값을 로 표시하였다. 4.2 모의실험 결과 모의실험 결과는 두 부분으로 나누어진다. 응답률이 보조변수 값에 영향을 받는 경우와 관심변수 에 영향을 받는 경우이다. 응답률은 응답률 모형에 포함된 계수의 부호에 따라 증가 또는 감소하게 되며 흔히 전수층에서는 50% 또는 그 이하의 응답 률을 보이게 된다. 본 연구에서는 응답률이 약 50%에서 70% 정도가 되는 경우를 고 려하였으며 그보다 작은 응답률에서도 유사한 결과가 얻어질 것으로 예상된다. 표에 서  는 세부층 개수를 의미하며 은 응답한 최종 표본 수를 나타낸다. 이때 응답이 주어진 확률에 따라 발생하기 때문에 실제 응답한 개수가 일정하지 않아 대표적인 값 하나를 표에 수록하였다. 4.2.1 보조변수  값이 응답률에 영향을 미치는 경우 이 절에서는 응답률이 보조변수에 영향을 받는 경우의 결과를 수록하였다. 선형 응답률모형과 파워형 응답률 모형 각각에서 초모집단모형의 오차가 정규분포인 경우 와 로그-정규분포인 경우를 살펴보았다. 또한 모집단 수  이 100인 경우와 500인 경 우의 결과를 수록하였다. (1) 선형 응답률 모형 결과 선형 응답률 모형 결과인 <표 4.1>부터 <표 4.4>의 결과를 살펴보면 모집단 수에 상관없이 본 연구에서 제안한 방법인 세부층을 나누어 무응답을 보정한 결과가 매우 우수한 결과를 주는 것을 확인할 수 있다. 이미 예상한 것처럼 관심변수 의 값이 작 은 자료가 많이 추출되고, 반면 큰 값이 적게 추출되면 음의 편향이 발생하고 그 반 대의 경우에는 양의 편향이 발생한다. 물론 본 연구에서는 초모집단모형을 사용하기 때문에 보조변수 의 값이 관심변수  값에 전이되므로  값이 응답률에 영향을 주 는 경우에도 유사한 결과가 얻어질 것으로 예상된다. 따라서 응답이 랜덤으로 발생하 지 않았음에도 랜덤으로 발생한 것으로 가정하여 분석하는 기존의 방법의 경우, 즉   인 경우는 층 내 모든 표본의 가중치를 동일하게 주기 때문에 편향이 발생할

(10)

것으로 예상된다.

모의실험 결과를 살펴보면 편향(Bias)과 절대편향(Absolute bias)이 거의 일치하는 것으로 나타나 응답 편향(response bias)이 매우 크게 발생한 것을 확인할 수 있다. 그러나 본 논문에서 제안한 추정량을 사용한 결과를 살펴보면 편향이 매우 빠르게 감 소하는 것을 확인할 수 있다. 즉 <표 4.1>의  m in  m ax   이고   의 결 과에서 편향은 –2.42였으나   인 세부층을 사용함으로써 –0.33으로 축소되었다. 이는 제안된 추정량 사용이 매우 효과적인 것을 의미한다. 또한 절대편향과 RMSE 도 크게 줄어드는 것을 확인할 수 있으며 결과를 살펴보면 절대편향과 RMSE는 각각 2.43과 2.70에서 0.46과 0.61로 크게 줄어들었다. 이와 유사한 결과가 모든 응답률과 세부층에서 얻어져 제안된 추정량의 우수성을 확인할 수 있다. 특히 모집단 수 또는 최종 표본 수가 큰 경우에 매우 크게 편향이 줄어들었으며 절대편향 및 RMSE도 매우 크게 줄어드는 것을 확인할 수 있다. 즉 <표 4.2>를 살펴 보면  m in  m ax   ,   에서 편향의 경우 –2.71에서 -0.03으로, 절대편 향과 RMSE는 2.71에서 0.07, 그리고 2.77에서 0.09로 매우 큰 감소폭을 보이고 있다. 다만  m in  m ax   ,    또는  인 경우 RMSE=0.25로 결과가 나 빠진 것을 확인할 수 있다. 이러한 현상은  m in  m ax   에서도 나타났다. 따 라서 매우 큰  를 사용할 경우 결과가 나빠질 수도 있으므로 사용에 주의해야 한다. 또한 <표 4.1>과 <표 4.2>에서 응답률이 보조변수 와 무관한 결과인  m in  m ax    결과를 살펴보면 편향이 거의 발생하지 않은 것을 확인할 수 있다. 그러나 세부층을 이용해 새로운 가중치를 사용함으로써 절대편향과 RMSE는 크게 감소하는 것을 확인할 수 있다. 로그-정규분포 결과인 <표 4.3>은 전체적으로 정규분포 결과와 유사하며 모집단 자료 수가 많은 <표 4.4>에서 가중치 보정 효과가 더욱 크게 나타나고 있다. 다만 로 그-선형 모형의  m in  m ax   를 살펴보면 보정 가중치를 사용함으로써 편향 이 미미하게 증가하는 것을 확인할 수 있다. 그러나 그 값 자체가 RMSE에 미치는 영향이 작아 추정 결과에 큰 영향을 미치지 않을 것으로 판단된다. 반면 제안된 추정 량을 사용함으로써 절대편향과 RMSE는 크게 줄어드는 것을 확인할 수 있어 본 연구 에서 제안한 방법이 매우 우수한 결과를 주는 것을 확인할 수 있다.

다만 세부층 개수를 매우 크게 하는 것은 문제가 될 수 있다. Min and Shin (2018)은 세부층의 개수가 너무 많으면 추정의 결과가 나빠지는 것을 보였다. 또한 본 모의실험에서도 유사한 결과가 도출되었다. 만약 실제 자료를 분석할 경우에는 세부 층의 층 개수를 늘려 세부층에 10개 미만의 표본 자료를 사용할 수도 있지만 층 내에 특이값이 존재한다면 과대 추정될 가능성이 높고 또한 세부 층의 개수가 늘어난다고 해도 추정의 정확성은 크게 향상되지 않는다. 따라서 각 세부층 내의 표본 수가 평균 적으로 10개 이상을 유지하는 것이 바람직하다고 판단된다. 결론적으로 세부층을 사 용하여 가중치를 보정한 결과가 모든 경우에서 우수한 결과를 주는 것을 확인할 수 있다.

(11)

<표 4.1> 보조변수 선형 응답률 모형과 정규분포를 이용한 결과(  )

     

 Bias Abias RMSE 0.9 0.5 78 1 78 -2.42 2.43 2.70 3 26 -0.66 0.76 0.95 5 16 -0.33 0.46 0.61 0.8 0.4 72 1 72 -2.81 2.82 3.15 3 24 -0.75 0.89 1.12 5 14 -0.39 0.56 0.73 0.5 0.5 60 1 60 -0.02 1.46 1.86 3 20 0.01 0.74 0.95 5 12 -0.02 0.52 0.67 0.5 0.9 71 1 71 3.08 3.10 3.43 3 24 0.62 0.71 0.86 5 14 0.25 0.38 0.47 0.4 0.8 60 1 60 3.69 3.72 4.16 3 20 0.74 0.87 1.08 5 12 0.30 0.49 0.61 <표 4.2> 보조변수 선형 응답률 모형과 정규분포를 이용한 결과(  )

     

 Bias Abias RMSE

0.9 0.5 373 1 373 -2.71 2.71 2.77 10 37 -0.11 0.14 0.18 15 25 -0.06 0.10 0.12 25 15 -0.03 0.07 0.09 30 12 -0.03 0.07 0.25 0.8 0.4 318 1 318 -3.11 3.11 3.18 10 32 -0.14 0.17 0.22 15 21 -0.08 0.12 0.15 25 13 -0.03 0.09 0.11 30 11 -0.04 0.10 0.35 0.5 0.5 243 1 243 -0.04 0.66 0.82 10 24 0.00 0.14 0.17 15 16 -0.01 0.11 0.14 25 10 -0.01 0.10 0.12 30 8 -0.01 0.10 0.22 0.5 0.9 315 1 315 3.20 3.20 3.26 10 32 0.07 0.10 0.13 15 21 0.03 0.08 0.10 25 13 0.01 0.07 0.09 30 11 0.01 0.07 0.09 0.4 0.8 262 1 262 3.80 3.80 3.89 10 26 0.08 0.13 0.16 15 17 0.04 0.10 0.12 25 10 0.01 0.09 0.11 30 9 0.01 0.09 0.11

(12)

<표 4.3> 보조변수 선형 응답률 모형과 로그-정규분포를 이용한 결과(  )

     

 Bias Abias RMSE 0.9 0.5 75 1 75 -229.12 240.54 320.22 3 25 -100.75 157.40 226.84 5 15 -62.82 148.25 213.63 0.8 0.4 69 1 69 -266.88 286.20 375.77 3 23 -121.47 198.48 275.77 5 14 -76.37 191.02 264.46 0.5 0.5 48 1 48 2.26 216.99 297.18 3 16 3.08 197.35 268.04 5 10 4.04 195.16 268.83 0.5 0.9 62 1 62 273.56 289.58 364.42 3 21 82.27 137.21 179.49 5 12 42.85 120.59 157.66 0.4 0.8 52 1 52 339.54 355.12 462.50 3 17 103.82 170.64 229.00 5 10 56.72 149.50 201.72 <표 4.4> 보조변수 선형 응답률 모형과 로그-정규분포를 이용한 결과(  )

     

 Bias Abias RMSE

0.9 0.5 385 1 385 -218.39 218.39 233.90 10 39 -23.72 57.50 71.62 15 26 -15.25 56.16 69.93 25 15 -7.65 55.91 69.76 30 13 -7.78 57.32 71.98 0.8 0.4 331 1 331 -251.62 251.68 270.91 10 33 -28.86 70.55 90.72 15 22 -18.93 69.21 88.18 25 13 -10.14 70.66 91.21 30 11 -11.66 73.09 94.72 0.5 0.5 246 1 246 0.43 82.48 106.45 10 25 0.90 67.95 87.64 15 16 -0.30 68.65 88.17 25 10 -0.58 69.58 89.81 30 8 -2.57 69.93 90.09 0.5 0.9 317 1 317 255.86 255.86 269.89 10 32 12.38 44.62 56.22 15 21 6.47 43.52 55.37 25 13 2.53 44.48 56.64 30 11 1.75 44.81 56.82 0.4 0.8 257 1 257 309.36 309.36 329.45 10 26 14.46 55.79 71.06 15 17 6.83 55.45 70.47 25 10 1.79 56.65 72.48 30 9 0.16 56.17 72.27

(13)

(2) 파워형 응답률 모형 결과 파워형 응답률 모형 결과는 <표 4.5>부터 <표 4.8>에 수록되어 있다. 정규분포 결 과인 <표 4.5>를 살펴보면 모든 응답률 조합에서 층의 수가 3에서 5로 증가할 때 편 향과 절대편향 그리고 RMSE가 모두 크게 감소하였다. 이러한 결과는 모집단 수가   인 경우의 결과인 <표 4.6>에서도 살펴볼 수 있다. 또한 로그-정규분포를 사 용한 결과인 <표 4.7>과 <표 4.8>의 결과 또한 선형 응답률 모형 결과와 매우 유사 하다. 또한 로그-정규 분포이고    또는 30 결과 중 일부에서 Abias 또는 RMSE 가 나빠지는 것을 확인할 수 있다. 따라서 세부층 개수를 너무 크게 하여 층 내에 포 함된 표본 개수를 줄여 무응답 가중치를 보정하는 방법을 사용하는 것은 주의해야 한 다. 또한 특기할 내용으로 선형 응답률 모형과 파워형 응답률 모형 모두에서  m in  m ax   인 경우는 같은 결과를 준다. 이는 응답률이 모형과 무관하게 일정하기 때문이다. 따라서 파워형 응답률 모형에서도 본 연구에서 제안한 방법이 매 우 우수한 결과를 주는 것을 확인할 수 있다. <표 4.5> 보조변수 파워형 응답률 모형과 정규분포를 이용한 결과(  )

     

 Bias Abias RMSE 0.9 0.5 78 1 78 -2.62 2.62 2.89 3 26 -0.58 0.74 0.93 5 16 -0.28 0.46 0.60 0.8 0.4 70 1 70 -3.07 3.08 3.41 3 23 -0.67 0.90 1.12 5 14 -0.32 0.56 0.72 0.5 0.5 60 1 60 -0.02 1.46 1.86 3 20 0.01 0.74 0.95 5 12 -0.02 0.52 0.67 0.5 0.9 73 1 73 3.05 3.06 3.37 3 24 0.62 0.69 0.84 5 15 0.26 0.36 0.45 0.4 0.8 48 1 48 3.65 3.75 4.41 3 16 0.76 1.03 1.29 5 10 0.27 0.64 1.24

(14)

<표 4.6> 보조변수 파워형 응답률 모형과 정규분포를 이용한 결과(  )

     

 Bias Abias RMSE

0.9 0.5 359 1 359 -2.83 2.83 2.89 10 36 -0.08 0.13 0.16 15 24 -0.05 0.09 0.12 25 14 -0.02 0.07 0.09 30 12 -0.01 0.07 0.08 0.8 0.4 304 1 304 -3.28 3.28 3.35 10 30 -0.10 0.16 0.20 15 20 -0.06 0.12 0.15 25 12 -0.02 0.09 0.11 30 10 -0.03 0.10 0.34 0.5 0.5 243 1 243 -0.04 0.66 0.82 10 24 0.00 0.14 0.17 15 16 -0.01 0.11 0.14 25 10 -0.01 0.10 0.12 30 8 -0.01 0.10 0.22 0.5 0.9 330 1 330 3.18 3.18 3.23 10 33 0.07 0.09 0.12 15 22 0.03 0.07 0.09 25 13 0.01 0.06 0.08 30 11 0.01 0.06 0.08 0.4 0.8 444 1 444 1.69 1.69 1.71 10 44 0.01 0.03 0.04 15 30 0.01 0.03 0.04 25 18 0.00 0.03 0.04 30 15 0.00 0.03 0.04 <표 4.7> 보조변수 파워형 응답률 모형과 로그-정규분포를 이용한 결과(  )

     

 Bias Abias RMSE

0.9 0.5 72 1 72 -225.35 240.51 316.21 3 24 -80.88 159.26 224.82 5 14 -43.83 156.39 224.89 0.8 0.4 65 1 65 -260.65 285.27 369.77 3 22 -92.30 195.76 269.29 5 13 -49.14 196.28 267.46 0.5 0.5 48 1 48 2.26 216.99 297.18 3 16 3.08 197.35 268.04 5 10 4.04 195.16 268.83 0.5 0.9 60 1 60 276.40 292.50 367.69 3 20 85.63 140.08 183.08 5 12 45.09 122.19 160.14 0.4 0.8 66 1 66 290.28 295.97 356.92 3 22 76.86 117.14 149.47 5 13 34.04 99.92 128.50

(15)

<표 4.8> 보조변수 파워형 응답률 모형과 로그-정규분포를 이용한 결과(  )

  

  

 

 Bias Abias RMSE

0.9 0.5 374 1 374 -212.33 212.34 227.49 10 37 -14.39 56.38 71.10 15 25 -9.11 56.26 70.35 25 15 -4.25 57.49 71.72 30 12 -4.98 58.34 72.98 0.8 0.4 316 1 316 -246.23 246.38 265.50 10 32 -16.93 69.59 88.25 15 21 -11.02 68.75 87.03 25 13 -5.73 69.48 89.01 30 11 -7.35 71.55 91.05 0.5 0.5 246 1 246 0.43 82.48 106.45 10 25 0.90 67.95 87.64 15 16 -0.30 68.65 88.17 25 10 -0.58 69.58 89.81 30 8 -2.57 69.93 90.09 0.5 0.9 289 1 289 264.36 264.38 282.03 10 29 14.31 50.71 64.30 15 19 7.16 49.73 63.47 25 12 2.66 50.94 65.26 30 10 0.92 50.63 64.76 0.4 0.8 309 1 309 297.10 297.10 310.89 10 31 11.68 44.57 56.26 15 21 5.48 43.84 55.71 25 12 1.73 44.74 57.12 30 10 0.98 45.00 57.24 4.2.2 관심변수  값이 응답률에 영향을 미치는 경우 응답률이 관심변수 에 영향을 받는 경우의 결과는 응답률이 보조변수 에 영향을 받는 경우의 결과와 매우 유사하다. 이에 따라 결과표에서 m inm ax    의 결과를 수록하지 않았으며 또한 m inm ax  인 결과는 보조변수 를 사 용한 결과와 완전히 일치하기 때문에 결과표에 수록하지 않았다. 결론적으로 응답률 이 관심변수 에 영향을 받는 경우에도 본 연구에서 제안한 방법이 매우 우수한 결과 를 주는 것을 확인할 수 있다.

(16)

<표 4.9> 관심변수 선형 응답률 모형과 정규분포를 이용한 결과

      

 Bias Abias RMSE

100 0.9 0.5 78 1 78 -2.54 2.55 2.82 3 26 -0.72 0.80 1.00 5 16 -0.38 0.49 0.63 0.5 0.9 72 1 72 3.21 3.22 3.54 3 24 0.67 0.75 0.90 5 14 0.30 0.40 0.50 500 0.9 0.5 367 1 367 -2.61 2.61 2.67 10 37 -0.14 0.16 0.20 15 24 -0.10 0.12 0.14 25 15 -0.06 0.08 0.11 30 12 -0.06 0.08 0.10 0.5 0.9 319 1 319 2.96 2.96 3.01 10 32 0.11 0.13 0.15 15 21 0.07 0.09 0.12 25 13 0.06 0.08 0.10 30 11 0.05 0.08 0.10 <표 4.10> 관심변수 선형 응답률 모형과 로그-정규분포를 이용한 결과

      

 Bias Abias RMSE

100 0.9 0.5 75 1 75 -505.54 506.10 624.40 3 25 -442.13 443.35 557.22 5 15 -421.32 422.58 535.17 0.5 0.9 70 1 70 506.00 506.63 577.38 3 23 356.63 357.60 407.32 5 14 319.07 319.88 367.84 500 0.9 0.5 403 1 403 -360.84 360.84 383.72 10 40 -271.23 271.23 291.10 15 27 -266.58 266.58 285.88 25 16 -262.61 262.61 281.79 30 13 -262.34 262.34 281.45 0.5 0.9 297 1 297 441.50 441.50 455.79 10 30 268.53 268.57 278.32 15 20 262.71 262.73 272.51 25 12 259.17 259.21 269.16 30 10 257.35 257.36 267.57

(17)

<표 4.11> 관심변수 파워형 응답률 모형과 정규분포를 이용한 결과

      

 Bias Abias RMSE

100 0.9 0.5 77 1 77 -2.73 2.74 3.00 3 26 -0.64 0.77 0.97 5 15 -0.33 0.48 0.62 0.5 0.9 70 1 70 3.19 3.21 3.55 3 23 0.69 0.77 0.93 5 14 0.31 0.42 0.52 500 0.9 0.5 350 1 350 -2.67 2.67 2.74 10 35 -0.12 0.15 0.19 15 23 -0.09 0.12 0.14 25 14 -0.06 0.09 0.11 30 12 -0.06 0.08 0.10 0.5 0.9 316 1 316 2.99 2.99 3.05 10 32 0.11 0.13 0.16 15 21 0.07 0.10 0.12 25 13 0.06 0.08 0.10 30 11 0.05 0.08 0.10 <표 4.12> 관심변수 파워형 응답률 모형과 로그정규분포를 이용한 결과

      

 Bias Abias RMSE

100 0.9 0.5 64 1 64 -304.96 317.98 396.81 3 21 -221.03 249.06 322.43 5 13 -201.36 237.60 311.77 0.5 0.9 51 1 51 341.38 341.84 385.87 3 17 233.89 234.94 268.30 5 10 212.08 213.19 244.59 500 0.9 0.5 313 1 313 -222.94 223.27 240.97 10 31 -139.29 140.76 158.30 15 21 -137.91 139.56 157.09 25 13 -136.13 138.10 155.64 30 10 -137.58 139.49 157.53 0.5 0.9 375 1 375 245.57 245.57 253.84 10 38 146.62 146.63 153.28 15 25 144.30 144.30 150.88 25 15 142.71 142.74 149.72 30 13 141.80 141.82 148.84

(18)

5. 결론

본 연구에서는 전수층에서 발생한 단위무응답을 처리하기 위한 방법으로 새로운 가중치 보정방법을 제안하였다. 이를 위해 전수층을 세부층으로 나누어 새롭게 가중 치를 정의하였으며 세부층 경계는 모집단에 포함된 보조변수의 분위수를 사용하기 때 문에 세부층은 어렵지 않게 구할 수 있다. 물론 실제 자료에는 이상점과 무응답이 동 시에 발생하는 것이 매우 흔한 일이지만 본 연구에서는 무응답 처리를 위한 가중치 보정 방법만을 고려하였다. 따라서 향후에 이상점과 무응답이 동시에 있는 경우의 처 리 방법에 관한 연구가 필요하다고 판단된다. 표본조사에서는 관심변수가 보조변수의 함수인 초모집단모형을 따르는 경우가 많 이 있으며 이러한 경우에는 본 논문에서 제안한 방법이 매우 효과적인 것을 모의실험 을 통해 확인하였다. 모의실험 결과에 의하면 단위무응답이 선형 또는 파워형 응답률 을 따를 경우 본 연구에서 제안한 방법이 매우 효과적이었으며 선형 또는 파워형 응 답률을 따르지 않고 랜덤으로 발생한 경우에도 관심변수가 초모집단모형을 따르는 경 우에는 매우 효과적이었다. 다만 자료의 특징에 따라 세부층 개수 및 세부층 내 표본 개수를 정해야 하는 어려움이 있지만 매우 많은 수의 세부층 개수를 사용하지 않는다 면 본 연구에서 사용한 방법을 사용함으로써 추정의 정확성이 향상될 것으로 예상된 다. (2019년 10월 1일 접수, 2019년 11월 12일 수정, 2019년 11월 27일 채택)

(19)

참고문헌

1. Baillargeon, S. and Rivest, L.-P. (2011). The construction of stratified designs in R with the package stratification, Survey Methodology, 37, 53–5.

2. Chung, H. Y. and Shin, K.-I. (2017), Estimation using informative sampling technique when response rate follows exponential function of variable of interest. The Korean Journal of Applied Statistics, 30(6), 993-1004. 3. Hidiroglou, M. A. (1986). The construction of a self-representing stratum of

large units in survey design, The American Statistician, 4, 27–.31. 4. Hidiroglou, M. and Srinath, K. P. (1993). Problems associated with designing

subannual business surveys, Journal of Business and Economic Statistics, 11, 397–405.

5. Lavallee, P. and Hidiroglou, M. (1988). On the stratification of skewed populations, Survey Methodology, 14, 33–.43.

6. Lee, S. E. and Shin, K.-I. (2016), The cut-off point based on underlying distribution and cost function, Journal of Applied Statistics, 43(6), 1061-1073.

7. Min, J.-W. and Shin, K.-I. (2018), A study on the determination of substrata using the information of exponential response rate by simulation studies, The Korean Journal of Applied Statistics, 31(5), 621-636.

8. Rivest, L. P. (2002). A generalization of Lavallee and Hidiroglou algorithm for stratifications in business survey, Survey Methodology, 28, 191–.198. 9. Sandal, C.-E., Swensson, B., and Wretman, J. (1992). Model assisted survey

(20)

A Study on Weight Adjustment Method for

Non-response in Take-All Stratum

4)

Seungshin Jeon

5)

· Key-Il Shin

6)

Abstract

Sampling design should use an optimal number of samples to achieve a given accuracy of the estimate. For this purpose, a stratified sampling design is commonly used, and especially in business surveys, a modified cut-off sampling is frequently used. However, due to the recent deterioration of survey circumstances, a large number of unit non-responses occur in a take-all stratum. This is an important factor that lowers the accuracy of the estimation of parameters of the take-all stratum. In this study, we proposed a weight adjustment method that can be used in cases where many non-responses occur in the take-all stratum and non-response imputation is practically difficult. That is, we proposed a method for estimating parameters by applying new adjusted weights obtained by dividing the take-all stratum into several substrata. We also performed simulation studies to confirm the superiority of the proposed method.

Key words: Modified cut-off sampling, Informative sampling, linear response rate function, Power response rate function

4) This study was supported by Hankuk University of Foreign Studies research fund.(2019) 5) Graduate student, Dept. of Statistics, Hankuk University of Foreign Studies

6) Corresponding Author: Professor, Dept. of Statistics, Hankuk University of Foreign Studies, Korea. E-mail: keyshin@hufs.ac.kr

참조

관련 문서

Beach profiling using a VRS-GPS system and sediment sampling for grain sizes were conducted before and after the typhoon 'Chaba' that invaded Haeundae

따라서, 종속변수에 가장 영향력이 있는 변수를 선정, 선정된 변수를 기준으로 층화추출법(Stratified sampling)을 진행한다. 작업시간추정

The feed is commonly a solution in a solvent like ethanol or t-butanol, and the nonsolvent is water..

The subjects were bowling community members and general bowling users in G Metropolitan City in 2013 selected by a convenience sampling

In addition, if the patients had a high MPV level (cut-off value of 7.95 fL) without low-dose aspirin therapy, they were at risk for ischemic stroke, especially in

 to automate business processes which need to access data and business logic across disparate back end applications.  the ability to define a commonly acceptable

Wright, White Collar: The American Middle Class, New York: Oxford Univ.. Teaching the new basic skills: Principles for educating children to thrive in a

 In order to handle sequence of random numbers for a certain particle simulation, it is required to set a seed number to a prescribed value. Especially, this adjustment is