• 검색 결과가 없습니다.

사업체표본조사에서의 Sampling Co-ordination 논문보기 | 통계개발원

N/A
N/A
Protected

Academic year: 2021

Share "사업체표본조사에서의 Sampling Co-ordination 논문보기 | 통계개발원"

Copied!
19
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

사업체표본조사에서의 Sampling Co-ordination

1)

임성희

2) 요약 사업체조사에서 조사목적에 따라 사전 계획 하에 표본중복을 조정할 있는 영구난수번호(PRN)를 활용한 PRN sampling 방법에 대해 소개를 하고 활용 가능성을 검토해 보았다. PRN을 활용한 표본설계에서 표본중복을 최소화하는 방법인 Negative co-ordination은 이전 응답표본을 표본선 정에서 제외하여 응답부담을 경감시키는 방법이고, Positive co-ordination은 일부 응답표본을 중 복적으로 사용하여 시계열 통계에서 안정적인 추정값을 기대할 수 있는 방법이다. 실제 사업체 표본조사 사례를 바탕으로 한 모의실험을 통해 PRN sampling에 의한 추정량의 정확도를 파악한 결과 층화임의표집 결과와 유사하게 나타났으나, 끊임없는 사업체의 생성, 소멸, 변동 등의 특성 에 의해 실제 적용시 표본조정상의 한계점이 있었다. 주요용어 : 표본중복, 표본조정, PRN, 영구난수번호, 응답부담

1. 서론

국가통계작성기관은 경제관련 각 부문별 산업구조 및 산업동향 등을 파악하기 위 해 사업체 또는 기업체를 대상으로 조사를 지속적으로 실시하고 있다. 우리나라는 분 산형 통계제도로 부처별마다 필요 통계를 생산하고 있으며 통계수요 증가로 인해 국 가생산통계 종수도 갈수록 증가하고 있다(2005년 기준, 136개 기관, 474종 → 2015년 기준, 390개 기관, 935종). 사업체를 조사대상으로 하는 국가승인통계는 2012년 기준 총 306종이며, 이 중 1년 이상 계속통계로 표본조사에 해당하며 『전국사업체조사』 를 표본추출틀(sampling frame)3)로 사용한 조사는 30종에 이른다. 경제센서스 이외의 산업구조 통계는 매조사마다 독립적으로 표본추출을 시행하여 통계를 생산하고 있으며, 기준시점간의 변화(change)를 파악하는 산업동향 통계는 고 정표본을 주로 사용하고 있다. 통계청의 『 2012년 통계응답실태조사』에 의하면 사 업체당 연평균 응답횟수는 34회, 평균 응답종수 6.4개이며 사업체의 52%가 통계조사 응답에 부담을 느끼고 있고, 부담원인으로 ‘통계조사가 너무 많다’는 응답이 53%로 가 장 높았다. 동일한 대상에 대해 다양하고 반복적인 조사를 실시하는 경우 응답부담 (response burden) 문제는 심각하게 발생할 수밖에 없고 조사결과에도 부정적인 영향 을 미친다. 이러한 표본의 중복(overlap)적인 선정은 응답부담을 가중시켜 무응답․불 성실 응답을 초래하여 관련 통계 결과는 왜곡될 수 있다. 통계조사의 정확성 제고에 있어서 표본오차 뿐만 아니라 비표본오차에 대한 관심이 높아지면서 응답부담 경감을 1) 임성희의 석사학위논문 ‘사업체표본조사 응답부담 감소를 위한 PRN Sampling’ 발췌논문임. 2) 대전시 서구 둔산동 920 정부대전청사 통계청, 주무관. E-mail: for177e@korea.kr 3) 표본을 추출하기 위해 모집단에 속하는 모든 추출단위를 정리한 자료 또는 형식(박홍래, 2004)

(2)

위한 다양한 방법들이 선진국의 공식통계기관을 중심으로 활발한 연구가 진행되고 있 다. 특히 사업체조사의 응답부담 감소를 위한 표본설계방법론에 있어서 대표적인 기 법은 PRN(Permanent Random Number, 영구난수번호)을 사용한 표본추출방법(이하 PRN-sampling)이다. 난수번호가 부여된 표본추출단위를 연속적으로 추출하는 것에 의해 표본중복을 조정(co-ordination)하면서 임의성을 만족시킬 수 있어 많이 사용되 고 있다.

본 논문은 먼저 표본추출틀과 PRN과의 관계, 사업체표본의 특성을 설명한 후 본 격적으로 PRN-sampling에서의 표본중복 조정방안인 negative co-ordination과 positive co-ordination을 실제 사례를 바탕으로 모의실험을 시행 하였다. 그 결과를 바탕으로 표본조정 효과 및 추정량의 정확성, 시계열의 안정성 등을 분석하고 적용상 한계점 및 제약사항 등에 대해 논의한 후 실무 적용을 위한 선결과제에 대해서 제안 하였다.

2. 표본추출틀과 PRN

2.1 Business Register와 PRN 난수번호를 활용한 연속적인 표본추출방법에 대한 개념은 Brewer(1972)와 Atmer (1975)에 의해서 처음 소개되었다. PRN 용어 및 지금 사용되고 있는 PRN-sampling 에 방법론은 Ohlsson(1995)에 의해 체계화 되었으며 현재 스웨덴, 영국, 핀란드, 스페 인, 네델란드, 호주, 뉴질랜드 등 선진국의 공식통계기관에서 두루 사용하고 있다. PRN을 사용한 표본추출방법을 택하고 있는 선진국들은 대부분 조사자료(survey data)가 아닌 행정자료를 기반으로 한 표본추출틀을 구축하여 사용하고 있다. 부가가 치세, 고용임금명세서, 회사회계자료 등과 같이 국가기관에 등록된 행정자료를 통합하 여 Business Register(이하 BR)를 구축하고 이를 표본추출틀로 활용하고 있다. 영국통계청의 BR은 사업체명, 주소, 지역코드, 종사자수, 매출액, 기타 법적지위 등 기본적인 정보뿐만 아니라 조사과정에서 발생하는 표본 관리상 필요한 정보인 파라데 이타(paradata ; 생멸(生滅), 과거 표본대상 여부, 응답 여부 등)도 포함하고 있다. BR 에서의 표본추출 단위는 행정자료의 신고단위(reporting unit)를 통계단위(statistical unit)로 전환하여 사용한다. 행정자료의 신고단위는 법적단위인 기업체(enterprise)인데 반해 통계단위는 일정한 물리적인 장소이기 때문에 기업체를 사업체(establishment)로 분리시키는데 이러한 전환 과정에서 필요한 정보는 BRS(Business Register Survey) 를 통해 얻으며 이 정보는 BR을 갱신하는데도 사용된다. BR은 표본추출 과정에서 사 용되는 층화변수(주로 업종분류․실적규모 등) 또한 포함하고 있다. PRN은 신고단위별로 신규 생성시 최초 부여된다. PRN은 [0, 1] 구간에서 균등분 포(uniform distribution)로부터 발생된 일정한 자리수(예를 들면 10자리)를 가지는 난 수로서 각 단위에 고유하게 영구적으로 배정된다. 한번 생성된 PRN은 고유번호로서 중도에 변경되지 않으며 BR에서 없어진 사업체는 PRN과 함께 제거 된다. 층

(3)

<그림 2.1> 사업체 모집단 분포 (stratum)별로 표본추출 단위들은 PRN에 의해 오름차순으로 정렬되어 PRN-line을 형성하여 각 층은 0과 1사이의 연속적인 구간을 갖는다. 2.2 사업체 모집단의 분포 및 표본설계방법의 특징 PRN을 사용한 표본추출방법을 설명하기에 앞서 먼저 사업체 모집단의 특성 및 표 본설계방법의 특징에 대해 간단히 소개하고자 한다. 사업체 모집단의 분포는 대규모 사업체는 소수이고 중소규모 사업체는 다수인 피라미드식 구조를 하고 있다. 아래 <그림 2.1>과 같이 사업체수의 분포는 왼쪽으로 치우치고 오른쪽으로 긴 꼬리를 가 진 모양을 하고 있다. 대규모 사업체는 소수일지라도 전체 매출액 총합에서 차지하는 비중이 매우 높고, 소규모 사업체는 다수인데 비해 전체 총합에서 차지하는 비중은 매우 낮다. 자료의 분포가 치우친 정도 왜도(歪度, skewness)라고 하는데 사업체 모집단의 분 포는 왜도가 매우 큰 특징이 있다. 왜도가 큰 모집단에서 표본을 무작위로 추출할 경 우 소수인 대규모 사업체가 표본으로 추출될 확률은 매우 작기 때문에 누락되기 쉽 다. 이러한 이유로 전체 모집단의 실적을 추정하기 위한 조사에서 단순임의추출방법 에 의한 표본은 모집단에 대한 대표성이 낮을 수밖에 없다. 따라서 사업체조사의 일반적인 표본추출방법은 일정 규모 이상에 해당하는 즉 전 수경계점4) 이상인 대규모 사업체는 전수층(take-all stratum)으로 하여 모두 표본으로 선정하고, 일정 규모 미만인 사업체는 표본층(take-some stratum)으로 하여 일부만을 표본으로 선정하는 층화추출법(stratified sampling)을 택하고 있다. 표본층은 효율성 증대 및 층별 추정을 위해서 다시 2단(two-stage) 또는 3단 등으로 층화시킨다.

4) 절사표본추출법(cut-off sampling)에서 전수층과 절사층(take-none stratum)의 경계인 절사 점(cut-off value, Glasser, 1962; Hidiroglou, 1986)을 전수층과 표본층의 경계와 구분하기 위 해 전수경계점(census threshold 또는 take-all threshold, Marco Bee, 2007)으로 명명함.

(4)

2.3 PRN을 사용한 표본추출방법 앞 절에서 설명한 것과 같이 전체 총합 추정에 미치는 영향이 큰 전수층 사업체는 모두 표본으로 선정되어야 하므로 PRN-sampling에 의한 표본조정은 표본층에 해당 되는 사업체에 대해서만 적용해야 한다. PRN을 사용한 표본추출방법은 다음과 같다. 추출단위별(사업체)로 부여한 영구난수번호(PRN)에 의해 각 층별로 오름차순으로 정 렬한 후 임의 출발점으로부터 주어진 층별 표본수에 맞추어 연속적으로 표본을 추출 하면 된다. 이와 같이 개별 추출단위에 직접 고유한 난수번호를 배정함으로써 연속적 인 표본추출을 시행하여도 비복원 단순임의표집(Simple Random Sampling Without Replacement)과 동일한 효과를 가질 수 있게 된다(Ohlsson, 1992). 예를 들어 10개 사업체에서 5개 표본을 추출하는 데 각 사업체들의 PRN이 아래 <표 2.1>과 같이 부여되어 있다고 하자. 표본추출방법은 먼저 10개 사업체들을 PRN 에 따라 오름차순으로 정렬시킨 후 임의의 출발점을 정해(여기서는 0.5) <그림 2.2> 와 같이 순차적으로 5개 표본을 추출하면 된다. 목표 표본수가 [0.5, 1]에서 만족되지 않으면 다시 처음으로 돌아가 부족한 표본수 만큼 채워나간다. 이후 각 추출단위들을 층별로 PRN번호에 의해 정렬시킨 집합을 PRN-line이라고 하겠다. <표 2.1> PRN sampling 예시 사업체 구분번호 PRN 1 0.3962838111 2 0.6614586051 3 0.2282300362 4 0.3081169843 5 0.9737396184 6 0.0842849425 7 0.8446057931 8 0.5483795484 9 0.1933954842 10 0.4934306152 ⇒ 사업체 구분번호 PRN 6 0.0842849425 9 0.1933954842 3 0.2282300362 4 0.3081169843 1 0.3962838111 10 0.4934306152 8 0.5483795484 2 0.6614586051 7 0.8446057931 5 0.9737396184 . <그림 2.2> PRN-line

(5)

3. PRN-sampling에서의 표본조정 방법

3.1 Negative sample co-ordination

PRN-sampling에서 Negative co-ordination은 표본중복을 최소화하는 표본조정 방 법이다. 표본추출단계에서 표본중복을 원천적으로 차단시켜 응답부담을 고루 분산시 키는 이 방법은 동일한 표본추출틀을 사용하는 서로 다른 조사 간에 또는 동일 조사 라도 조사시점마다 독립적인 표본추출을 시행하는 경우에도 사용 가능하다. PRN-line에서 표본추출 시작점과 표본추출 진행방향을 사용하여 표본중복에 대한 조정이 가능한데, 아래 <그림 3.1>과 같이 표본추출 시작점을 달리 하거나, <그림 3.2>와 같이 표본추출 진행방향을 서로 역으로 하면 중복 추출 위험이 낮아진다.

<그림 3.1> 표본추출 시작점을 이용한 Negative sample co-ordination

<그림 3.2> 표본추출 진행 방향을 이용한 Negative sample co-ordination

아래 <그림 3.3>은 3개 이상의 조사에서 표본추출 시작점과 추출방향을 적정하게 믹스하여 표본중복을 최소화하는 방법을 보여주고 있다.

<그림 3.3> 표본추출 시작점과 추출방향을 모두 이용한 Negative sample co-ordination

<그림 3.1>과 같이 계속조사에서 표본을 추출할 경우 최신 모집단정보로 갱신한 표본추출틀을 사용해야 하는데 기존에 있던 사업체의 경우 변동된 정보를 반영하여 수정하고 신규 사업체의 경우 표본추출틀에 새로 포함시키면 된다. 즉 폐업 사업체는 해당 PRN-line에서 삭제하고, 업종이 변경된 사업체는 PRN-line을 이동하며, 신규 사 업체는 해당 층의 PRN-line에 새로 포함한다. 여기서 유의사항은 만약 표본조사에서

(6)

발견된 일부 변동사항만을 표본추출틀에 반영할 경우 추정치의 편향이 발생되므로 반 드시 전체 모집단의 변동정보를 일괄적으로 반영해야 한다는 것이다(Ohlsson, 1995). PRN-line에서 표본사업체 선정방법은 층화임의표집의 경우 PRN-line에서 사전에 정해진 표본추출 시작점으로부터 가장 작은 PRN을 가지는 사업체부터 순차적으로 목 표 표본수 만큼 선정한다. 계속조사일 경우 최신의 모집단정보를 반영하여 표본추출 틀을 업데이트 한 후 이전 조사에서 사용한 PRN-line에서 가장 마지막으로 선정된 사업체의 PRN 다음 번호부터 표본추출 시작점으로 하여 앞에서와 같이 사업체를 순 차적으로 선정하면 된다. 조사가 진행될수록 층크기에 따라 가장 마지막 번호인 PRN 을 만나게 되는데 이때는 PRN-line의 앞번호로 다시 돌아가 순차적으로 사업체를 선 정하면 된다.

3.2 Positive sample co-ordination

Negative co-ordination 방법이 응답부담의 부정적인 측면만을 강조하여 중복표본 을 최소화한 방법이라면, Positive co-ordination은 시점간 변화(change)에 대한 추정 치의 정도를 높이면서 응답부담을 감소시키기 위해 중복 표본을 지속적으로 사용하되 일부 표본은 교체시키는 방법이다. 그 중 계속조사에서 PRN을 사용하여 조사시점마 다 일부 표본은 중복시키고 일부 표본은 교체시키면서 순환하는 표본추출방법인 순환 교체표본(rotation sampling) 방법은 다음과 같다. 최초 표본으로 선정된 단위는 표본에서 완전히 제외되기(rotated out) 전까지 r번 표본에 포함되는데 이를 순환주기(r)라고 하고, 매 조사시점마다 교체되는 표본수를 d 라고 한다면, 총 표본수가 n일 때 다음과 같다. d = n/r 하나의 순환주기가 지나가면 처음 표본 집합이었던 단위들은 완전히 새로운 표본 집합으로 교체된다. <그림 3.4>는 표본 5개, 순환주기 5개월, 표본추출 시작점을 0.1으 로 한 PRN을 사용한 순환교체표본 추출방법의 예시를 보여주고 있다. 먼저 교체 표본 수를 계산하면 d = 5/5 = 1 이 되어 조사시점별로 1개씩의 표본을 교체시키면 되는데, 조사시점이 (t)인 즉 1회차 표본집합은 [9, 3, 4, 1, 10번]이 되고, 2회차 표본집합은 이 전 9번 표본이 8번으로 교체되어 [3, 4, 1, 10, 8번]이 된다. 조사시점 (t+4) 경과 후 5회 차 표본집합은 [10, 8, 2, 7, 5번]으로 하면 된다.

(7)

<그림 3.4> PRN Rotation Sampling 시점간의 변동 파악이 주목적인 계속조사에서의 표본선정방식은 고정표본(패널) 사용, 독립표본(교체) 사용, 순환교체표본 사용 등 3가지 방법이 있을 수 있다(박홍래, 2004). 고정표본의 경우 응답자 부담, 표본의 마모, 대표성 상실 등의 단점이, 독립표 본의 경우 비용 증가, 조사 부담, 고정표본보다 낮은 효율성 등의 단점이 있기 때문에 단점을 상호 보완한 순환교체표본을 가구부문의 공식통계에서 주로 사용하고 있다. 통계청에서 실시하고 있는 가구대상 표본의 연동시스템은 교체단위가 가구가 아닌 가 구의 집합인 조사구이며, 교체시 기존 조사구와 유사한 조사구로 교체 가능하다. 사업 체를 대상으로 하는 PRN 순환교체표본은 교체단위가 개별단위인 사업체이고 동일 층 내에서 무작위로 다른 사업체로 교체되기 때문에 동일 층이라 하더라도 경우에 따라 이전과 차이가 큰 사업체로 교체될 수 있는 한계점이 있다. 따라서 PRN 순환교체표 본은 무작위 교체에 따른 정도 손실에 대한 분석을 요한다.

4. 모의실험 설계

4.1 모집단자료 생성 PRN-sampling에서의 표본조정 방법별로 시행 가능성, 효율성, 타당성 등을 검토 하기 위해서 다음과 같이 모의실험을 수행하였다. 조사범위를 “도소매업 및 서비스업 부문”으로 하고, 조사시점을 2012년 기준(t), 2013년 기준(t+1), 2014년 기준(t+2)으로, 표본추출틀은 전국사업체조사 자료를 사용하였다. 업종에 따른 사업체의 특성이 표본조정 효과에 영향을 주는지를 알기 위해 사업체 의 존속기간(영업 활동지속 기간)을 살펴보았다. 2010~2014년 기준 전국사업체조사에서 도소매업 및 서비스업부문에 해당하는 사업체의 5년동안 사업체의 존속 기간을 분석한 결과 <표 4.1>과 같이 전체 평균과 중앙값이 모두 3년으로 나타났다. 평균 존속기간을 근거로 업종별로 상(평균 초과), 중(평균), 하(평균 미만) 그룹으 로 구분한 후 각 그룹별 대표업종을 2개씩 선정하였다. 상 그룹은 ‘문구용품 소매업 (4.5년)’, ‘철물 및 난방용품 소매업(4.4년)이고’, 중 그룹은 ‘기타 관광숙박시설 운영업 (3.5년),’ ‘제과점업(3.4년)’, 하 그룹은 ‘광고 대행업(2.4년)’, ‘경영컨설팅업(2.3년)’이다.

(8)

(단위 : 년) 평균 Q1 Median Q3 표준편차 3.0 1.0 3.0 5.0 1.6 <표 4.1> 도소매업 및 서비스업 사업체의 5개년간 존속기간 4.2 모집단 분석 주요 관심변수(y)에 대해서 업종(산업세세분류)별로 모집단 통계량을 분석한 결과 <표 4.2>와 같이 평균이 중앙값보다 매우 크고 왜도가 1보다 큰 정규분포에서 벗어 난 왼쪽으로 치우친 분포를 갖고 있다. 기준 년도 산업세세분류 존속률 모집단 크기 평균 중앙값 표준 편차 왜도 2012 47511 철물및난방용품소매업 상 13,755 101 21 294 16 47612 문구용품소매업 상 14,289 117 20 548 33 55119 기타관광숙박시설운영업 중 15,418 27 10 132 25 56191 제과점업 중 14,610 330 158 661 10 71310 광고대행업 하 2,814 2,048 316 19,450 35 71531 경영컨설팅업 하 3,775 1,252 156 6,715 17 2013 47511 철물및난방용품소매업 상 13,445 110 24 273 9 47612 문구용품소매업 상 13,068 134 24 470 18 55119 기타관광숙박시설운영업 중 17,014 40 10 967 124 56191 제과점업 중 15,190 330 176 742 24 71310 광고대행업 하 3,355 1,813 256 17,055 37 71531 경영컨설팅업 하 5,310 1,251 120 8,607 29 2014 47511 철물및난방용품소매업 상 13,649 112 25 265 8 47612 문구용품소매업 상 12,364 147 25 590 32 55119 기타관광숙박시설운영업 중 20,108 37 12 279 69 56191 제과점업 중 16,495 360 173 1,261 53 71310 광고대행업 하 4,085 1,711 304 16,233 39 71531 경영컨설팅업 하 6,429 1,023 153 5,210 19 <표 4.2> 관심변수(y) 통계량 (단위 : 개, 백만원)

(9)

기준 년도 산업세세분류 모집단 크기 표본수 전수층 표본층 추출률 2012 소계 64,661 655 184 471 1.0 47511 철물및난방용품소매업 13,755 117 22 95 0.9 47612 문구용품소매업 14,289 129 35 94 0.9 55119 기타관광숙박시설운영업 15,418 146 57 89 0.9 56191 제과점업 14,610 116 15 101 0.8 71310 광고대행업 2,814 63 20 43 2.2 71531 경영컨설팅업 3,775 84 35 49 2.2 <표 4.3> 년도별 산업분류별 표본수 (단위 : 개, %) 4.3 표본설계 모의실험을 위한 표본규모는 왜도가 큰 모집단에서의 층화추출방법인 L-H 층화추 출방법5)의 표본크기 결정공식 (4.1)을 사용하였고, R 패키지 “stratification”에서 “strata.lh” 함수를 사용하여 산정하였다. 전체 모집단(N)을 산업세세분류별로(h=1,...,6)로 층화한 후 각 층을 부차모집단으로 지정하여, 각 부차모집단별로 L-H 층화추출에 의해 매출액(y) 규모별로 4개(L=4)으로 층화하였다. 매출액 규모층(i=1,...,4) 중 i<4인 층은 표본층(s)으로 i=4인 층은 전수층(c) 으로 하였다. 부차모집단별 목표 상대표준오차(cv)는 5%로 하고, 층별 표본수(n) 배분은 식 (4.2)와 같이 네이만 배분방법을 사용하였다.   ·

      ·

      ·  (4.1) ×× 

      · ·  (4.2) 2012~2014년 기준 표본추출틀에서 각 기준년도별로 업종별 목표 상대표준오차 5%을 주어 L-H 층화추출을 사용하여 표본규모 산정 결과 아래 <표 4.3>과 같이 표 본크기가 산출되었다. 기준년도별 표본추출률(f=n/N)은 1.0%이다. 5) 주어진 목표오차 및 층수에 의해 반복적인 알고리즘을 사용하여 최적의 표본크기 및 층경계점 을 결정하며, 마지막 층은 전수층으로 지정하는 표본설계기법(Lavallee & Hidiroglou, 1988)

(10)

2013 소계 67,382 658 228 430 1.0 47511 기타관광숙박시설운영업 13,445 123 24 99 0.9 47612 기타관광숙박시설운영업 13,068 132 39 93 1.0 55119 기타관광숙박시설운영업 17,014 136 78 58 0.8 56191 제과점업 15,190 109 17 92 0.7 71310 제과점업 3,355 65 18 47 1.9 71531 제과점업 5,310 93 52 41 1.8 2014 소계 73,130 698 224 474 1.0 47511 광고대행업 13,649 122 22 100 0.9 47612 광고대행업 12,364 134 43 91 1.1 55119 광고대행업 20,108 152 76 76 0.8 56191 경영컨설팅업 16,495 109 19 90 0.7 71310 경영컨설팅업 4,085 73 18 55 1.8 71531 경영컨설팅업 6,429 108 46 62 1.7 4.4 표본조정 계획 모의실험을 위한 표본설계에서 L-H 층화추출에 의해 i=4인 층은 전수층으로 모두 표 본으로 선정되어야하기 때문에 표본조정 대상에 포함시키면 안 된다는 것을 앞에서도 언 급한 바 있다. 따라서 이후 모든 분석에서 전수층 사업체는 제외되어 있다는 것을 밝힌다. 본 모의실험에서의 표본조정방법은 Negative co-ordination과 Positive co-ordination 모두 사용하였다. 또한 표본조정 전후 효과 비교를 위해서 표본조정을 시행하지 않은 층 화임의표집방법도 함께 시행하여 총 3가지 표본추출방법의 결과를 비교하였다. Negative co-ordination은 아래 <그림 4.1>과 같이 t시점의 응답표본과 t+1시점의 표본이 중복되지 않도록 t+1시점의 표본추출 시작점을 이전 sampling zone의 마지막 PRN보다 큰 값을 주는 방법을 사용하였다. Positive co-ordination은 <그림 4.2>과 같이 t시점 응답표본과 50% 중복이 발생하도록 t+1시점의 표본추출 시작점을 이전 sampling zone의 중앙값으로 하는 방법을 사용하였다. 두 표본조정 방법 모두 t+2 조 사시점의 표본추출은 t+1 시점 방법과 동일하다.

(11)

<그림 4.2> PRN line : Positive co-ordination

4.5 모총합 추정량

표본조정 전후 모총합 추정량의 효율성을 비교하기 위해 몬테카를로 모의실험을 실시하였다. PRN-sampling에서의 Negative co-ordination, Positive co-ordination, 非표본조정방법 총 3가지 방법별로 반복추출(R=1,000)을 시행한 후 각 표본으로부터 총합 추정량을 계산하여 이들의 평균( ), 편향(Bias), 상대편향(rBias), 제곱근 평균제 곱오차(rMSE)를 각 조사시점별 및 산업세세분류별로 구해 보았다. 이 추정량의 산출 결과는 다음 5장에서 설명하도록 하겠다.    

                ×  

 

        

5. 모의실험 결과

5.1 표본조정 효과 표본조정은 이전 조사시점의 응답표본과의 중복을 조정하는 것으로 최초 t 조사시 점에는 적용하지 않고 t+1, t+2 조사시점에 적용하였다. 아래 <표 5.1>과 같이 표본조 정을 전혀 시행하지 않은 경우 2회차 조사에서는 전체 표본수의 2.9%에 해당되는 사 업체가 2회 연속 표본으로 선정되었고, 3회차 조사에서는 전체 표본수의 4.4%에 해당 되는 사업체가 2번 내지 3번 중복적으로 표본으로 선정되었다. 이 결과는 1% 표본 추 출률에 의한 결과로 추출률이 높아지거나, 조사 횟수가 늘어날수록 표본중복률은 더

(12)

욱 높아질 것이 예상된다. <표 5.1> 표본추출 방법별 및 조사 횟수별 표본 중복률 (단위 : %) 산업 분류 표본조정 미시행 PRN sampling Negative Positive 2회차(t+1) 3회차(t+2) 2회차(t+1) 3회차(t+2) 2회차(t+1) 3회차(t+2) 2.9 4.4 - 1.2 36.5 35.3 47511 2.5 4.3 - 1.4 39.5 39.3 47612 2.9 4.7 - 0.9 42.8 40.0 55119 3.0 3.7 - 1.5 38.9 32.2 56191 2.1 3.0 - 0.9 40.9 36.7 71310 4.3 6.1 - 1.0 25.5 30.4 71531 3.6 5.5 - 1.4 23.2 28.2 PRN-sampling에서의 표본중복을 최소화할 수 있는 Negative 표본조정 결과 t+1 시점에서는 사전 계획대로 표본중복이 발생되지 않았지만 t+2시점에서는 표본사업체 의 1.2%에서 이전 응답표본과 중복된 것으로 나타났다. <그림 4.1>과 같은 사전 표본 조정계획에 의해 중복표본이 없어야 하는데 발생된 원인은 t, t+1시점의 표본사업체가 t+3시점에 업종변경, 규모변경 등의 변동으로 다른 층의 PRN-line으로 이동되면서 이 전 층에서의 응답과는 무관하게 다시 표본으로 선정되었기 때문이었다. 목표 표본중복률 50%로 설정한 Positive 표본조정 결과 표본중복률이 목표치보다 낮은 35.3~36.5%로 나타났다. 그 이유는 신규 생성 사업체의 PRN-line 편입, 이전 응 답표본 사업체의 변동 때문이었다. 본 논문은 추출률이 1%인 층의 크기가 어느 정도 이상인 업종으로 선별하였기 때문에 모의실험 결과에서 나타나지 않았지만 폐업, 업종변경(층 변경), 신규 생성등 사업체의 변동 이외에 표본조정 계획에 영향을 미치는 요인으로 추출률이 있다. 추출 률이 높은 경우 사전 계획대로 표본조정 성과가 나타나기 어렵다(Ohlsson, 1992). 전체 모집단에서 사업체의 변동률을 집계해 본 결과가 아래 <표 5.2>와 같다. 2012년 기준(t) 사업체가 2년 경과(t+2) 후에도 동일 층(매출액 규모층)을 유지하는 비 율이 ‘1층’인 경우 89.7%, 매출액 규모가 1층보다 큰 ‘2층’은 81%, ‘3층’은 79.5%로 나 타났다. 또한 t시점 당시 존재했던 사업체의 26.5%가 폐업 또는 업종변경 등으로 소 멸되었고, t시점 대비 39.6% 사업체가 신규 생성 또는 편입 되었다. 이 결과는 존속률 에 따른 그룹별 6개 대표업종만 추출한 모집단분석 결과로 폐업 및 신규, 업종변경 등 사업체의 변동이 명확히 구분되지 않기 때문에(6개 업종을 전체 모집단으로 하여 분석했으므로 폐업 및 신규가 실제 업종변경일 수 있음) 전체로 확대 해석할 수 없음 에 주의를 당부한다. 하지만 이 정도의 차이가 있을 뿐이지 실제 사업체는 끊임없이 소멸, 생성, 변동 등을 거듭하고 있기 때문에, 표본추출틀의 작성시점과 조사시점은 현실적으로 완벽하게 일치되기 어렵기 때문에 표본설계시 계획한 표본조정방법이 결 과에서 그대로 나타난다고 기대하기 어렵다는 것은 확인할 수 있었다.

(13)

<표 5.2> 모집단(표본층) 사업체 변동 층변동 내역   2012년모집단 (t) 2014년 모집단 (t+2) 소계 폐업 신규 1층 2층 3층 합계 64,477 47,405 31,553 13,600 2,252 17,072 25,501 72,906 1층 46,521 33,144 29,741 3,318 85 13,377 17,439 50,583 (100.0) (89.7) (10.0) (0.3) 2층 15,265 12,211 1,778 9,896 537 3,054 6,840 19,051 (100.0) (14.6) (81.0) (4.4) 3층 2,691 2,050 34 386 1,630 641 1,222 3,272 (100.0) (1.7) (18.8) (79.5) 5.2 추정량의 정확성 비교 <그림 5.1>~<그림 5.3>은 표본조정 방법별 1,000번의 반복 표본에서 구해진 모총 합 추정량에 대한 상자그림이다. 예를 들어 설명하면 <그림 5.1>은 47612(문구용품소 매업)에 대한 것으로 첫째 칸은 2012년도 추정량을 표본조정 3가지 방법별로 상자그 림을 그린 것이다. 순서대로 표본조정을 시행하지 않은 층화임의표집방법(ST), Negative 표본조정 PRN-sampling (PRN(N)), Positive 표본조정 PRN-sampling (PRN(P))이며 상자그림을 가로 지르는 평행선은 모총합을 나타낸다. 상자그림 분석결 과 표본조정을 시행한 PRN-sampling에 의한 모총합 추정량은 특별한 편향이나 분산 발생 없이 일반 층화임의표집방법과 비교하여도 유사하게 나타났다. 둘째, 셋째 칸은 각 각 2013년, 2014년 추정량이다.

(14)

<그림 5.2> 55119 조사시점별 및 방법별 추정값 상자그림: ST, PRN(N), PRN(P) <그림 5.3> 71310 조사시점별 및 방법별 추정값 상자그림: ST, PRN(N), PRN(P) 아래 <표 5.3>, <표 5.4>는 각 조사시점별 및 표본조정 방법별로 1,000번의 반복 표본에서 구해진 업종별 모총합 추정량의 편향(Bias) 및 제곱근 평균제곱오차(rMSE), 상대편향, rMSE비를 요약한 값이다. 즉 조사시점별(t=3)*업종별(h=6) 18개의 추정량 을 각 부문별로 평균한 값이다. 표본조정을 시행한 PRN-sampling의 추정량에 대한 편향은 표본조정을 시행하지 않은 방법과 비교했을 때 편향에서는 매우 근소한 차이 로 작게 나타났고, rMSE에서는 매우 근소한 차이로 크게 나타났다. 존속률에 따른 차 이는 없는 것으로 보였다.

(15)

<표 5.3> 표본추출 방법별 모총합 추정량의 편향 및 MSE (단위 : 백만원) 년도 존속률 구분 산업 분류 Bias rMSE 표본조정 미시행 PRN-sampling 표본조정 미시행 PRN-sampling Negative Positive Negative Positive 2012 2,662 2,459 3,534 152,105 154,175 154,451 2013 3,651 2,619 1,984 164,186 166,510 167,883 2014 10,638 4,704 4,214 195,547 197,670 197,420 상 2,051 940 1,957 79,469 80,499 80,111 상 47511 1,125 1,301 1,465 72,636 72,876 72,503 상 47612 2,976 579 2,448 86,301 88,123 87,719 중 4,898 4,056 3,198 146,871 150,166 148,038 중 55119 762 252 329 28,805 29,542 28,714 중 56191 9,034 7,861 6,067 264,936 270,791 267,361 하 10,002 4,785 4,577 285,499 287,690 291,606 하 71310 8,312 4,718 4,903 297,187 301,798 306,652 하 71531 11,691 4,853 4,252 273,810 273,581 276,559 <표 5.4> 표본추출 방법별 모총합 추정량의 상대편향 및 MSE 비 년도 존속률 구분 산업 분류 상대편향(%) rMSE 비() 표본조정 미시행 PRN-sampling PRN-sampling Negative Positive Negative Positive

2012 0.1 0.1 0.1 1.0 1.0 2013 0.1 0.1 0.1 1.0 1.0 2014 0.3 0.1 0.1 1.0 1.0 상 0.1 0.1 0.1 1.0 1.0 상 47511 0.1 0.1 0.1 1.0 1.0 상 47612 0.2 0.0 0.2 1.0 1.0 중 0.2 0.1 0.1 1.0 1.0 중 55119 0.2 0.0 0.1 1.0 1.0 중 56191 0.2 0.2 0.1 1.0 1.0 하 0.2 0.1 0.1 1.0 1.0 하 71310 0.2 0.1 0.1 1.0 1.0 하 71531 0.3 0.1 0.1 1.0 1.0 경제통계의 주요 지표인 이전 조사시점 대비 증감률을 표본조정 방법별로 비교한 결과가 아래 <표 5.5>와 같다. 음영색은 모수와 근접한 추정값을 나타내는 것으로 존 속률에 따른 차이를 보였다. PRN-sampling에서 Positive 표본조정은 이전 조사시점의 응답표본을 일정부분 중복 사용하여 안정적인 시계열을 기대할 수 있는 방법으로, 존 속률이 ‘상’인 업종에서만 모수와 유사한 시계열을 나타냈다. 즉 사업체의 변동이 크 지 않은 업종에 한해서 모수 증감률과 유사하게 나타났다. 존속률이 높지 않은 업종 에서의 Positive 표본조정은 변동의 영향으로 표본조정을 시행하지 않았을 때보다 더 좋은 결과를 보이진 않았다.

(16)

<표 5.5> 표본추출 방법별 추정값의 시계열 비교 (단위 : %) 존속률 구분 산업분류 년도 모수 표본조정 미시행 PRN-sampling Negative Positive 상 47511 2013 8.2 8.4 8.4 8.3 2014 3.6 3.9 3.7 3.6 47612 2013 6.0 6.4 6.4 5.9 2014 2.1 2.3 2.4 2.3 중 55119 2013 8.8 9.4 9.8 9.8 2014 25.7 26.1 26.4 26.4 56191 2013 28.0 28.4 28.7 28.6 2014 20.7 21.1 21.3 21.5 하 71310 2013 32.3 32.4 32.8 32.8 2014 29.9 30.5 30.5 30.5 71531 2013 2.2 2.7 2.2 2.4 2014 15.8 15.7 16.7 16.1

6. 결론 및 제언

PRN-sampling에서의 표본조정방법은 일반 층화임의표집방법과 동일한 효과를 나 타내는 연속적인 표본추출 방법으로서 사전 계획 하에 중복표본 조정이 가능함을 본 논문의 실제 모의실험 사례를 통해 직접 확인할 수 있었다. 조사 성격별로 응답부담 경감이 최우선적일 경우 PRN-sampling에서의 Negative co-ordination을 적용하여 표본중복을 최소화할 수 있고, 계속조사에서 있어서 안정적 인 시계열 통계생산이 주목적일 경우 Positive co-ordination을 적용하여 추정량의 정 도제고와 응답부담 경감을 동시에 취할 수 있겠다. 단, 사업체의 변동이 심한 업종이 있거나, 조사시점과 괴리가 있는 표본추출틀을 사용할 수밖에 없는 경우에는 표본조 정 성과가 크게 나타나지 않기 때문에 이를 유념하여 표본조정 계획을 세워야 할 것 이다. 추가적으로 PRN-sampling 방법의 단점은 임의추출보다 정도(precision)가 더 좋은 표본설계방법을 적용할 수 없다는 점이 있다. 예를 들어 종사자수나 매출액 등을 규 모 순으로, 즉 모집단을 선형추세로 배열하여 계통추출을 할 경우 임의추출보다 분산 이 작게 나타나지만(Cochran, 1977), PRN-sampling에서는 PRN 이외의 속성으로 정렬 시켜 표본을 추출할 수 없기 때문에 임의추출보다 더 좋은 정도를 기대하긴 어렵다. 그러나 아무리 정교하고 효율성 있는 표본추출방법이라 하여도 응답부담에 기인한 비 표본오차 발생을 피해갈 수 없기 때문에 표본설계자는 표본오차의 효율성 측면과 비 표본오차의 편향 측면을 함께 고려하여 적정한 방법을 적용하는 것이 가장 효과적일 것이다. 마지막으로 우리나라 국가통계생산 환경에 있어서 PRN-sampling의 표본조정방법 을 실무적으로 적용하기 위해서는 다음과 같은 제반사항이 기초가 되어야 한다. 선진

(17)

국의 통계청에서 사업체 표본추출틀로 주로 사용하고 있는 행정자료기반의 Business Register처럼 통계청과 타행정기관간 자료공유의 동시성, 자료갱신의 체계성·신속성이 뒷받침 되어야 한다. 또한 분산형 통계제도를 취하고 있는 우리나라의 경우 중앙 통 계작성기관인 통계청이 기타 통계작성기관에게 표본추출틀을 제공할 때 표본이력과 PRN을 함께 공유하여야 표본조정의 의미 및 효과는 극대화 될 것이다. 물론 이를 위 해서는 사업체의 과중한 응답부담에 대한 통계담당자의 문제 인식과 해결의지가 가장 선행되어야 할 것이다. (2016년 8월 10일 접수, 2016년 9월 19일 수정, 2016년 9월 30일 채택)

(18)

참고문헌

박홍래 (2004). <통계조사론>, 영지문화사, 서울.

전경배 (2002). 永久亂數에의한 標本調整方案, 계간 국민계정 2002(1), 한국은행.

Brenda, G. Cox., David, A. Binder., B. Nanjamma Chinnappa., Anders Christianson., Michael J. Colledge., Phillip S. Kott. (1995). <Business Survey Method>, PART B 153-169, John Wiley & Sons Inc, New York.

Charles R. Perry., Jameson C. Burt. and William C. Iwig. (1993). Methods of selecting samples in multiple surveys to reduce respondent burden.

Christian HESSE. (1999). Sampling co-ordination : A review by country, INSEE. Dolores Lorca., M. Concepcion Molina., Gonzalo Parada., Ana Revilla. (2011). Sampling

coordination of business surveys in the Spanish National Statistics Institute. Jo 〮rgen Dalen. (2005). Sampling issues in Business Surveys.

K.R.W. Brewer., W.F. Gross. and G.F. Lee. (1999). PRN Sampling : The Australian Experience.

Marco Bee., Roberto Benedetti., Giuseppe Espa. (2007). A FRAMEWORK FOR CUT-OFF SAMPLING IN BUSINESS SURVEY DESIGN.

Ohlsson, E. (1995). Coordination of Samples using Permanent Random Numbers. <Business Survey Methods>, Chapter 9. 153-169, John Wiley & Sons Inc, New York.

PIERRE LABALLEE. and MICHEL A. HIDIROGLOU. (1988). On the stratification of skewed populations.

Statistics Sweden. (2003). SAMU - The system for co-ordination of frame populations and samples from the Business Register at Statistics Sweden.

(19)

Sampling Co-ordination in Business Surveys

Seong-Hui Im

1)

Abstract

This thesis presents a PRN sampling method based on a sampling co-ordination, which can evenly distribute the burden of respondents who are selected repeatedly. After real applications and comparisons, the simulation results showed that the overlap of samples was reduced compared to the Stratified Random Sampling method and the precision of the estimates also showed little difference with the Stratified Random Sampling method. But there are limits and constraints on sampling co-ordination by continuous movements of establishments such as births, deaths, changes in a Business sampling frame.

Key words : sample overlap, sample coordination, PRN, permanent random number, response burden

1) Assistant director of Statistics Korea. Government Complex Ⅲ Daejeon, 189 cheongsa-ro. E-mail: for177e@korea.kr.

참조

관련 문서

Beach profiling using a VRS-GPS system and sediment sampling for grain sizes were conducted before and after the typhoon 'Chaba' that invaded Haeundae

In this thesis, a method for obtaining model-based tuning rules for the PID controller are proposed incorporating with real-coded genetic algorithms.. First,

This thesis presents a nonlinear PID controller that can enhance the tracking performance of the conventional linear PID controller to achieve a

메탄올 이용하여 기-액 상평형 장치 세척.. 메탄올에 DMC를 조금씩

(2016) Non-equilibrium passive sampling of hydrophobic organic contaminants in sediment pore-water: PCB

i) Free Piston Sampler: Piston is fixed during driving and withdrawing of the sampler, but free when the sampler tube is being pushed into the soil. ii) Fixed

• In an unbiased sampling scheme with total n samples for these two strata, nP(A) or na samples are used for stratum A and nP(R~A) or n(1-a) are used for stratum R~A..

In this thesis, this method choosing the node having reliable RSSI values based on the reliability of the signal is proposed for the... more accurate