빅데이터분석에 정보적 표본설계의 적용 논문보기 | 통계개발원

(1)

빅데이터분석에 정보적 표본설계의 적용

1)

이상은

2) 요약 표본조사에서의 표본설계는 표본 틀이 존재하고 관심변수와 관계가 있는 보조변수에 의해 층을 나누는 층화추출방법을 일반적으로 사용한다. 최근 빅데이터 형태의 자료 분석은 많은 양의 자 료, 다양한 형태의 자료를 분석하고 있지만 대분의 경우 표본 틀 자료를 이용한 가중치 분석 등 고급 통계 분석은 쉽지 않다. 따라서 많은 경우 주어진 자료 값의 평균 혹은 빈도분석으로 이루 어진다. 그러나 빅데이터 자체가 모집단 전체를 포괄하지 않고 선택 편의(selection bias) 또는 응답 편의(response bias)를 가지고 있는 자료라면 단순 평균분석은 좋은 추정량이 될 수 없다. 따라서 본 연구는 정보적 표본설계이론(informative sampling)에서 관측된 관심변수의 값의 표본 포함확률(inclusion probability)을 이용하여 추정량의 편의를 줄이는 방법을 연구하였다. 주요용어 : 정보적 표본설계, 포함확률, 상대적 편의, 빅데이터

1. 서론

일반적으로 표본조사에서의 표본설계는 모집단/표본 틀이 존재하고 관심변수와 관 계가 있는 보조변수에 의해 층을 나누는 층화추출방법을 사용하며 최종 가중치를 이 용하는 불편추정량을 적용한다. 그러나 최근에 많이 이루어지고 있는 빅데이터 형태 의 자료 분석은 많은 양의 자료, 다양한 형태의 자료를 분석하고 있으나, 대분의 경우 모집단/표본 틀 정보를 이용한 가중치 적용에 따른 추정법의 사용은 매우 제한적이다. 그러므로 평균분석 혹은 빈도분석과 같은 기초 분석이 주로 이루어지고 있다. 만약 빅데이터가 표본이론에서 이야기하는 랜덤추출이라면 자료의 단순평균이 좋은 추정량 의 될 수 있다. 그러나 빅데이터 자체가 선택 편의 또는 응답 편의를 가지고 있는 자 료라면 단순평균은 좋은 추정량이 될 수 없다. 예를 들면 인터넷 관련 관심변수를 파 악하기 위해서 인터넷상의 자료를 취합하게 되면 연령별로 응답 편의가 발생할 수 있 음은 쉽게 예측할 수 있다. 따라서 자료의 단순집계는 모집단 현상을 왜곡 할 수 있 게 된다. 이에 본 연구에서는 정보적 표본설계이론에서 기본적으로 사용하는 자료의 포함확률(inclusion probability)을 이용하여 추정의 편의를 줄이는 방법을 연구하였다. 정보적 표본설계는 Preffermann(1998)에서 본격적으로 연구되면서 지속적으로 매 우 활발한 연구가 진행되고 있다. 분석 자료의 포함확률을 사전정보로 모집단의 분포 1) 이 논문은 2018학년도 경기대학교 연구년 수혜로 연구되었음 2) 경기대학교 응용통계학전공 교수, sanglee62@kgu.ac.kr

(2)

를 우도함수로 이용하여 분석 자료의 분포를 사후분포함수로 구함으로써 모집단 분포 와 표본 분포의 차이를 보정해주는 방법이다. 따라서 정보적 표본설계에서 포함확률 은 매우 중요한 역할을 하게 된다. 만약 사전 정보에 영향을 받지 않는다면 모집단 의 분포와 표본 분포가 같다고 보아도 무관하다. 따라서 관심변수의 포함확률이 임의 표본의 포함확률과 같지 않은 경우, 즉  ∈ ≠  ∈ 일 때 정보적 표본설계 이론은 매우 효과적이다. 따라서 표본설계가 정보적 표본설계에서 사용되는 이론적 가정을 만족하는 경우 단순평균값은 편의를 갖게 되며 이때 적절한 보정 가중치가 사 용된 경우에는 편의가 제거된 불편추정량(unbiased estimated)이 된다. 그러나 일반적 으로 빅데이터 분석의 경우 모집단을 알 수 없는 경우가 대부분으로 가중치를 이용하 여 불편추정량을 만드는 것은 불가능하다. 그럼에도 불구하고 많은 빅데이터 분석의 경우 대표 값으로 단순평균이 흔히 사용되고 있다. 따라서 최근 빅데이터를 활용한 통계 분석에서 정보적 표본설계(informative sampling)의 이론을 적용하여 보다 정확 한 모수 추정량 특히 편의를 줄이는 추정량에 관한 연구는 반드시 필요하다 본 연구에서는 포함확률이 지수형 모형을 따르면서 초모집단 모형이 정규분포인 경우를 구체적으로 살펴보았다. 또한 모의실험을 통하여 주어진 가정 하에서 만들어 진 자료를 빅데이터로 가정한 후 지수형 포함확률로 수집된 자료에서 관심변수의 모 평균을 추정하는 두 방법의 성능을 비교하였다. Pfeffermann(1998)에서 정보적 표본설 계는 표본추출과정이 관심변수 자료 값과 관계가 있다면 표본으로 추출된 표본분포가 모집단의 분포를 따르지만 모수의 분포는 다를 수 있다는 논문으로 표본추출법 (sampling mechanism)을 반영하여 추론하고 있다. 이는 일반적으로 이루어지는 표본 설계에서 층화변수에 의한 표본추출에서의 편의는 가중치를 적용하여 보정하게 된다. 또한 Savitsky(2016)에서는 정보적 표본설계에서 표본으로 추출된 자료를 이용한 추 론은 모집단 자료의 추론과 다르고 편향이 발생할 수 있음을 시사했다. 또한 Chung and Shin (2017)과 Min and Shin (2018)에서는 결측값 대체 목적으로 정보적 표본설 계에서 표본으로부터 추출률을 추정하여 대체값을 추정하였다. 그러나 본 연구는 모 집단의 분포를 정확히 알지 못하고 추출률을 예측하기 어려운 빅데이터의 분석에 정 보적 표본설계의 편의 제거 기법과 결측값 예측에서의 추출률 예측 기법을 적용하기 로 하였다. 단 본 논문에서는 빅데이터의 추출률이 지수함수를 따르는 경우를 고려하 였으며 추출 률 역시 얻어진 자료의 분포를 고려 이를 지정하여 연구하였다. 즉, 기존에 흔히 사용하는 추정량인 단순평균 과 정보적 표본설계 이론을 적용 한 추정량인 을 비교한다. 이때 정보적 표본이론의 포함확률이 지수형 모형인 경 우에서 모형에 포함된 모수인 _ 값에 따라 두 추정량의 성능을 비교한다. 또한 지수 형 포함확률을 가진 데이터를 모집단으로 가정하고 그 빅데이터에서 임의로 추출한 자료의 단순평균과 정보적 표본설계 이론을 적용한 추정 값의 성능을 비교한다. 본 논문의 구성은 다음과 같다. 먼저 2절에서 정보적 표본설계를 구체적으로 살펴

(3)

보았다. 3절에서는 모의실험을 통하여 포함확률 모형의 모수



에 따른 추정량의 성 능을 비교하였다. 4절에 결론이 있다.

2. 정보적 표본설계

2.1 정보적 표본의 이론적 배경 정보적 표본설계(Informative sampling)는 기존에 관심변수  에 대한 정보만 이용 해서 표본을 추출한 방법과 달리 관심변수  와 보조변수  사이의 관계가 있을 때, 표본 추출과정에서 관심변수 또는 보조변수를 이용하여 표본을 추출함으로써 표본추 출확률이 관심변수  의 함수가 되는 표본설계이다. 이 절에서는 Preffermann(1998)에 서 연구된 정보적 표본 설계 관계를 설명하기로 한다. 본 연구에 적용된 정보적 표본설계(Informative sampling)에 대한 이론적 배경은 다음과 같다. 먼저 관심변수  의 모집단 분포를 ∼     ,    이라 하자. 이때  를 추출된 표본, 는 관심변수



의 자료 값으로 정의되며 는 가 유 한모집단  에 속해 있음을 나타낸다. 베이즈 정리 (Bayes‘ Theory)에 따라 의 표본 분포는    ∈   P r∈ P r ∈  (식1) 와 같이 나타난다. 여기서 은 의 함수이며 _가 주어졌을 때 표본으로 추출될 확률인  ∈의 영향을 받는다. 즉 표본 분포    가 표본 추출확률 (Inclusion probability), ∈의 영향 을 받게 된다. 이때  ∈   ∈ 이면 비정보적 표본설계(non-informative sampling)가 되고  ∈ ≠ ∈ 인 경우는 정보적 표본설계(Informative sampling)가 된다. 관심변수  와 보조변수  의 모집단 분포 ∼   가 보조변수 에 영 향을 받는 경우, 의 주변 확률함수(marginal distribution) 는 다음과 같다.       _{ }       _{ }         _{ }          _{ }        _{ }     

(4)

이 때     _{ }      이므로 확률의 승법정리를 적용하여 을 정리하면 주변 확률분포(marginal distribution)은   _{ }      (식2) 와 같이 구해진다. 이때, 는 지시함수(Indicator function)로 



  i f ∈      ,   … 이며 표본



는  



  ∈   



으로 정의되고 포함확률은 ∈ 가 될 모든 경우      이 성립한다. 위의 (식2)에서 일반적으로 표본이 초모집단 모형에서 뽑힐 확률   은  가 층화변수일 때 모집단에서의 추출확률    과 다르다. 이는 표본 분 포 와 모집단 분포 가 다른 분포를 따르기 때문이다. 표본과 모집단 의 분포가 다르기에 표본과 모집단에서 주변 확률함수 또한 다르게 나타난다. 이는 정보적 표본 추출방법(Informative sampling scheme)에 기반을 둔 사실이므로 모든 _에서  _   ≠  이 만족되어야 한다. 만약 위의    ≠  이 만족되지 못하면 비정보적 표본추출방법(non-informative sampling scheme)이다.

정보적 표본 추출방법(informative sampling scheme)는 위에서 언급했듯이 추출 확률     과   은 일반적으로 다르므로 다음과 같은 관계가 성립된다.    



_{ }       _ 



 _  ___ ____ 이때, 가 주어지면      이므로 



  

(5)

즉,    =  의 관계가 성립된다. 이 식을 (식2)에 대입하면, _  _{ }       _   이 된다. 이때, 는 두 확률변수 A, B에 대하여       이 만족하는 조건부 기댓값의 성질을 이용하여 구할 수 있다. 조건부 기댓값 성질에 따라 에 에 대한 기댓값을 구하게 되면 _             이므로 을 구 할 수 있다. 따라서 초모집단 모형을 통해 구해진 주변 확률분포인 (식2)는   _   (식3) 로 표현될 수 있다. (식3)은 사전정보 와 우도함수 을 이용한 베이즈 추정법이 적용으로 가능하며 Preffermann(1998)에서도 이 결과를 확인할 수 있다. 이제 정보적 표본설계(informative sampling)에서 두 변수  와  사이의 관계로 형성되는 초모집단 모형(super population model)을 선형회귀모형으로 가정하면 다음 과 같다. 초모집단 모형을 선형회귀모형으로 가정한 경우, 모집단 변수  의 분포는 ∼  ′   (식4) 이다. 또한 표본 추출확률의 기댓값은 다음과 같다고 가정한다.   exp   (식5)

(6)

여기서   는 보조변수  의 함수이다. 주어진 가정 하에서 모집단 분포를 ∼   로 표시하면 표본 분포 의 일반적인 형태는 다음과 같다.   _   (식6) 이제 (식6)에 (식4)와 (식5)를 대입하면, 초모집단 모형이 선형회귀모형이라는 가정 에서 얻어진 표본 분포는 다음과 같이 구해진다.   _    exp exp___ _{ }         ′  _ _{∝exp }      ′   _{ }       ′ 

여기서     exp    exp exp 으로 표현되고 exp는 기댓값으로 상수를 의미한다. 즉 (식6)을 이용해서 구한 주변 표본 분포는   _  _      ′  와 같이 구해진다. 결국 표본 분포는 _ ∼   ′    이고, 모집단 분포가 ∼  ′  가 되므로 두 분포는 다르게 나타난다. 따라서 두 분포에서의 주변 확률 함수가 다르게 나타나고,     ≠   을 만족함으로 정보 적 표본설계(informative sampling method)의 특징을 나타낸다.

(7)

2.2 정보적 표본이론을 기반으로 한 추정방법 최근 다양한 빅데이터 분석이 이루어지고 있으며 이때 일반적으로 대푯값을 평균 으로 사용하는 경우에서 나타날 수 있는 편의를 정보적 표본이론을 이용하여 줄이는 것이 본 연구의 목적이다. 정보적 표본이론을 이용하기 위해서는 초모집단의 모형과 보조변수에 따른 추출률 ()이 가정 되어야한다. 우선 정보적 표본이론을 이용하기 위해서는 2.1에서 언급 했듯이 표본분포, 을 구하기 위해 관측 값에 해당하는 우도함수인 P r ∈ 그리고 사전함수에 해당하는 관측 값의 추출 함수 그리고 모집단 분포  가 필요하다. 사전함수는 연구자가 자료의 특성을 고려하여 결정한다. 예를 들 면 소득의 경우 고소득 자료는 거의 없는 반면 저소득의 자료는 상대적으로 많은 경 우 추출률의 함수를 지수함수를 적용할 수 있다. 이는 일반적인 표본조사에서는 추출 률의 역수인 가중치를 적용하여 주어진 모집단의 관심변수 값을 추정한다면 정보적 표본이론에서는 초모집단 모형과 추출률의 함수로 부터 표본분포함수가 생성되고 이 를 기반으로 추정량이 정해진다. 흔히 사용되는 기존의 Horvitz-Thompson 추정량에 서는 각 층에 따라 가중치가 정해지고 층 내의 모든 관측 값은 같은 가중치가 적용된 다. 특히 층 내의 자료 범위가 큰 경우는 추정 값은 불안정해 질수 있다. 반면 정보적 표본이론 추정량은 각 관측 값에 추출률이 적용됨에 따라 보다 효율적이라 볼 수 있 다. 특히 빅데이터의 경우는 모집단을 정확히 정의하기는 어렵지만 관심변수의 모든 관측값을 얻을 수 있으며 또한 각 관측값의 추출률을 구할 수 있다. 결국   exp   값이 얻어진다면 빅데이터 분석에서 흔히 쓰는 추정량 인 표본평균의 편의를 보정할 수 있게 된다. 따라서 본 연구에서 사용된 정보적 표본설계 설정은 다음과 같다. 먼저 정보적 표본이론에 의해 구해진 표본의 분포함수는   _      ′  이므 로 이 추정 량의 편 의가 된다. 이때 은 표본 의 추 출확률 에 근거 한   exp  에서 얻어지며   은 초모집단 모형 ∼  ′   _ 에서 얻어진다. 이때 은 표본으로 얻은 자료분석(회귀분석)에서 MSE를  값으로 사용하게 된다. 단만 본 연구에서는 을 아는 값으로 가정하기로 한다. 또한 일반적 으로 자료의 관측값이 클수록 표본수가 많아지는 경우와 그 반대의 경우도 발생할 수 있다. 예를 들면 매출액이 큰 사업체 추출률은 상대적으로 매출액이 작은 사업체의 추출률에 비해 매우 크게 되거나 부채 변수와 같이 부채가 큰 경우의 추출률은 매우 작을 수 있으므로 관측값의 포함확률함수를 지수분포로 가정 할 수 있다. 이를 표현 하는 값인 을 본 연구에서는 아려진 것으로 가정한다. 또한 모집단 관심변수의 다

(8)

양한 분산 값에 따른 모평균 추정을 단순평균과 정보적 표본이론에 의한 추정량의 각 각의 편의를 비교한다.

3. 모의실험

3.1 빅데이터의 경우 모의실험을 위한 자료를 생성하기 위해 관심변수  와 보조변수  의 관계로 형 성되는 초 모집단모형(super population model)을 선형회귀 모형으로 가정하였다. 이 경우 모집단 관심변수  의 분포는 다음과 같다. ∼    ′   이때 보조변수  의 분포는  ∼    와 같이 감마분포를 따른다고 가정한다. 이 가정 하에서 의 값은    에서 얻어지며 이때 오차 는 ∼    의 분포에서 랜덤으로 생성된다. 보조자료



는        ⋯ ,  ∼  으로 설정하고 이 때      ,   ,      ,   을 각각 사용하였다. 따라서  값이 변하면서 관측 값의 평균은 변하게 되므로 평균 값의 차이에 따른 편의 보정효과를 살펴보았으며 또한  의 값으로는 관측값의 변화에 따른 편의 보정효과를 살펴보았다. 초모집단 모형으로 사용된 선형회귀 모형 가정 하에서 얻어진 관심변수  와 감마 분포 가정 하에 생성한 보조변수  를 이용하여 개의 모집단 자료를 생성하였 으며 100번의 모의실험을 실시하였다. 자료의 포함확률로   exp   을 가정하고 본 연구에서는 _과 이 알려진 경우를 고려하였다. 즉 알려진 을 사용하기 때문에 추출된 각 자 료 _의 포함확률 _, 즉 추출률이 알려지게 된다. 따라서 모의실험 자료의 추출률 형 태를 지수적로 적용하기로 하였다. 예를 들면 편의의 크기에 영향을 주지 않는 에 0을 가정하고 관측 값의 범위가 50에서 2500 가정하자. 이때 관측값이 작은 경우와 큰 경우에 따라 추출률의 범위가 0.20에서 0.80이라면 작은 값의 경우  exp 에서 근사적으로 ≈ 가 되며 큰 값의 관측값의 추출률을 0.05 이하로 잡으

(9)

면 ≈ 이 된다. 따라서 작은 관측값 에 포함확률이 커지면 상대적으로  의 값은 상대적으로 작아진다. 또한 변수  ∼   에서 를 2, 1, 0.5, 0.2로 작게 잡는 경우 값이 작아지면 관측값의 평균값도 상대적으로 작아지게 된다.  를 모평균, 을 모분산이라 할 때, 단순평균 과 정보적 표본이론에 근거한 추정값  의 상대편의(relative bias),   × _ 



    _, __{  × }  



    _ 을 각각 구한다. 또한   과   _  _ 으로 정의한 후, 즉 두 통 계량의 차이와 비를 비교하였다. < 표 1 >  인 경우   _ _   100 2 5.7136 5.6857 -0.0279 0.9951 1 6.4026 6.3707 -0.0319 0.9950 0.5 32.8212 32.5020 -0.3192 0.9903 0.2 36.1693 35.7703 -0.3990 0.9890 200 2 5.7298 5.6740 -0.0558 0.9903 1 6.4560 6.3922 -0.0638 0.9901 0.5 33.1378 32.5006 -0.6372 0.9808 0.2 36.5835 35.7853 -0.7982 0.9782 400 2 5.7915 5.6799 -0.1116 0.9807 1 6.4955 6.3679 -0.1276 0.9804 0.5 33.7916 32.5173 -1.2742 0.9623 0.2 37.3557 35.7603 -1.5954 0.9573 800 2 5.8960 5.6728 -0.2233 0.9621 1 6.6307 6.3756 -0.2552 0.9615 0.5 35.0574 32.5102 -2.5472 0.9273 0.2 38.9499 35.7686 -3.1812 0.9183 1000 2 5.9378 5.6589 -0.2790 0.9530 1 6.7090 6.3904 -0.3187 0.9525 0.5 35.7001 32.5238 -3.1763 0.9110 0.2 39.7544 35.7914 -3.9630 0.9003 _ 은 작은 관측값의 추출률이 약 75% ~ 80%, 큰 값의 추출률이 15% ~20%인 경우이다. < 표 1 >에서 보듯이 _{의 값이 커지면 편의의 값이 상대적으로} 커지며 _ 과 _의 차이는 모두 음수가 되어 제안된 추정량이 편의를 보정하는 것 을 확인할 수 있다. 또한 의 값이 작아짐에 따라 자료의 모평균 값이 상대적으로

(10)

작아져 상대 편의가 커지게 되고 또한 보정의 효과도 커지게 된다. 이에 추가하여 편 의의 크기는 분산의 크기에 영향을 받기 때문에   인 경우에 보정 효과가 가 장 큰 것을 확인할 수 있다. < 표 2 >  인 경우       100 2 4.0950 4.0552 -0.0398 0.9903 1 4.6496 4.6041 -0.0455 0.9902 0.5 23.7469 23.2917 -0.4553 0.9808 0.2 26.1799 25.6113 -0.5686 0.9783 200 2 4.1351 4.0555 -0.0796 0.9808 1 4.6634 4.5725 -0.0909 0.9805 0.5 24.1912 23.2811 -0.9102 0.9624 0.2 26.7458 25.6101 -1.1357 0.9575 400 2 4.2083 4.0491 -0.1592 0.9622 1 4.7599 4.5780 -0.1819 0.9618 0.5 25.1075 23.2881 -1.8193 0.9275 0.2 27.8925 25.6156 -2.2769 0.9184 800 2 4.3856 4.0674 -0.3182 0.9274 1 4.9412 4.5777 -0.3635 0.9264 0.5 26.9093 23.2732 -3.6361 0.8649 0.2 30.1549 25.6085 -4.5463 0.8492 1000 2 4.4529 4.0560 -0.3969 0.9109 1 5.0135 4.5598 -0.4537 0.9095 0.5 27.7977 23.2724 -4.5253 0.8372 0.2 31.2789 25.6319 -5.6470 0.8195 _ 는 작은 관측값의 추출률이 약 90%, 큰 값의 추출률이 약 10%인 경우 로 < 표 2>의 결과에서도 의 값이 커지면서 또한 의 값이 작아지면서 보정 효과 가 크게 나타나고 있음을 확인할 수 있다.

(11)

< 표 3 >  인 경우       100 2 2.2553 2.2019 -0.0534 0.9763 1 2.5327 2.4717 -0.0610 0.9759 0.5 13.1717 12.5615 -0.6102 0.9537 0.2 14.5573 13.7947 -0.7627 0.9476 200 2 2.2976 2.1908 -0.1068 0.9535 1 2.6060 2.4839 -0.1221 0.9532 0.5 13.7929 12.5736 -1.2193 0.9116 0.2 15.3197 13.7928 -1.5269 0.9003 400 2 2.4142 2.2006 -0.2136 0.9115 1 2.7228 2.4788 -0.2441 0.9104 0.5 14.9929 12.5521 -2.4407 0.8372 0.2 16.8565 13.8054 -3.0510 0.8190 800 2 2.6296 2.2031 -0.4265 0.8378 1 2.9600 2.4721 -0.4879 0.8352 0.5 17.4254 12.5565 -4.8690 0.7206 0.2 19.8887 13.8030 -6.0858 0.6940 1000 2 2.6989 2.1678 -0.5311 0.8032 1 3.0360 2.4289 -0.6070 0.8001 0.5 18.5518 12.5131 -6.0387 0.6745 0.2 21.3313 13.8090 -7.5223 0.6474 _ 인 경우는 큰 관측 값의 추출률이 1%이하인 경우로 < 표 1 >과 < 표 2>와 유사한 결과를 준다. 다만 < 표 1 >에서 < 표 3 >은 _의 값이 작아질수록 큰 값의 관측 값이 추출될 확률이 매우 적어지는 경우이다. 따라서 _ 의 경우는 큰 값의 관측 값이 거의 뽑히지 않는 경우이므로 편의의 보정효과는 < 표 3>에서 가장 크게 나타나고 있다. 3.2 빅데이터에서 추출된 자료의 경우 자료생성은 다음과 같다. 우선 첫 단계는 초모집단(super population)으로 개의 자료를 생성하였다. 이때 사용된 관심변수  의 분포는 다음과 같다. ∼    ′   또한 보조변수  의 분포는  ∼    로 감마분포를 사용하였으며 추출률은   exp  을 사용하여 최종 빅데이터를 생성하였다. 그리고 생성된 빅데이터에서 관심변수  를 표본으로 임 의 추출한 후 얻어진 자료를 분석하였다.

(12)

사용된 자료 생성 과정은 3.1절에서 사용한 방법과 동일하다. 즉 초모집단에서 관 심변수 와 보조변수 와의 관계는    이며 이때 오차 는 ∼    에서 생성하였고, 보조자료



는    ,  ∼   을 사용하 여 생성하였다. 이때    ,   을 사용하였으며      을 사용하였다. 따라서 생성된 모집단 자료를 우리가 흔히 접할 수 있는 빅데이터로 가정할 수 있다. 다음으로 주어진 5,000,000개 빅데이터에서   ,  ,  개의 표 본을 임의로 추출한 후 정보적 표본이론이 적용된 와 단순평균 의 성능을 비 교하기 위한 비교통계량인 __{ } _  를 구하였다. 결과는 <표 4>에서 <표 6>에 수록되어 있다. <표 4>에서 <표 6>의 결과를 살펴보면 초모집단 분포로 얻어진 빅데이터의 경 우에서도 정보적 표본설계 이론을 적용하여 편의를 보정한 추정량의 편의가 상대적으 로 줄어드는 것을 확인할 수 있다. 또한 추출된 자료의 양이 많은 경우가 편의를 줄 일 수 없음을 알 수 있으며 <표 1>에서 <표 3>에서 얻어진 결과와 유사한 결과가 얻어진 것을 확인할 수 있다. 즉   이고,   인 경우에 가장 큰 보정효과 를 보이고 있다. < 표 4 >   인 경우             100 2 1.0267 1.0086 0.9953 1 0.9741 0.9890 0.9900 0.5 0.9903 0.9889 0.9831 0.2 0.9925 0.9891 0.9780 200 2 0.9530 0.9985 0.9975 1 0.9790 1.0013 0.9975 0.5 0.9809 0.9812 0.9815 0.2 0.9794 0.9772 0.9532 400 2 0.9558 0.9808 0.9876 1 0.9954 0.9730 0.9824 0.5 0.9628 0.9634 0.9587 0.2 0.9573 0.9581 0.9039 800 2 0.9197 0.9682 0.9827 1 0.9442 0.9712 0.9543 0.5 0.9238 0.9278 0.9250 0.2 0.9147 0.9170 0.8376 1000 2 0.9688 0.9543 0.9745 1 0.9919 0.9272 0.9519 0.5 0.9148 0.9111 0.9153 0.2 0.9021 0.8998 0.7965

(13)

< 표 5 >   인 경우             100 2 1.0131 0.9973 0.9951 1 0.9892 1.0052 0.9909 0.5 0.9779 0.9845 0.9806 0.2 0.9749 0.9773 0.9537 200 2 0.9573 0.9985 0.9903 1 0.9705 1.0013 0.9904 0.5 0.9619 0.9812 0.9622 0.2 0.9563 0.9772 0.9106 400 2 0.9575 0.9663 0.9809 1 0.9099 0.9567 0.9623 0.5 0.9269 0.9251 0.9273 0.2 0.9150 0.9185 0.8363 800 2 0.9368 0.9318 0.9623 1 0.8849 0.9359 0.9276 0.5 0.8661 0.8630 0.8645 0.2 0.8471 0.8485 0.7196 1000 2 0.9353 0.9239 0.9534 1 0.8660 0.9291 0.9110 0.5 0.8399 0.8358 0.8370 0.2 0.8214 0.8184 0.6722 < 표 6 >   인 경우             100 2 0.9615 0.9657 0.9945 1 0.9626 0.9737 0.9889 0.5 0.9571 0.9520 0.9782 0.2 0.9465 0.9464 0.9475 200 2 1.0056 0.9573 0.9890 1 0.9861 0.9302 0.9889 0.5 0.9057 0.9149 0.9573 0.2 0.9034 0.9001 0.9005 400 2 0.9329 0.9108 0.9039 1 0.9980 0.9260 0.9576 0.5 0.8441 0.8314 0.9183 0.2 0.8149 0.8181 0.8179 800 2 0.9027 0.8321 0.9574 1 0.8354 0.8319 0.9186 0.5 0.7149 0.7200 0.8485 0.2 0.6922 0.6904 0.6922 1000 2 0.9567 0.8082 0.9473 1 0.8412 0.8083 0.9003 0.5 0.6714 0.6713 0.8188 0.2 0.6412 0.6442 0.6456

(14)

4. 결론

본 연구에서는 지수형 추출률 모형의 모수 값인 이 알려져 있고 주어진 표본 분 포가 초모집단 분포와 상이하다는 가정 하에서 단순평균과 정보적 표본이론을 적용 한 추정량을 비교하였다. 최근 빅데이터라는 일반적으로 방대한 양의 자료를 분석 할 때 대부분의 경우 초모집단 분포의 정보가 없는 이유와 자료의 양이 방대하다는 이유 로 단순표본평균을 흔히 사용하고 있다. 그러나 본 연구 결과에 의하면 자료의 양과 상관없이 주어진 표본 자료의 구조 및 추출률에 따라 편의가 발생하게 되고 본 연구 에서 살펴본 정보적 표본이론을 적용함으로써 편의를 줄일 수 있었다. 정보적 표본 이론을 적용한 결과인 < 표 1 >, < 표 2 >, < 표 3 >을 정리하면 다음과 같다. < 표 7 > 정보적 표본 이론 결과 요약     -0.0008 2 100 0.9951 1000 0.9530 0.2 100 0.9890 1000 0.9003 -0.008 2 100 0.9903 1000 0.9783 0.2 100 0.9109 1000 0.8195 -0.01 2 100 0.9763 1000 0.8032 0.2 100 0.9476 1000 0.6474 < 표 7 >에서 이 -0.0008에서 –0.01로 변하는 것은 초 모집단 분포에서 큰 값 의 자료가 표본 자료에 포함되는 확률이 작아지는 경우로 –0.01인 경우는 큰 값의 자료가 약 1% 이하로 포함되어있는 표본 자료가 된다. 따라서 절대적인 편의의 양도 크지만 보정된 편의의 양도 역시 상대적으로 크다. 또한 값이 2에서 0.2로 변하는 것은 자료의 모 평균값이 작이지는 경우로 값이 작거나 모 분산이 큰 경우에서 편 의의 보정 정도가 상대적으로 크게 나타났다. 다음의 < 표 8 >은 빅데이터에 본 이론을 적용한 경우에서 얻어진 < 표 4 >, < 표 5 >, < 표 6 >을 정리한 결과이다.

(15)

< 표 8 > 빅데이터 적용 결과 요약 _  _           -0.0008 2 100 1.0267 1.0086 0.9953 1000 0.9688 0.9543 0.9745 0.2 100 0.9925 0.9891 0.9780 1000 0.9021 0.8998 0.7965 -0.008 2 100 1.0131 0.9973 0.9951 1000 0.9353 0.9239 0.9534 0.2 100 0.9749 0.9773 0.9537 1000 0.8214 0.8184 0.6722 -0.01 2 100 0.9615 0.9657 0.9945 1000 0.9567 0.8082 0.9473 0.2 100 0.9465 0.9464 0.9475 1000 0.6412 0.6442 0.6456 < 표 8 >을 살펴보면 기존의 통계 이론에서 잘 알려진 것처럼 선택 편의가 있는 경우에는 표본 자료의 수가 많아진다고 해도 편의가 제거되지 않는다. 따라서 빅데이 터 분석에서 자료의 양이 많기 때문에 단순평균을 사용하는 것은 문제가 될 수 있으 며 초모집단 분포 정보를 확인하고 이 정보를 추정에 사용하는 것이 타당하다고 판단 된다. (2019년 6월 7일 접수, 2019년 7월 15일 수정, 2019년 8월 11일 채택)

(16)

참고문헌

Chung, H. Y. and Shin, K.-I. (2017), Estimation using informative sampling technique when response rate follows exponential function of variable of interest, The Korean Journal of Applied Statistics, Vol. 30, No. 6, 993-1004.

Min, J.-W. and Shin, K.-I. (2018), A study on the determination of substrata using the information of exponential response rate by simulation studies, The Korean Journal of Applied Statistics, Vol. 31, No. 5, 621-636.

Pfeffermann, D. Krieger, A. M. Rinott, Y. (1998), Parametric distributions of complex survey data under informative probability sampling, Statistica

Sinica, Vol. 8, 1087-1114.

Pfeffermann, D. and Sverchkov, M. (2003), Small area estimation under informative sampling, 2003 Joint Statistical Meeting-Section on Survey Research

Methods, pp 3284-3295.

Pfeffermann, D., Moura, F. A. D. S., and Silva, P.L.D.N, (2006), Multi-level modelling under informative sampling, Bio,etrika, vol. 93, No. 4, pp. 943-959.

Savitsky, T. D. and Toth, D. (2016), Bayesian estimation under informative sampling, Electronic Journal of Statistics,

(17)

Application of Informative Sampling on Big data

3)

Lee Sang Eun

4) Abstract

The sample design in the sample survey generally uses a stratified sampling method that separates strata by auxiliary variables that exist in the sample frame and are related to the variables of interest. Recently, big data type analyzes large amount of data and various types of data. In most cases, it is difficult to analyze the weight using sample frame. Therefore, in many cases, this is done by analyzing the average or frequency of given data values. However, if big data itself is data with bias, simple average analysis can not be a good estimator. Therefore, this study attempts to reduce the bias of the estimator by using the inclusion probability of each of the observed variables observed in the informative sampling theory.

keynote : informative sampling, inclusion probability, relative bias, big data

3) This work was supported by Kyonggi University Research Grant 2018 4) Professor, Kyonggi University Applied statistics major, sangleee62@kgu.ac.kr