도수

(1)

복원추출법과 비복원추출법 제 6장

(2)

복원추출법

(sampling with replacement: SWR)

⇒ 추출된 것을 되돌려 넣고 추출하는 방법

→ 복원추출법은 같은 표본이 중복해서 나올

수 있다.

(3)

비복원추출법

(sampling without replacement: SWOR)

⇒ 또한, 추출된 것을 되돌려 넣지 않고 추출 하는 방법

→ 비복원추출법으로 한번 추출된 것은 다시

추출되지 않는다.

(4)

예제 1

• {1,2,3}으로 구성된 모집단으 로부터 2개의 표본을 임의 로 추출하는 문제를 생각해 보기로 하자. 비복원으로 표 본을 추출할 경우와 복원으 로 추출할 경우 가능한 표본 의 종류와 그 표본이 실제표 본으로 추출될 확률은 다음 과 같다.

비복원 추출법

가능한 표본 확률

{1,2} 1/3

{1,3} 1/3

{2,3} 1/3

복원 추출법

가능한 표본 확률

{1,1} 1/9

{1,2} 1/9

{1,3} 1/9

{2,1} 1/9

{2,2} 1/9

{2,3} 1/9

{3,1} 1/9

{3,2} 1/9

{3,3} 1/9

(5)

예제 1

① 비복원추출의 경우

1이 실제 표본으로 추출되는 경우는 {1,2}와 {1,3}이므로 그 확률은 2/3 이며, 2나 3이 실제 표본으로 추출될 확률도 마찬가지로 2/3가 된다.

② 복원추출의 경우

1이 실제 표본으로 두 번 추출되는 경우는 {1,1}이므로 그 확률은 1/9이 며, 2나 3이 실제 표본으로 두 번 추출될 확률도 마찬가지로 1/9가 된다.

또한, 1이 실제 표본으로 한 번 추출되는 경우는 {1,2}, {1,3}, {2,1}, {3,1}

이므로 그 확률은 4/9이며, 2나 3이 실제 표본으로 한 번 추출될 확률도 마찬가지로 4/9가 된다.

③ 이와 같이 비복원추출이나 복원추출은 모두 모집단의 모든 원소가 표본 으로 추출될 확률이 동일한 확률추출법이다.

(6)

난수표에 의한 임의표본

<note>

① 난수(random number)

0부터 9 사이의 숫자를 동일하게 출현할 확률로 배열한 수

② 난수표(random numbers table) -난수를 배열한 표

이 때, 각 숫자가 추출될 확률은 0.1로 같다. 이러한 난수표는 종류가 많으며 누구나 만들 수 있는 것으로 난수표의 일부가

<표 8.1>에 기재되어 있다.

따라서, 임의표본을 추출하는 데에는 난수표를 주로 사용하게 되며, 요즈음에는 컴퓨터에서 직접 난수를 발생하여 사용하기 도 한다.

(7)

예제 2

• 200명의 학생들로부터 5명을 임의추출하여 학생들의 평균 체 중을 추정하고자 한다. 이 때 크기가 200인 모집단에서 크기 가 5인 표본을 단순임의로 추출하는 것을 난수표를 사용하여 실행해 보기로 하자.

(8)

• 1단계 : 먼저 200명 학생 각각에 001로부터 200까지의 일련번호를 부여하여 명단을 만든다. 그리고 난수표를 사용하여 5명을 추출하기 위하여 부록의 난수표로부터 임의로 선정된 난수표의 일부를 열거해 보면 다음과 같다.

<표 8.1> 난수표의 예 (일부)

10480 15011 01536 02011 81647 22368 46573 25595 85393 30995 24130 48360 22527 97265 76393 42167 93093 06243 61680 07856 37570 39975 81837 16656 06121 77921 06907 11008 42751 27756 99562 72905 56420 69994 98872 96301 91977 05463 07972 18876 89579 14342 63661 10281 17453 85475 36857 53342 53988 53060

(9)

• 2단계 : (예를 들어) 처음 1행의 3개 열부터 시작한다면

학생 200명은 최대 번호가 200인 3자리수가 부여됨으로 위의 난 수표에서 처음 3열로부터 차례로 다음 수를 얻어 낼 수 있다.

• 3단계 : 그리고 처음 3열을 제외한 다음 3열(4, 5, 6열)로부터 는 다음 수를 얻을 수 있다.

104 223 241 421 375

779 995 963 895 854

801 684 304 679 703

210 627 019 791 753

(10)

• 4단계 : 또한, 다음 3열(7, 8, 9열)로부터는

을 얻는다. 동일하게 다음 3열로부터

등등을 얻을 수 있다.

501 657 836 309 997

690 290 197 434 685

501 325 022 306 581

711 556 705 263 753

536 595 527 243 837

008 420 436 661 342

020 853 972 616 166

427 699 079 102 539

(11)

• 5단계 : 이 중에서 처음 5개의 숫자

에 해당하는 일련번호의 학생을 추출하여 표본을 구성하는 것이 크기가 200인 모집단으로부터 크기가 5인 표본을 난수표를 사용해서 단순임의추출하는 것이 된다.

104 19 197 22 8

(12)

• 6단계 : 많은 학생을 표본으로 추출해야 하는 경우 즉 표본의 크기가 좀 클 경우에는 제한된 난수표를 절약해서 이용해야 하므로 다음과 같이 하는 방법을 생각할 수 있다.

<방법>

난수표로부터 얻어진 일련 번호 중 200을 초과하는 수가 있으면 그 수 에서 200을 빼고, 만약 400을 초과하는 수가 있다면 400을 빼는 식으로 하여 표본을 선정한다. 예를 들어 처음 3열에서 얻어낸 숫자

로부터 200에 배수를 뺀

에 해당하는 일련번호의 학생을 표본으로 선정하면 난수표를 절약하면 서 표본을 추출할 수 있다.

104 223 241 21 375

104 23 41 21 175

(13)

예제 3

<표 8.1>의 난수표를 이용하여 크기가 800인 모집단으로부터 크기가 10인 표본을 추출하여라.

104 223 241 421 375 779 895 854 801 684

(14)

표본오차

측정값(measurement)은 오차를 내포한다. 만일 표본평균이 모평 균을 추정하기 위해 사용된다면 측정값인 표본평균은 오차를

내포한다.

예를 들면,

모평균 인 모집단으로부터 표본크기 n=25인 표본을 추출하 여 표본평균을 구하니 이었다. 이 경우 을 표본오 차(sampling error)라고 한다. 표본평균은 모평균 와 표본오차 의 합으로 생각할 수 있다.

즉 을 표본오차라고 하면 가 된다.

15



12

x x    3



e x   



(15)

예제 4

{2, 4, 6} 세 값으로 구성되어 있는 모집단에서 크기 2인 임의표본을 복 원추출 한다고 하자. 모든 가능한 크기 2인 순서표본(ordered sample) 은 가지가 된다. 여기서 순서표본이란 {2,4}와 {4,2}를 다른 표본으로 생 각한다. 모평균은   4 이다.

순서표본 표본평균 표본오차

{2,2} 2 2-4=-2

{2,4} 3 3-4=-1

{2,6} 4 4-4=0

{4,2} 3 3-4=-1

{4,4} 4 4-4=0

{4,6} 5 5-4=1

{6,2} 4 4-4=0

{6,4} 5 5-4=1

{6,6} 6 6-4=2

(16)

예제 4

다음은 표본평균에 대한 도수그래프이다.

0 0.5 1 1.5 2 2.5 3 3.5

1 2 3 4 5 6

도수

표본평균

(17)

예제 4

1) 모든 표본평균의 평균은 모집단 평균과같다. 즉 를 모든 표본평균의 평균이라고 하면

가 된다. 모평균은 이다.

2) 표본오차의 합은 0이다. 즉

따라서 만일 표본평균이 모평균을 추정하기 위해 사용되었 다면 모든 표본오차의 평균은 0이다.

(18)

참고

① 불편통계량(unbiased estimator)

⇒ 표본평균과 같은 통계량이 모수를 추정하기 위해 사용되고 그 표본오차의 평균이 0이면 그 통계량을 불편통계량(unbiased estimator)라 한다. 표본오차의 평균이 0인 통계량을 영편의 (zero biased)라 한다.

→ 따라서 표본평균은 모평균의 영편의이고 불편추정량이다.

② 추정치(estimate)

⇒ 추정 목적으로 표본으로부터 계산된 추정량의 값을 추정치 (estimate)라 한다.

③ 표본평균은 그 값이 표본에 따라 변하므로 확률변수가 된다.

→ 모든 추정량은 확률변수이다.

(19)

<퀴즈>

1. 난수표를 이용하여 10개의 표본을 뽑는 게임을 하여보아라.

2. 비확률추출법의 종류에 대해 이야기 하고, 장단점을 논하여라.