표본추출과 표본분포

(1)

7장, Part A

표본추출과 표본분포

(sampling and sampling distributions)

 표본분포 개요

 점추정

 단순무작위표본추출



xx

^{의 표본분포}

(2)

통계적 추론의 목적은 표본의 정보로부터 모집단에 관한 정보를 얻는 것이다.

통계적 추론 (statistical inference)

모집단은 관심의 대상이 되는 모든 요소들의 집합이다. 모집단은 관심의 대상이 되는 모든 요소들의 집합이다. 표본은 모집단의 부분집합이다.

표본은 모집단의 부분집합이다.

(3)

표본의 결과는 모집단 특성 값에 대한 추정치만 제공한다.

모수는 모집단의 수치적 특성 값이다. 모수는 모집단의 수치적 특성 값이다.

적절한 표본추출 방법을 사용하면, 표본의 결과는 모집단 특성에 대한 좋은 추정치를 제공할 수 있다. 적절한 표본추출 방법을 사용하면, 표본의 결과는 모집단 특성에 대한 좋은 추정치를 제공할 수 있다.

통계적 추론

(4)

단순 무작위 표본 추출(simple random sampling):

유한 모집단 (finite population)

 유한 모집단의 예는 아래와 같다:

– 조직의 등록멤버 – 신용카드 계좌 수 – 재고생산품의 수

 규모 N 인 유한한 모집단으로부터 규모 n인

단순 무작위 표본은 규모 n인 표본 각각이

선택될 확률이 동일한 표본이다.

(5)

단순 무작위 표본 추출 : 유한 모집단

 규모가 큰 표본추출 프로젝트에서는 컴퓨터로 생성된 난수(random numbers)가 표본 추출 과정에 자주

이용된다.

 비복원추출(sam pling w ithout replacem ent)이 가장 자주 쓰이는 표본추출절차이다.

 다음 요소를 추출하기 전 현재 추출된 표본의 요소를 대체하는 것을 복원추출(sampling with replacement) 이라고 한다.

(6)

단순 무작위 표본 추출 :

무한 모집단 (infinite population)

 무한 모집단은 모집단의 요소들이 무한히 계속 진행 되는 한 과정(ongoing process)에서 생성된 항목들로 구성된다.

 무한 모집단으로부터의 단순 무작위 표본은 다음 조건을 만족시키도록 선정된 표본이다.

1. 선택된 각 요소는 모집단으로부터 나온다 2. 각 요소는 독립적으로 선택된다.

(7)

단순 무작위 표본 추출 : 무한 모집단

 난수를 이용한 표본 추출 과정은 무한 모집단에서는 사용할 수 없다.

 무한 모집단의 경우, 모집단의 모든 요소들에 대한 목록을 작성하는 것은 불가능하다.

(8)

s 는 모집단 표준편차



^{의 점추정량이다}



. s 는 모집단 표준편차





.

점추정에서 모집단 모수를 추정하기 위해 표본 통계량의 값을 계산하는데 표본 자료를 사용할 수 있다.

점추정 (point estimation)

는 모집단 비율 p의 점추정량이다.

p p

는 모집단의 평균 의 점추정량(point estimator)이다.

xx ^

(9)

표본오차 (sampling error)

 통계적 방법으로 표본추출 오차의 크기에 대한 확률적 언급을 할 수 있다.

 표본추출 오차는 전체 모집단이 아니라 모집단의 부분 집합을 사용하기 때문에 나타나는 결과이다.

 불편 점추정값과 해당되는 모수와의 차이의 절대값을 표본추출 오차라고 한다.

 점추정량의 기대값이 모수와 같을 때 그 점추정량은 불편(unbiased) 추정량이다.

(10)

표본추출오차

표본추출오차:

| p p  |

: 표본 비율의 경우

| s   |

: 표본 표준편차의 경우

| x   |

: 표본평균의 경우

(11)

예 : St. Andrew’s

 St. Andrew’s 대학은 매년 예비 대학생들로부 터 900건의 지원(application)을

받고 있다 .

 지원서에는 해당 학생의 SAT 성적과 기숙사

생활 희망여부를 담고 있다 .

(12)

예 : St. Andrew’s

 입학사정관은 다음과 같은 정보를 알고 싶어 한다 :

– 900명의 응시자의 SAT 평균 성적

– 기숙사에 살고 싶어 하는 학생의 비율

(13)

예 : St. Andrew’s

원하는 정보를 얻기 위한 3가지 대안을 살 펴보자 .

• 900명 전지원자에 대하여 전수조사를 한다 .

• 난수표를 이용하여 30명의 표본을 추출한다 .

• Excel을 사용하여 30명의 표본을 추출한다.

(14)

전수조사 (conducting a census)

 만약 900명의 모든 지원자에 대한 자료가 학교 데이터 베이스에 있다면, 제3장의 공식에 따라 관심의 대상이 되는 모수를 계산할 수 있을 것이다.

 당분간 본 예에서는 전수조사가 가능하다고 가정한다.

(15)

900 990 x

i

    ₉₉₀ 900

x

i

   

( )

2

900 80 x

i



   ⁽ ^ ⁾

²

 ₈₀ 900

x

i



   ^ 

전수 조사

648 .72 p  900 648  .72 p  900 

 모집단의 SAT성적 평균

 모집단의 SAT 성적에 대한 표준편차

 모집단의 기숙사 생활 희망 학생의 비중

(16)

단순 무작위 표본추출 (simple random sampling)

 각 지원자들은 지원서가 도착한 순서대로 1에서 900까지 번호가 부여 되었다.

 그래서 사정관은 30명의 표본을 사용하기로 결정하였다.

 게다가, 입학 사정관은 몇 시간 뒤에 있을 회의를 위해 관심대상이 되는 모수의 추정치를 확보해야 한다.

 이제 올해 지원자들의 정보가 학교 데이터 베이스에 기록되어 있지 않다고 가정하자.

(17)

단순 무작위 추출 :

난수표 (random number table) 사용

■30명 지원자 표본의 선정

 이를 위해 교과서 난수표의 3번째 열에 있는 5자리 난수 중 뒤 3자리만 사용할 것이다. 그리고 필요시 계속해서

4번째 열로 이동할 것이다.

 유한모집단은 900 요소를 가지고 있기 때문에, 1에서 900까지 순서가 부여된 지원자 중 무작위 추출을 하기 위해 3자리 난수가 필요하다.

(18)

단순 무작위 표본 추출 : 난수표 사용

■ 30명의 표본 선정

(이 과정 중 900보다 큰 숫자가 5번 나왔고 하나의 중복된 숫자 835가 나왔기 때문에 우리는 난수표의 3번째 열과 4번째 열의 일부까지 사용 할 것이다.)

 30명의 표본을 얻을 때까지 계속해서 난수를 뽑는다.

 우리가 얻은 숫자들은 우리가 선정할 표본

지원자들의 숫자이다. 단 아래와 같은 난수는 제외한다.

 난수가 900보다 크거나 또는 이미 사용된 난수

(19)

단순 무작위 표본 추출 : 난수표 사용

표본 추출에 난수 사용하기

744436 865 790 835902 190 836

. . . 등 등 3자리난수

표본에 포함된 지원자

No. 436 No. 865 No. 790 No. 835

수가 900을 초과 No. 190

No. 836 No. 744

(20)

단순 무작위 표본 추출 : 난수표 사용

표본 자료

1 744 Conrad Harris 1025 Yes 2 436 Enrique Romero 950 Yes 3 865 Fabian Avante 1090 No 4 790 Lucila Cruz 1120 Yes

5 835 Chan Chiang 930 No

. . . . .

30 498 Emily Morse 1010 No

번호 난수 지원자

SAT 성적

기숙생활 희망여부

. . . . .

(21)

단순 무작위 표본 추출 : 컴퓨터 (computer) 사용

■

30명의 표본 선정

 그리고 30개의 가장 작은 난수에 해당되는 지원자들을 우리의 표본으로 선택할 수 있다.

 예를 들어, Excel 함수

= RANDBETWEEN(1,900)

1에서 900까지 난수를 생성하는 데 사용할 수 있다 .

 무작위표본추출을 위한 난수 생성에 컴퓨터를 사용한다.

(22)



xx

는



^{의 점추정량 이다}





p p

는 p의 점추정량이다.

29,910 30 30 997

xi

x 



 ^29,910  ₉₉₇

30 30

xi

x 



 

( )2 163,996 75.2

29 29

xi x

s 





⁽ ⁾²  ^163,996  _75.2

29 29

xi x

s 





 

20 30 .68 p  20 30 .68

p  

점추정

주목: 다른 난수들의 사용은 다른 표본을 선택하게

하므로 점추정값(point estimate)이 다를 수 있다.

 s 는





(23)

모수 모수 값 점추정량 점추정값 µ= SAT성적의

모집단 평균

990 997

 = SAT성적의

모집단 표준편차

80 s = SAT성적의 표본 표준편차

75.2

p = 기숙사 희망학생의 모집단 비율

.72 .68

단순 무작위 추출로부터의 점추정값에 대한 요약

= SAT성적의 표본평균

xx

= 기숙사 희망

학생의 표본 비율

p

(24)

의 표본분포 (sampling distribution)

 통계적 추론 과정

x



^{의 값을 추정하는데} 의 값을 사용한다.

x

표본자료가 표본평균 의 값을 제공한다_.

x x

n 요소의 단순 무작위 표본을 모집단으로부터

선정한다. 평균 μ= ? 를

가진 모집단

xx

(25)

 의 표본분포는 표본평균 의 모든 가능한 값의 확률 분포이다.

xx xx

의 표본분포

xx

여기서:



= 모집단 평균 E( ) =

xx 



xx

의 기대값

(26)

의 표본분포

xx

유한 모집단 무한 모집단

 

x

n

N n

 N 

( ) 

  1

x

n

N n

 N 

( ) 

1  

x

 n

 

x

 n

•

 

_x_x : 평균의 표준오차(standard error)

• 만약 n/N < .05 이면, 유한 모집단은 무한모집단 인 것처럼 간주된다.

• ⁽⁽^N^N ^^ ⁿⁿ^{) / (}^{) / (}^N^N ^1^1⁾⁾ : 유한모집단 수정계수



xx

의 표준편차

x

(27)

의 표본분포의 형태

x x

만약 규모가 큰 (n > 30) 단순 무작위 표본을 사용한다면 중심극한정리에 의해 표본평균 의 분포는 정규

분포에 근사한다.

xx

단순 무작위 표본이 작을 경우 (n < 30) , 표본평균 의 분포는 모집단의 분포가 정규분포일 때만 정규분포 한다고 할 수 있다.

x

(28)

80 14.6

x 30

n

    80  30 14.6

x n

    

( ) 990 E x  ( ) 990

E x  xx

SAT성적에 대한 xx 의 표본분포

표본평균 의 분포

x x

x

(29)

 30명의 무작위 추출 표본에 대한 평균이 실제 모집단 평균의 +/- 10 안에 있을 확률은 얼마인가?

다시 말해서, 가 980에서 1000 사이에 있을 확률은 얼마인가?

x x

SAT 성적에 대한 xx 의 표본분포

(30)

 단계 1: 구간의 위(upper) 값에 해당하는 z-값을 구한다.

z = (1000 - 990)/14.6= .68

P(0 < z < .68) = .2517

 단계 2: z-값 왼쪽 분포곡선 아래 면적을 구한다.

SAT 성적에 대한 x x 의 표본 분포

(31)

SAT성적에 대한 xx 의 표본 분포

표준 정규 분포의 확률

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

. . . . . . . . . . .

.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224 .6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549 .7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852 .8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133 .9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389

. . . . . . . . . . .

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

. . . . . . . . . . .

.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224 .6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549 .7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852 .8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133 .9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389

. . . . . . . . . . .

(32)

SAT성적에 대한 x x 의 표본 분포

x x

990 표본 평균 의

분포

xx

x

14.6 

_x

 14.6

 ^

1000 면적 = .2517

(33)

 단계3: 구간의 아래(lower) 값에 대한 z-값을 구한다.

 단계 4: z-값 왼쪽 분포곡선 아래 면적을 구한다.

z = (980 - 990)/14.6= - .68

P(-.68 <z < 0) =

= .2517

P(0 < z < .68)

SAT 성적에 대한 xx 의 표본 분포

(34)

SAT 성적에 대한 xx 의 표본 분포

 Step 5: 구간 위와 아래 z-값 사이 곡선 아래 면적을 구한다.

P(-.68 < z < .68) = 2 * P(0< z < .68)

= 2 * 0.2517

= .5034

표본의 SAT 성적 평균이 980과 1000 사이에 있을 확률은:

P(980 <

xx

< 1000) = .5034

(35)

x

1000

x

980 990

SAT 성적에 대한 xx 의 표본 분포

면적 = .5034 표본 평균

의 분포

x x

x

14.6 

_x

 14.6

 ^

(36)

표본 규모 (sample size)와 의 표본분포와의 관계

x x

 30명이 아닌 100명의 단순 무작위 표본 추출을 가정하자.

 표본 규모에 상관 없이 E( ) =



. 앞 예에서 E( )는 여전히 990이다.

xx xx

 표본 규모가 증가하면 평균의 표준오차 는 감소한다. 표본의 규모가 100으로 증가함에 따라, 평균의 표준 오차는 아래와 같이 감소한다.



x_x



80 8.0

x 100 n







 80  100 8.0

x n







 

(37)

표본 규모와 x x 의 표본분포와의 관계

( ) 990 E x  ( ) 990

E x  xx

x

14.6 

_x

_{ 14.6}

 

n = 30일 때,

x

8 

_x

_{ 8}

 

n = 100일 때,

(38)

 n = 30일 때 , P(980 <

x x

< 1000) = .5034.

표본규모와 x x 의 표본분포와의 관계

 n = 100 일 때, n = 30 일 경우의 단계를 적용하여 P(980 <

xx

< 1000) 을 풀면,

P(980 <

xx

< 1000) = .7888.

 n = 100 일 경우 표본분포는 더 작은 표준오차를 가지기 때문에, 의 값들은 n = 30일 때 보다 더 작은 변동성을 가지며 모집단 평균에 더 가까워 진다

xx

.

(39)

표본규모와 xx 의 표본분포와의 관계

x x

1000 980 990

면적 = .7888 의 표본

분포

xx  

_x_x

_{ 8}  8

(40)

표본추출과 표본분포

7장, Part A