양적 모집단에서 모평균의 신뢰구간 ②모집단이 비정규분포, , 이 크면

(1)

Chapter 9. 추 정

Honggie Kim

양적 모집단에서 모평균의 신뢰구간

②모집단이 비정규분포, , 이 크면

9. 3 모집단이 하나일 때의 신뢰구간

)

2(

known

 _n

) ,

(

~

2

N n

X

^.

 

_{중심극한정리}

그러므로

¹⁰⁰ ⁽ ¹ ^ ^ ^)% ^

의 근사적 신뢰구간은

z n

x 

2



(2)

신뢰구간과 표본크기



신뢰구간의 길이



똑같은 신뢰계수라면 짧을수록 좋다



표본크기의 결정



을 알 때 를 오차 한계가 보다 작게 추정할 확률이 100 % 이려면 표본크기 은?

z  n

2

2



가 크면 커진다 )

1 (

 

: 가 크면 커진다



(신뢰계수)

의 100% 신뢰구간은

. 

Note    ^,  

이 크면 작아진다

n

) 1

(   n e

z  

2

n

z  e 

2

n

e

z   





 





²

2





2

 ^e

n

(3)

Chapter 9. 추 정

Honggie Kim

확률예제



Ex) 충남남학생들의 키는 표준편차가 6cm인 정규분포라 한다. 평균키 와 추정치와의

차이가 2cm이하일 확률이 0.95가 되기 위해선 몇 명을 조사해야 하는가?



z n

x 

025 .



0

)

2

2 6 96

.

( 1 



n ^

³⁴^.⁵⁷

 35

x ^

cm 2

(무조건 올림)

(4)

③모집단이 정규분포, , 이 작으면

^

²⁽

^unknown

⁾

ⁿ

6 ,

100 11 1

, 3

12 0

: , 2

6 









n n

S n

cm









일 때,

) (

~ v t n

S

X  

) 7 (

t t ( 3 )

) 1 ( t

t s

Student `

분포

(정규분포와 비슷, 분포의 자유도

v  t  n  1

)

] ,

[

nju nu v

영어의

n

에 해당하는

Greek

) 1 , 0 (

N

자유도( ), 즉 표본크기가

커질수록 에 접근

 1 n

) 1 , 0 (

N

(5)

Chapter 9. 추 정

Honggie Kim

확률예제



Ex) 정규 모집단에서 크기가 10인 표본을 구하여 를 얻었다. 의 95% 신뢰구간은?

9 ,

18

²



 s

x 

262 .

2 )

9 ( )

9

( ₀_.₀₂₅

2

  t 

t

_



[표 A.4]

95% 의 신뢰구간은

 n

t s

x 

_ ₂

(  )

146 .

2 10 18

262 3 .

2 18   



) 146 .

20 , 854 .

15  (

) 9 ( t

262 . 2

025 .

0

(6)



앞의 예에서 만약

^

²

^

⁹⁽

^known

⁾이면

z n

x 

 2



10 96 3

. 1 18 



86 . 1 18 



) 86 . 19 , 14 . 16

 (

) 1 , 0 ( N

96 . 1

025 . 0

, 더 좁다(더 좋다)

72 . 3 292 .

4 

(7)

Chapter 9. 추 정

Honggie Kim

④모집단이 정규분포, , 이 크면



해석 1

)

2(

unknown

 n

) 1 (

~ 

 t n n

S

X 

그러므로

100 ( 1   )% 

n

z s x



2



6 ,

100

11 1

, 3

12 0

: , 2

6











n n

S n

cm









일 때,

이 커지면( 분포의 자유도가 커지면)

n t

) (

2

v t

_

 2

z

(8)

④모집단이 정규분포, , 이 크면



해석 2

)

2(

unknown

 n

) 1 , 0 ( n ~ N

X







) 1 , 0 ( n ~ N

S

X   .

그러므로

100 ( 1   )% 

n

z s x



2



에서



대신

_S

사용( 이 크면

n   S

)

(9)

Chapter 9. 추 정

⑤모집단이 비정규분포, , 이 크면



모집단이 비정규분포, , 이 작으면



모집단이 비정규분포, , 이 작으면

)

2(

known

 n

)

2(

unknown



)

2(

unknown

 ⁿ

n

통3

n

X





 N ( 0 , 1 )

n S

X   . .

그러므로

¹⁰⁰ ⁽ ¹ ^ ^ ^)% ^

n z s

x



2



(10)

질적 모집단에서 모비율의 신뢰구간



질적 모집단에서 모비율( )의 신뢰구간

p

no yes

p

크기 n

표본



      

 ( 1 ) ( 1 ) ) 1

(

₂ ₂

n p z p

n p X

n p z p

n P X

이 크면

n

)) 1

, ( (

~

n

p p p

n N

X

.



상수

오차한계 의 점추정

p

) ) 1

( ,

) 1

(

₂ ₂

n n

x n

x n z

x n

n x n

x n z

x 

 



_ _

의 표준오차 p

의 신뢰구간은 를 추정치 로 대치한

p

)%

1 ( 100  

n p x

비모수적 방법

(통계학과 3학년) .

Note n

^{이 작으면}

(11)

Chapter 9. 추 정

Honggie Kim

질적 모집단에서 표본크기



표본크기(질적 모집단일때)



: 최대허용오차



: 신뢰계수(신뢰수준)

① 전에 추정한 사용

② 소 표본으로 추정하여 계산 후 필요한 표본 더추출

③ 이용

n e p z p ( 1  ) 

 2 2

2

( 1 ) )

( e

p z p

n 





_

e



 1

4 ) 1 2 1 1 2 ( ) 1 1

(

 p    p

2 2

) ) 1

( (

e

p p

z 



^

2 2

2 ) 1 ( e

z n





) 1 ( )

( p p p

f  

4 1

2 /

1 1

p

2 2

2

4e n  z

^



p p

필요한 표본수 충분히 확보

n

(12)

확률예제



Ex) 새 법률안의 찬반 여론 조사.

실제 찬성률 를 95%확률로 (또는 95% 신뢰수준

에서) 오차 한계 3% 포인트 내로 추정하려면 은?

2 2

025 . 0

) 03 . 0 ( 4

n  z )

²

03 . 0

96 . ( 1 4

 1 

1067.11

.

Note

대부분의 여론 조사는 1,000명을 표본크기로 함

n p

 1068

^(명)

(13)

Chapter 9. 추 정

Honggie Kim

9. 4 두 모집단에서의 신뢰구간



두 양적 모집단

모집단 1 모집단 2

,

_X2

X





평균 분산 ^평균



_Y

,

^분산



_Y²

표본크기

m

^표본크기

n

X

m

X

₁ , ₂ , ,

Y

₁ ,

Y

₂ , ,

Y

_n

(14)

두 양적 모집단에서의 신뢰구간



두 모집단에서의 신뢰구간

작다 크다 작다 크다

안 다 모른다

모집단 분 포

정 규

비정규 통3 통3

(모분산들)

2 2, _Y

X



표본크기

m, n

Z

^①

Z

^②

Z

^④

Z

^⑤

t

ⓐ

③

ⓑ

t

비현실적 ※ 3-ⓑ도 통3

(15)

Chapter 9. 추 정

Honggie Kim

①모집단이 정규분포, , 의 크기 상관없음

) (

, ²

2 _Y

known

X



 m, n

) ,

(

~

) ,

(

~

2 2

N n Y

N m X

Y Y

X X

 

) ,

(

~

2 2

n N m

Y

X  

_X

 

_Y



^X

 

^Y

2

)

2

( X Y

_X _Y

V      V ( X  Y )  

_X²

 

_Y² .

Note

서로 독립인 두 확률 변수의 합과 차의 분산

:

X

: Y

:

Y X 

: Y X 

- 1 - 1

1

1 - 2 2

- 2 2

(16)

두 양적 모집단에서의 신뢰구간 ①

 

X

 

Y 의

100 ( 1   )%

신뢰구간은

n z m

y

x

^X ^Y

2 2

2

)

(  









) ( 

_X

 

_Y 의

점추정치

정규분포

상수

⁽ ^x ^ ^y ⁾

의 표준오차





1

신뢰수준에서의 오차한계

n z m

y

x

1 1

) (

2







_



만약



_X²

 

_Y²

 

²이라면

(17)

Chapter 9. 추 정

Honggie Kim

평균 차의 추정에 관심이 있는 이유



왜 의 추정과 신뢰구간에만 관심이 있는가?



의 추정에는 대부분의 경우 관심이 없다



Ex) 충남대 남학생의 키 과기대 남학생의 키

Y

X



 

Y

X



 

: ,

, ,

₂

1

X X

m

X 

: ,

, ,

₂

1

Y Y

n

Y 

 175 x

 170 y

Y

X



 

_{의 추정치는}

x  y  345

Y

X



 

_{의 추정치는}

x  y  5

(무슨의미?)

(충남대 남학생의 평균키가 5cm 크다)

(18)

확률예제



Ex) 계란에 들어있는 베타카로틴은 표준편차가 10mg, 오리알에 들어있는 베타카로틴은 표준편차가

24mg으로 알려져 있으며 베타카로틴의 분포는 정규분포에 따른다고 알려져 있다. 계란 25개로 부터 측정한 베타카로틴의 양의 평균이 400mg, 오리알 12개로부터 측정한 베터카로틴의 양의 평균이 350mg이었다. 계란과 오리알 간의 베타 카로틴의 평균의 차이에 대한 95% 신뢰구간을 구하라

(19)

Chapter 9. 추 정

Honggie Kim

확률예제



풀이)

) (

100 10

, 25 ,

400

m

² ²

known

x   

_X

 

) (

576 24

, 12 ,

350

n

² ²

known

y   

_Y

 

12 576 25

96 100 .

1 )

350 400

(   

n z m

y

x

^X ^Y

2 2

2

)

(  









211 .

7 96 . 1

50

 



134 .

14 50 



) 134 .

64 , 866 .

35



(

(20)

② 모집단이 비정규분포, , 이 크다



정규모집단이 아니더라도 이 모두 크면(보통 30이상)

의 의 근사적 신뢰구간은

) (

, ²

2 _Y

known

X



 m, n

n m,

) ,

(

~

2

N m

X ^. 

_X



^X

~ ^. ( , )

2

N n

Y 

_Y



^Y

n z m

y

x

^X ^Y

2 2

2

)

(  









Y

X



 ^

₁₀₀₍₁

 

_)%

(21)

Chapter 9. 추 정

Honggie Kim

④ 모집단이 정규분포, , 이 크다



이 모두 크므로(보통 30이상)

의 의 근사적 신뢰구간은

) (

, ²

2 _Y

unknown

X



 m, n

n m,

n s m

z s y

x

^X ^Y

2 2

2

)

(  

_



Y

X



 ^

₁₀₀₍₁

 

_)%

2 2

2

2 _X

,

_Y _Y

X

S

S    

(22)

⑤ 모집단이 비정규분포, , 이 크다



이 모두 크므로(보통 30이상)

의 의 근사적(두번근사) 신뢰구간은

) (

, ²

2 _Y

unknown

X



 m, n

n m,

n s m

z s y

x

^X ^Y

2 2

2

)

(  

_



Y

X



 

100(1

 

)%

2 2

X

S

X

 

) ,

(

~

2

N m

X ^. 

_X



^X

~ ^. ( , )

2

N n

Y 

_Y



^Y

2 2

Y

S

Y

 

.

Note

(크다) 경우에는 정규모집단

여부가 중요하지 않음

n m unknown

Y

X² ,



²( ), ,



이 큰 게 가장 큰 힘

n

m,

(23)

Chapter 9. 추 정

Honggie Kim

확률예제



Ex) 요즈음의 초등학교 6학년 남학생의 평균키 를 추정하기 위해 100명을 조사해

을 얻었다.

10년 전 자료를 조사해 보니 비슷한 연구가 있었고, 그 때는 120명을 조사해

을 얻었던 것으로 나타났다. 에 대한 95% 신뢰구간을 구하라

) (

36 ,

) (

150 cm s

²

cm

²

x 

_X



) ( 

_X

) (

30 ,

) (

146 cm s

²

cm

²

y 

_Y



Y

X



 

(24)

확률예제



풀이) 모집단분포-무관, , 이 크다



_X²,



_Y²(

unknown

)

^m, ⁿ

n s m

z s y

x

^X ^Y

2 2

2

)

(  

_



 120

30 100

96 36 . 1 )

146 150

(   



4



1.96



0.36



0.25



4



1.96 0.61 781 .

0 96 . 1

4

 



531 .

1 4 



) 531 .

5 , 469 .

2  (

(25)

Chapter 9. 추 정

Honggie Kim

③모집단이 정규분포, , 이 작다



③-ⓐ 모르지만 같다(등분산 가정)



③-ⓑ



Ex1) 관심 – 충남대 지렁이하고 과기대 지렁이하고 어느 쪽이 길까?



충남대 지렁이의 평균길이



과기대 지렁이의 평균길이



Ex2) 관심 – 내가 가지고 있는 필기구와 지렁이 중 어느 쪽이 길까?



필기구의 평균길이



지렁이의 평균길이

) (

, ²

2 _Y

unknown

X



 m, n

)

2(

2

2 _Y

unknown

X

 

  

) (

, ²

2 _Y

unknown

X



통3 (비모수적 방법)

2 2

2

 



_X



_Y





X



Y

^

^X²

^ ^

^Y²



X



Y ^{(모름)으로}

가정 가능

으로 가정불가

(26)

두 양적 모집단에서의 신뢰구간 ⑤



지렁이의 표준편차(분산)가 필기구의 표준편차(분산)

보다 훨씬 큼(Ex2의 경우)



동종비교  등분산 가정가능



이종비교  등분산 가정불가

※ 통계분석의 대부분은 동종비교임



③ - ⓐ 등분산 가정이 가능하면

n z m

y

x 1 1

) (

2







_



₍

_

²

_ _

²

_ _

² ₎

Y X

모르기 때문에 추정치로 대체



를 추정치로 대체하면

t

분포계수가 됨

 ^ ^ 

(27)

Chapter 9. 추 정

Honggie Kim

등분산 가정 하에 모분산 추정



등분산 가정하에 의 추정



은 의 추정량이고 은 의 추정량이다

그런데 이므로, , 모두 을 추정한다



2

S

X



_X² ²

S

Y



Y² 2 2

2

 



_X



_Y

 S

_X²

S

_Y²



²

2 2

2

2 ^Y :



X

S

S 

의 추정량

) 2 (

) 1 (

) 1

(

² ²









 

n m

S n

S

m

_x _Y

) 2 (

) (

)

(

² ²









   

n m

Y Y

X

_i _i

n

m 

^{이면 OK!}

) :

var ) (

1 (

) 1 (

) 1

(

² ²

2

pooled iance

n m

S n

S

_p

m

^x ^Y









 

합병분산

.

Note

소표본에서 를 로 대신하면

2

2 



t

z 

 S

의 신뢰구간은

)

( 

_X

 

_Y

100 ( 1   )%

n s m

n m t

y

x

_p

1 1

) 2 (

) (

2













_

(28)

확률예제



Ex) 사과 과수원을 경영하는 김씨는 자신의 과수원 을 두부분으로 나누어 한쪽은 살충제를 뿌리고

다른 한 쪽은 직접 벌레를 잡아 주었다. 직접 벌레를 잡아준 쪽의 나무 10그루를 조사하니 사과의 개수가 평균 , 표준편차

이었고, 살충제를 뿌린 쪽의 나무 12그루를 조사 하니 사과의 개수가 평균 , 표준편차

이었다.

 350 x

 220

y s

_Y

 40

 30 s

X

등분산성 가정하에, 직접벌레를 잡아 주었을 때, 살충제를 부렸을 때보다 증가하는

그루당 사과 수를 95%신뢰수준에서 구간 추정하라

(그루당 사과 수는 정규분포에 따른다고 한다)

(29)

Chapter 9. 추 정

Honggie Kim

확률예제



풀이)

30 ,

350 ,

10  

 x s

_X

m

40 ,

220 ,

12  

 y s

_Y

n

2 ) 1 (

) 1

( ² ²

2









 

n m

s n

s

_p

m

^x ^Y

¹²⁸⁵

2 12 10

40 )

1 12 ( 30

) 1 10

(

² ²

 











 

086 .

2 )

20 (

,

t

₀_.₀₂₅



n s m

n m

t y

x

_p

1 1

) 2 (

) (

2













_

)

2(

2

2 _Y

unknown

X

 

  

정규모집단, 등분산가정

2

40

30

과

사이의 값임 )

( 847 .

35

1285 _X _Y

p

s s

s  

^와 ^{사이의 값}

) 205 .

205 ,

795 .

54  (

205 .

75 130

428 .

0 847

. 35 086

. 2

130     

 12

1 10

847 1 .

35 086

. 2 )

220 350

(    



(30)

두 질적 모집단에서의 신뢰구간



두 질적 모집단( 이 큰 경우)

 

 



 

n p p p

n N

Y ( 1 )

,

~ ^.

₂ ² ²

 

 



 

m p p p

m N

X ( 1 )

,

~ ^.

₁ ¹ ¹

 

 



    

 n

p p

m p p p

p n N

Y m

X ( 1 ) ( 1 )

,

~ ^.

₁ ₂ ¹ ¹ ² ²

n m,

p

1

yes

p

2

yes

(31)

Chapter 9. 추 정

Honggie Kim

두 질적 모집단에서의 신뢰구간

n n

y n

y m

m x m

x n z

y m

x ( 1 ) ( 1 )

2

 

 

 

 

  

_

) (

)%

1 (

100   p

₁

 p

₂ 의 근사적 신뢰구간은

m

p

₁를

x

대체

n

p

₂를

y

대체

(32)

확률예제



Ex) 국회의원 후보인 C씨의 지역구는 고향인 D읍과 그 인근 지역인 E군으로 되어있다. D읍 주민

200명 중 160명이, E군 주민 180명중 90명이 각각 C씨 지지의사를 표명하였다. 두 지역의

C씨에 대한 지지율의 차이에 대한 95%

신뢰구간을 구하라

(33)

Chapter 9. 추 정

Honggie Kim

확률예제



풀이)

8 . 0 ,

160 ,

200

 

 m

x x

m  180 ,  90 ,  0 . 5

n y y

n

180 5 . 0 5 . 0 200

2 . 0 8 . 96 0

. 1 ) 5 . 0 8 . 0

( 

 







0468 .

0 96 . 1 3 .

0  

 ^

⁰^.³

^

⁰^.⁰⁹²

^ ⁽ ⁰ ^. ²⁰⁸ ^, ⁰ ^. ³⁹² ⁾ E

p

D p



2

1 읍에서의 실제 지지율 군에서의 실제 지지율

n n

y n

y m

m x m

x n z

y m

x ( 1 ) ( 1 )

2

 

 

 

 

  

_

작은 수

양적 모집단에서 모평균의 신뢰구간 ②모집단이 비정규분포, , 이 크면

known

 n

N n

X

 

100 ( 1   )% 

z n

x 











z  n



 



. 

Note    ,  

n

) 1

(   n e

z  

n

z  e 

n

e

z   





 









 e

n





z n

x 



)

2 6 96

.

( 1 



n 

 35

x 

cm 2



unknown

n

6 ,

100

11 1

, 3

12 0

: , 2

6













n n

S n

cm









) (

~ v t n

S

X  

) 7 (

 _n

¹⁰⁰ ⁽ ¹ ^ ^ ^)% ^

Note    ^,  

 ^e

n ^

x ^

^

^unknown

ⁿ

^

^

^known