7장 가설검정 (Hypothesis Test)

(1)

1 귀무가설과 대립가설 2 오류

3 모평균의 가설검정 4 모비율의 가설검정 5 모분산의 가설검정

6 신뢰구간과 검정의 관계 7 SPSS를 이용한 실습

7장 가설검정 (Hypothesis Test)

(2)

법 정 통계적 가설검정 필요한 강력한 증거 유 죄 추 측

귀무가설(H₀) 무 죄 추측이 거짓 대립가설(H₁) 유 죄 추측이 참

(내가만든 기계가 우수)

기본태도 강력한 유죄의

증거가 있기 전에 는

“무죄”를 지지한 다.

표본데이터가 귀무가설에 반 하는 사실을 강력하게 입증하 지 않으면 그것을

그대로 유지한다.

H₀의 잘못된 기각은, H₁이 참일 때 H₀를 기각하지 못하는 것보다 더 심 각한 오류를 발생시킨다.

판사 와 통계전문가(여러분은 예비판사 ?)

(3)

귀무가설 (H

₀

)과 대립가설(H

₁

)

• 새로운 치료제가 개발되었다면,

• 이 치료제가 기존에 사용하던 치료제보다 그 효능이 좋다 고 말할 수 있는가?

• 고등학생들의 수리능력을 비교 시 남학생이 여학생에 비 해 수리 능력이 뛰어나다고 할 수 있는가?

• 수능 : 남학교, 여학교, 남여공학 의 비교 ?

• 그렇다면 이런 주장들이 과연 옳다고 할 수 있는가?

• 새로운 치료제가 개발되었다면 기존의 치료제보다 효능이

더 좋다는 것을 뒷받침할 근거가 필요하다.

(4)

 가설검정의 목적은 모집단의 확률표본에 근거하여 서로 상반되는 두 가설 중 어느 것이 참인가를 결정하는 것이다.

 상반되는 두 가설을 귀무가설(null hypothesis)과 대립가설 (alternative hypothesis)이라 하며 각각 H₀와 H₁으로 표기한 다.

 일반적으로 가설을 결정하는 지침은 데이터에 근거하여 확증하고 자 하는 주장에 반하는 가설을 귀무가설로 ,

확정하고자 하는 주장을 대립가설로 설정 한다.

귀무가설 ( H ₀ _{)과 대립가설(} H ₁ ₎

예제 7.1) 정부에서는 금년도 실업률이 작년도 실업률 30%에 비해 낮 아졌다고 주장하고 있다. 실제로 이것을 검정하기 위해서는 대립 되는 두 가지 가설을 생각할 수 있다.

금년도 실업률이 30%보다 낮다(p<0.3)

금년도 실업률이 30%보다 낮지 않다.(p≥0.3)

30%보다 낮다를 대립가설(H₁)

(5)

예제 7.2) 새로운 두통약을 개발한 제약회사에서 새로 개발된 두통약 의 평균 치유시간이 기존에 시판되고 있는 다른 두통약의 평균치 유 시간인 20분보다 짧다는 것을 제품광고에 활용하고자 한다면, 우선 이 주장이 맞는지를 검증하여야 한다.

귀무가설에는 (H₀:μ≥20)로 설정하고, 대립가설은 (H₁:μ<20)로 정할 수 있다.

귀무가설과 대립가설

그렇다면 20명 환자들의 평균 치유시간이 얼마정도가 되어야 H₀ 을 기각할 수 있겠는가? 이 경계값을 결정하는데 사용된 통계량 를 검정통계량(test statistic)이라 한다.

또 귀무가설을 기각하게 되는 검정통계량의 범위를 기각역

(critical resion 또는 rejection region)이라 하고 일반적으로 R로 표기한다.

검정통계량의 값이 기각역에 포함되면 귀무가설을 기각하게 된다.

(6)

 먼저 가설을 검정하면서 발생할 수 있는 오류에 대해 소개한다.

오류 (Error)

가설검정에서 발생하는 2가지 오류

제 1종 오류 : H₀가 참일 때 H₀를 기각하는 오류

제 2종 오류 : H₁가 참일 때 H₀를 기각하지 못하는 오류

 모평균 μ에 대한 가설을 검정한다면, 검정할 때 두 오류가 동시 에 발생하지는 않는다.

만약 μ가 귀무가설(H₀)에 속하면 발생할 수 있는 오류는 제 1종 오류이고, μ가 대립가설(H₁)에 속하면 발생할 수 있는 오류는 제 2종 오류이다.

 두 가지 형태의 오류 중에서 더욱 심각한 결과를 초래하게 되는 제 1종 오류를 가설검정에서 더 중요하게 취급하는 것이다.

(7)

(예) 제 1종 오류와 제 2종 오류

실제 현상(미지)

H₀참 ( ) H₀거짓 ( ) 검정

결과

H₀기각되지 않음 옳은 결정 잘못 결정 (제 2종 오류) H₀기각됨 잘못 결정

(제 1종 오류)

옳은 결정

 65

  ^ ⁶⁵

가설검정에서 발생할 수 있는 두 가지 형태의 오류를 모두 작 게 하는 경우가 바람직한데, 제 1종 오류가 작아지면 제 2종 오 류는 커지며, 제 2종 오류가 작아지면 제 1종 오류가 커지는 문 제가 있다. 그래서 두 가지 형태의 오류 중에서 결국에는 더욱

심각한 결과를 초래하게 되는 제 1종 오류를 제한한다.

(8)

 예제 7.2에서 새로 개발한 두통약의 평균 치유시간이 μ≥20 (H₀:μ≥20) 이면 발생할 수 있는 오류는 제 1종 오류이고, μ=20일 때 제 1종 오류가 최대가 된다.

 가설검정을 할 때는 이 경계 값에서 발생하는 제 1종 오류를 범할 확률의 최대값을 생각하면 된다. 이 값을 유의수준(level of

significance)이라 하고 간단히 α로 표시한다.

오류 – 유의수준

 유의수준(level of significance) 이란

검정에서 제 1종 오류가 발생할 확률의 최대값

일반적으로 제 2종 오류를 범할 확률은 β로 표시한다.

 통계적 가설검정에서 필요한 기각역은 유의수준 α에 의해 결정 된다. 즉, 귀무가설이 참이라는 가정 하에 검정통계량이 기각역에 포함될 확률이 α가 되도록 기각역의 경계 값을 결정한다.

(9)

 일반적으로 제 1종 오류를 범하는 것이 제 2종 오류를 범하는 것 보다 더 심각한 결과를 초래하므로 α를 미리 정해진 수준이하가 되도록 조정하는데, 가설검정에서는 α=0.01, 0.05, 0.1과 같은 작은 값을 흔히 사용한다.

오류

 유의수준 α를 이용하여 기각역이 결정되면, 검정을 할 수 있다.

검정통계량이 주어진 유의수준에서 기각역에 포함되면 유의수준 α에서 귀무가설 H₀를 기각한다.

기각역에 포함되지 않으면

유의수준 α에서 귀무가설 H₀를 기각하지 못한다.

(10)

 가설의 검정 결과를 유의확률(significance probability)(또는 p-값(p-value)이라고도 한다)로 나타내기도 한다.

P-값은 대립가설 H₁에 대한 증거의 강도를 수치로 나타낸 측도.

이며, 표본 관측값을 근거로 귀무가설 H₀를 기각하게 되는 최소의 α값이다.

유의확률이 유의수준 α보다 작거나 같은 경우에 H₀을 기각한다.

P-값이 작으면 작을수록 대립가설의 강력한 증거가 된다.

오류 - 유의확률

 유의확률 또는 p-값

표본 관측값을 근거로 귀무가설 H₀를 기각하게 되는 최소의 α값이다.

(11)

 모평균 μ에 관한 가설을 검정

7.4 모평균의 가설검정 (대표본)

0 1

0

:    , H :   

가설 :

H

여기서 μ₀는 알고 있는 상수이다.

기각역 :

R : X  c

이 경계값을 결정하기 위해 제 1종 오류를 범할 확률의 최대값인 유의확률을 이용할 것이다. 즉 μ=μ₀일 때,





 ] [ X c P

를 만족하는 c를 구하면 된다.

이 값을 구하기 위해서는 X의 분포가 필요하기 때문에 표본크기 와 모분산을 알고 있는 경우와 모르는 경우로 나누어 모평균에 관 한 검정을 소개하고자 한다.

(12)

 표본크기 n이 큰 대표본인 경우는 모집단의 분포에 관계없이 표 본평균 의 분포는 평균이 μ이고 표준편차가 인 정규분 포를 근사적으로 따른다는 중심극한 정리를 이용할 수 있다.

7.4 모평균의 가설검정

) 1 , 0 / N(

n Z X  

 

 가설 :

0 1

0

:    , H :    H

이런 형태의 가설을 흔히 단측가설(one-sided hypothesis)이 라 한다. 이 가설의 기각역은 μ=μ₀일 때





 ] [ X c P

를 만족하는 c를 구하면 된다.



 



 



 



 



  

 





 n

Z c n

c n

P X c

X

P | /

/ ] /

|

[ ₀ ⁰ ⁰ ₀ ⁰



 

 





 





를 만족하는 c 는 _ 또는



 z n c 

/

0

z n c  ₀  _ 

X  / n

(13)

 대표본인 경우 모분산을 알 때

7.4 모평균의 가설검정

0 1

0

:    , H :   

가설 :

H

기각역 : _



 z n Z X

R  

 /

: ₀ ⁰

 대표본인 경우 모분산을 모를 때

기각역 : 

 z n S

Z X

R   

: ₀ / ⁰

모표준편차 σ를 추정량 S로 추정하여도 표본평균의 정규근사는 타당하다. 즉,

) 1 , 0 / (

0 z N

n S

X   





이 성립하므로 σ를 모르는 경유의 검정통계량은

n S

Z X

/

0 0



 

이러한 검정은 표준정규분포를 이용한 검정이므로 정규검정 (normal test) 또는 Z-검정(Z-test)이라 한다.

(14)

 이 가설검정에서 유의확률인 p-값에 대해 살펴보자.

그러므로 상단 단측가설

의 p-값은 다음과 같다.

7.4 모평균의 가설검정

0 1

0

:  ^  , ^H :  ^ 

H

] [

]

[ X x P Z z

₀

P

p  값    

여기서

x

는 표본평균

X

의 관측값이고 z₀는 Z₀의 관측값이다.

유의확률 또는 p-값

표본 관측값을 근거로 귀무가설 H₀를 기각하게 되는 최소의 α 값이다.

(15)

복습 - 가설검정

• 1. 가설설정

• 2. 오차 – 제1종 오류( ) -유의수준

• - 제2종 오류 (β)

• 3. 유의확률 ( p-값)- 표본 관측값을 근거로 귀무 가설 H

₀

를 기각하게 되는 최소의 α값이다.

• 유의확률이 유의수준 α보다 작거나 같은 경우에 H₀을 기각한다.

• 4. 가설검정(Hypothesis Test)

(16)

7.4 모평균의 가설검정 (p183)

 대표본에서 모평균 μ의 가설검정

표본의 크기가 클 때, 모평균 μ에 관한 가설의 검정통계량과 검정규칙은 다음과 같다.

2) 검정통계량 :

유의수준 α에서의 기각역과 p-값은 대립가설에 따라 다음과 같다.

n S

Z X

/

0 0



 

1) 대립가설 3) 기각역 3) P-값

0 1:   H

0 1:   H

0 1:   H

z

Z R: ₀ 

z

Z

R: ₀ 

2 / 0 | :| Z z_

R 

] [Z z₀ P 

] [Z z₀ P _

]

|

| [

2P Z  z₀

(17)

예제 7.3] 예제 7.2에서 새로운 두통약의 치료효과를 파악하기 위해 좀 더 많은 두통환자들을 대상으로 다시 조사하였다. 이번에는 두 통환자 100명을 대상으로 치유시간을 측정한 결과 평균시간

17.89분이었으며 표준편차는 4.425분이었다.

(a) 새로운 두통약의 평균 치유시간이 여전히 20분 미만이라고 할 수 있는가?

유의수준 0.05에서 검정하라.

(b) 실제로 μ=19일 때, 제 2종 오류를 범할 확률을 구하라. (생략)

모평균의 가설검정

풀이 )

(a) 1) 가설 :

2) 검정통계량 :

3) 유의수준 0.05에서의 기각역 :

20 :

, 20

:

₁

0

  H  

H

425 . 4 ,

89 .

17 

 s

768 x

. 100 4

/ 425 . 4

20 89 . 17

0    

Z

645 . 1 768

.

0  4  

Z

검정통계량이 기각역에 포함되므로 새로운 두통약의 평균 치유시 간이 20분 미만이라고 할 수 있다.

(18)

이 경우 p-값은

p-값=P[Z≤-4.768] =0.000

이므로 새로운 두통약의 평균 치유시간은 확실히 기존에 판매되 고 있는 두통약의 평균 치유시간인 20분보다 매우 짧다고 할 수 있다.

모평균의 가설검정

(b) μ=19이면 대립가설이 참이므로, 귀무가설을 기각하지 못하면 제 2종 오류를 범하게 된다.

그러므로 제 2종의 오류확률은 약 30.85%이다.

 

3085 .

0

50 . 0

645 . 100 1 /

671 . 4

19 20

19

| 645 . / 1

19 /

19 19

| 645 . / 1

0 0









  







 



     

 



 



    

Z P

n S

P X n

S

P X    

(19)

예제 7.4) 어느 회사에서 새로 개발한 제품은 다른 회사 제품에 비해 수명이 길다고 주장하고 있다. 이 주장을 검정하기 위해 그 회사 에서 새로 개발한 제품 81를 추출하여 조사하였다. 다른 회사 제 품의 평균수명은 500시간이라 하자.

(a) α=0.05로 기각역을 결정하라.

(b) 만일 표본 결과가 이고 s=30 이었다면, 어떤 결론을 내릴 수 있겠는가?

(c) 새로 개발한 제품의 평균수명이 505시간이라면, 제 2종 오류를 범할 확률은 얼마인가? (생략)

모평균의 가설검정

풀이) (a) 검정하고자 하는 가설

대립가설이 큰쪽을 나타내는 상단 단측가설 z_0.05=1.645

기각역 ₁_.₆₄₅

: ₀  / ⁰  z₀_.₀₅  n

S Z X

R 

500 :

, 500

: ₁

0



 H





H

 505 x

(20)

(b) 검정통계량의 관측값

모평균의 가설검정

4 . 81 2

/ 30

500 508

/

0

0     

n s z x 

기각역에 포함된다. 그러므로 유의수준 0.05에서 귀무가설을 기 각한다.

만일 p-값을 계산

P-값=P[Z≥2.4]=0.0082

따라서 0.0082 이상인 유의수준에 대해서는 귀무가설이 기 각됨을 알 수 있다.

(c) (생략)대립가설이 참이므로 범할 수 있는 오류는 제 2종 오류이다.

제 2종의 오류를 범할 확률은 약 55.76% 이다.

5576 .

0 ] 145 . 0 [

645 . 81 1

/ 30

505 500

505

| 645 . / 1

505 /

505 505

| 645 . / 1

0 0





 

 

  







 



     

 



 



   

Z P Z

P

n S

P X n

S

P X    

(21)

(22)

예제 7.5) 제 6장 예제 6.4의 체더치즈 데이터에 근거하여 완숙한 체 더치즈에 함유된 젖산의 평균농도가 1.5와 다르다고 할 수 있는 지 α=0.05로 검정해 보자.

모평균의 가설검정

풀이) 가설 :

이고 n=30이다. 모표준편차 σ를 모르지만 표본크기 30은 큰 값 으로 생각 할 수 있으므로 정규검정을 이용할 수 있다.

5 . 1 :

, 5 . 1

: ₁

0   H  

H

검정통계량 : ₁_.₀₄₈

30 /

303 . 0

5 . 1 442 . 1 /

0

0   

 



n s

Z x 

z0.025=1.96이므로 기각역은

96 . 1

|

:| Z

₀

 z

₀_.₀₂₅

 R

검정통계량이 기각역에 포함되지 않는다. 그러므로 유의수준 0.05에서 귀무가설을 기각할 수 없다.

p-값

p-값=2P[Z≥1.048]=0.1475x2

(23)

7장 가설검정 (Hypothesis Test)

1 귀무가설과 대립가설 2 오류

3 모평균의 가설검정 4 모비율의 가설검정 5 모분산의 가설검정

6 신뢰구간과 검정의 관계 7 SPSS를 이용한 실습

7장 가설검정 (Hypothesis Test)

(내가만든 기계가 우수)

판사 와 통계전문가(여러분은 예비판사 ?)

귀무가설 (H

)과 대립가설(H

)

• 새로운 치료제가 개발되었다면,

• 이 치료제가 기존에 사용하던 치료제보다 그 효능이 좋다 고 말할 수 있는가?

• 고등학생들의 수리능력을 비교 시 남학생이 여학생에 비 해 수리 능력이 뛰어나다고 할 수 있는가?

• 수능 : 남학교, 여학교, 남여공학 의 비교 ?

• 그렇다면 이런 주장들이 과연 옳다고 할 수 있는가?

• 새로운 치료제가 개발되었다면 기존의 치료제보다 효능이

더 좋다는 것을 뒷받침할 근거가 필요하다.

귀무가설 ( H 0 )과 대립가설( H 1 )

귀무가설과 대립가설

오류 (Error)

(예) 제 1종 오류와 제 2종 오류

 65

   65

심각한 결과를 초래하게 되는 제 1종 오류를 제한한다.

오류 – 유의수준

오류

오류 - 유의확률

7.4 모평균의 가설검정 (대표본)

:    , H :   

H

R : X  c





 ] [ X c P

7.4 모평균의 가설검정

:    , H :    H





 ] [ X c P

7.4 모평균의 가설검정

:    , H :   

H

7.4 모평균의 가설검정

:    , H :   

H

] [

]

[ X x P Z z

P

p  값    

x

X

복습 - 가설검정

• 1. 가설설정

• 2. 오차 – 제1종 오류( ) -유의수준

• - 제2종 오류 (β)

• 3. 유의확률 ( p-값)- 표본 관측값을 근거로 귀무 가설 H

를 기각하게 되는 최소의 α값이다.

• 4. 가설검정(Hypothesis Test)

7.4 모평균의 가설검정 (p183)

모평균의 가설검정

20 :

, 20

:

  H  

H

모평균의 가설검정

 

모평균의 가설검정





모평균의 가설검정

모평균의 가설검정

96 . 1

|

:| Z

 z

 R

• Quiz 2

범위 6장 중간고사 이후 ~7장

귀무가설 ( H ₀ _{)과 대립가설(} H ₁ ₎

  ^ ⁶⁵

:  ^  , ^H :  ^ 