강의 6

(1)

강의 6 – 추리통계 가설검정(Z분포 검정) 7. 추리통계 가설검정 (계속)

2) Z 분포에 의한 검정 - Z 분포는 표준정규분포 (standard normal distribution)

∙ Z 검정은 Z 분포에 의하여 가설을 검정하는 통계적 방법: 검사목적에 따 라 단일표본 Z검정, 두 독립표본 Z검정, 두 종속표본 Z검정.

∙ Z 검정을 위한 선결조건(assumption):

1) 종속변수가 양적변수.

2) 모집단의 분산을 알아야 함.

3) 정규분포 가정(normality assumption)을 충족 - 모집단의 분포가 정 규분포.

4) 등분산 가정(equal variance assumption)을 충족함. 두 모집단을 비 교할 경우 각기 두 모집단의 분산이 일치.

- 만약 모집단의 분포가 정규분포를 유지하지 못한다며, 집단간 비교시 모 집단간의 분산이 같지 않을 경우 비모수 통계(nonparametric statistics)를 사용 (교재 그림 15-1 참조).

(2)

▷ 단일표본 Z검정 (one-sample Z test) - 하나의 모집단 속성을 살피기 위하여 추출된 표본의 통계값의 평균과 연구자가 이론적 혹은 경험적 배경 에서 얻은 특정 값과의 비교를 위한 통계적 방법.

예제) 전국고교 3학년생의 모의고사 학업적성의 평균점수(μ)가 300점이며 표준편차(σ)는 20점임을 알고 있다. 경기도 안산시의 고교 3학년생의 모의 고사 학업적성이 전국고교 3학년생과 동일하지를 검정하기 위해 안산시의 고등학교에서 100명의 3학년생을 무선추출하여 적성검사를 실시한 결과 평 균이 306점으로 나타났을 때 유의수준 0.05에서 안산시의 전체 고교 3학년 생의 학업적성능력이 300점인지를 검정하시요.

가설:

H

0 : 안산시 고교 3학년생의 학업적성 점수는 평균 300점이다.(μ=300)

H

A : 안산시 고교 3학년생의 학업적성 점수는 평균 300점이 아니다.

(μ≠300)

영가설하에서 표집분포의 평균은 300점이 되고 표준오차(σ) 중심극한정리 에 따라

  



^

_

 



^

  

무선추출된 안산시 고 3학생의 평균점수 306이 유의수준 0.05에서 기각역 또는 채택역중 어디에 속하는지 살펴보면, 교재 그림 15-2에 나타낸 것처 럼 기각역에 해당한다.

Ⓐ Z 통계값에 의한 검정

(3)



_{ }







 

 





^

_





 

 

  

 

유의수준 0.05에서 p=1-0.05=0.95 이므로,

Z 통계값이 -1.96< Z < +1.96에 포함될 경우만 채택값이 될 수 있다. 그 러므로 3은 + 1.96보다 크므로 위 영가설은 기각된다 (교재 그림 15-3 참 조).

Ⓑ 신뢰구간에 의한 검정

유의수준 0.05에서 영가설을 기각하지 않는 구역은





   ≤  ≤ 



  단일표본 Z검정 절차

1. 가설 (H0, HA)을 세우고 유의수준(⍺)와 표본수(n)를 설정 2. 표본 평균(



_{)을 계산}

3. ^_ 



^

_

계산

4. Z 통계값 계산



_{ }







 

5. 유의수준을 고려하여 Z 통계값이 Z분포표에서 기각 또는 채 택 여부 결정

(4)

95% 신뢰구간 (confidential interval) 또는 신뢰한계 (confidential limit)라 한다.

정규분포 하에서 99% (α=0.01) 신뢰구간은





   ≤  ≤ 



 

양방적 검정 (two-tailed test)에서는 신뢰구간 추정은 두 값 사이가 되나 일방적 검정 (one-tailed test)에서는 가설에 따라 다르다.

일방적 검정을 위한 가설

H

0 : 안산시 고교 3학년생의 학업적성 점수는 평균 300점이거나 낮다.(μ

≤300)

H

A : 안산시 고교 3학년생의 학업적성 점수는 평균 300점 이상 이다.

(μ>300)

유의수준 0.05에서 채택역은 



≤    (표본으로부터 얻은 통계치 가 303.29 이하 이면 영가설을 채택)

 ≥ 



  (일방적 검정에서 표준분포에서 확률 95% 구간은 1.645σ)

* Z검정에서 유의수준에 따른 양방적 혹은 일방적 검정의 기각값

⍺

검정방법 0.10 0.05 0.01

양방적 검정

(two-tailed test) ± 1.645 ± 1.96 ± 2.58

일방적 검정

(one-tailed test) +1.28 혹은 -1.28 +1.645 혹은 -1.645 +2.33 혹은 -2.33

(5)

▷ 두 독립표본 Z 검정 (two-independant samples Z test) - 알지 못하 는 두 모집단의 속성, 즉 평균을 비교하기 위하여 각기 모집단을 대표하도록 추출된 상호 독립적인 두 표본을 가지고 두 모집단의 유사성을 검정하는 통 계적 방법. 특히 두 모집단의 분산이 이론적 배경이나 경험적 배경으로 인지 하고 있을 경우에 적용.

예제) 전국 30세 성인 남녀의 체중비교를 위해 100명을 전국에서 성인남녀 무작위 추출하여 체중을 측정한 결과 남자는 평균 68kg, 여자는 평균 60kg 이었다. 연구자는 이론적 배경에 의하여 모집단의 체중 표준편차를 남자는 10kg, 여자는 9kg임을 알고 있다. 이표본의 자료를 이용하여 30세 성인남 녀의 체중에 차이가 있는지의 여부를 유의수준 0.05에서 검정.

가설:

H

0 : 30세 성인 남녀체중의 차이가 없다. (μ1=μ2)

H

A : 30세 성인 남녀체중의 차이가 있다. (μ1≠μ2)

또는

H

0 : μ1-μ2 = 0

H

A : μ1-μ2 ≠ 0 두 독립집단 비교를 위한 표준오차는

__

 _



^^^

_^

 _

_^





^^

  

  

Z 통계값 = __

 _





_ 



_

 

  

 

유의수준 0.05에서 Z분포의 기각값 1.96 보다 Z 통계값(5.948)이 크므로 영가설은 기각한다.

(6)

▷ 두 종속표본 Z검정 (two-dependant samples Z test) 두 독립표본 Z 검정과 유사한 통계 방법임. 단, 추출된 두 표본이 독립적이지 않을 때 사용.

두 모집단의 분산이 이론적 배경이나 경험적 배경으로 인지하고 있을 경우 에 적용. 위의 예제에서 남녀 체중비교를 위해 100쌍의 부부를 추출하여 남 녀의 체중을 측정할 경우 이표본은 상호독립적이 아님. 이럴 때 쓰는 검정방 법이 두 종속표본 Z 검정. 표준오차 계산만 독립표본의 Z 검정시 사용하는 계산식과 다름.

__

 _ 



^^^^^^^ ^{ }^^^^^ ^{  }



^^

_

· 



^^

_

(ρ는 두 종속집단간의 상관계수 - 두 표본의 상관계수 r로도 대치) 두 독립표본 Z검정 절차

1. 가설 (H0, HA)을 세우고 유의수준(⍺)와 두 모집단의 표본수 (n1, n2)를 설정

2. 두 표본의 평균(



_^{ }



__{)을 계산} 3. 두 표본의 표준오차 __

 _



^^^

_^

 _

_^

를 계산



_{ }

__

 _





_ 



_

5. 유의수준을 고려하여 Z 통계값이 Z분포상에서 기각 또는 채 택 여부 결정하고 결론을 내림.

(7)

* Z검정은 집단비교를 위한 추리통계의 기본이 되는 검정 방법임에도 불구 하고 모집단 분산이나 표준편차를 이론적 또는 경험적으로 미리 파악하고 있어야 하기에 실제 연구에서는 거의 사용되지 않는다. 하지만 추리통계의 검정에 많이 적용되는 t 검정 (Z 검정의 변형된 검정)이나 F 검정(t 검정의 연속)의 나은 이해를 위해 Z 검정의 기본 개념과 절차를 이해하는 것은 매 우 중요하다.

두 종속표본 Z검정 절차

2. 두 표본으로부터 



_ 



_ 와 ρ 또는 r 을 구함.

3. 두 표본의 표준오차

__

 _ 



^^^

_^

 _

_^

  



^^

_

· 



^^

_

를 계산



_{ }

__

 _





_^{ }



_

5. 유의수준을 고려하여 Z 통계값이 Z분포상에서 기각 또는 채 택 여부 결정하고 결론을 내림.

(8)

▷ 상관계수 검정

예제) 교재 p288-290

예제) 교재 p 291-293

단일 표본 상관계수 검정 절차

1. 가설 (H0, HA)을 세우고 유의수준(⍺)와 모집단의 표본수(n)를 설정

2. 상관계수( r )을 계산.

3. Zr과 Z^ρ를 [ Fisher Z 수표]에서 찾음.

4. 표준오차를 계산

5. Z 통계치를 계산



_{ }





^  





_^



_

6. 양방적, 일방적 검정과 유의수준에 따라 Z 분포에서 기각 또 는 채택 여부 결정하고 결론을 내림.

두 독립표본 상관계수 비교 검정 절차

2. r1과 r2에 해당하는 Zr1과 Zr2를 [ Fisher Z 수표] 에서 찾음.

3. 표준오차 _

 _

 



^^^ 

  _ 

 를 계산



_{ }



^^^ 

  _ 





_





_



5. 양방적, 일방적 검정과 유의수준을 고려하여 Z 통계값이 Z분 포에서 기각 또는 채택 여부 결정하고 결론을 내림.

(9)

(10)

▷ 통계적 유의성(statistical significance)과 실제적 유의성(practical significance)

-통계적 유의성이 있다고 꼭 실제적으로도 그 검정 통계값이 의미가 있다고 는 할 수 없다.

예) 지능과 발의 크기 상관관계에서 상관계수가 0.1이며 통계적 유의성이 있다고 하더라도 이는 실제로 의미가 없는 매우 낮은 상관계수로서 실제적 유의성은 존재하지 않는다고 할 수 있다.

* 실제적 유의성에는 변화가 없지만 표본수(n=1000 vs n=50; 교재 1 p.295-297 참조)에 따라 통계적 유의성이 달라짐을 숙고하여 영가설의 검 정여부에만 관심을 두지 말고 통계적 결과가 무엇을 의미하는지 심사숙고하 는 것이 더욱더 필요하다.

▷ 비율검정 - 비율에 대한 통계적 유의도 검정 (Z분포 이용)

단일표본 비율검정 절차

예제) 작년 중학교 무시험 진학에 대한 교사들의 찬성비율이 0.5이었다. 올 해 중학교 무시험 진학에 대한 찬성비율이 작년처럼 0.5인지를 유의수준 0.01에서 알아 보고자 서울시 중학교에 근무하는 교사 300명을 무선 추출하 여 조사한 결과 90명의 교사가 중학교 무시험 진학에 찬성하였다. 작년의 찬성비율과 올해의 찬성비율이 같은지 검정.

통계적 가설:

H

0 :

P

= 0.5

H

A :

P

≠ 0.5

이항분포의 평균 빈도수는

np ,

빈도수의 분산은

npq

였다. 이를 확률에 의 한 표본 비율의 평균과 분산으로 계산하면

_   _  

 

  

__^  

^

  

__

 



 



__ _{ }



^^ ^

 _

 



^

  

  

(11)

유의수준 0.01에서 양방적 검정이므로 기각값은 ±2.58으로 Z통계값 -6.928은 기각값인 -2.58보다 작으므로 영가설을 기각한다. 그러므로‘유 의수준 0.01에서 올해 중학교 교사들은 무시험 진학에 찬성하는 비율이 0.5 가 아니다’라고 결론내릴 수 있다.

두 독립표본 비율검정 - 두 독립적으로 추출된 두 독립표본들 간의 측정비 율의 차이를 검정

통계적 가설:

H

0 :

P

1 =

P

2

H

A :

P

1 ≠

P

2

또는

H

0 :

P

1 -

P

2 = 0

H

A :

P

1 -

P

2 ≠ 0





_ 



_ _ 라 할 때 영가설(

H

0)하에서 두 집단 비율 차의 기댓값과 분산 은 다음과 같다.



 _  _ _  _ _ 

H

0 :

P

1 =

P

2 이므로

P

1 ,

P

2 를

p

0로 치환 하면

단일 표본 비율검정 절차

1. 가설 (H0, HA)을 세우고 유의수준(⍺)와 모집단의 표본수(n)를 설정

2. 표본 비율 (  )을 계산.

3. 표준오차 



^^

__ 계산



__ _{ }

__

  _

 



^^

__

 _

5. 유의수준에 따라 Z 분포에서 기각 또는 채택 여부 결정하고 결론을 내림.

(12)



 _  _

__

 _

__

 _

__

 _

__



_{ }



^

^

^{ }

_



_

 



^^^

__

 _

__

_ _  

H

0 에서

p

0 값을 추정. 첫 번째 표본값과 두 번째 표본 값의 평균 비율 사 용

  _ _

__ __

그러므로

p

0 는  로, q0는      로 대치된다.

그러면 두 독립표본의 비율검정 공식은



_{ }



^^^{}^

  _

 

_ _

예제) 부부가 결혼하여 모든 재산을 부부 공동명의로 소유해야 한다는 주장 에 대하여 남녀간의 찬성비율차가 있는지 알아보고자 결혼한 30대 성인 남 자 250, 여자 200명을 추출하여 의견을 물은 결과 여성은 140명, 남성은 75명이 찬성하였다. 유의수준 0.05에서 표본의 결과를 검정.

여성들이 이런 주장을 더 많이 지지한다는 이론적, 경험적 배경에 따라 가 설을 설정하였다.

가설:

H

0 :

P

1 (여성)≤

P

2 (남성)

H

A :

P

1 >

P

2

  _ _

__ __

 

  

 



_{ }



^^^{}^

  _

 

_ _

 



^

  

 

  

 

(13)

유의수준 0.05에서 일방적 검정의 Z 분포 기각역은 +1.645이므로 Z 통계 값(8.441)이 커서 영가설을 기각한다.

그러므로‘부부의 공동명의에 의한 재산소유에 대한 찬성비율이 유의수준 0.05에서 여성들이 남성보다 높다’고 결론 내릴 수 있다.

단일 표본 비율검정 절차

2. 두집단의 표본 비율 ( _  _ )을 계산.

3.   _ _

__ __

를 계산

4. 표준오차 __

_



^^^{}^

  _

  계산



_{ }



^^^{}^

  _

 

_ _

5. 유의수준에 따라 Z 분포에서 기각 또는 채택 여부 결정하고 결론을 내림.