• 검색 결과가 없습니다.

제 10장 이표본 가설검정 (Two sample tests)

N/A
N/A
Protected

Academic year: 2022

Share "제 10장 이표본 가설검정 (Two sample tests)"

Copied!
48
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

제 10장 이표본 가설검정 (Two sample tests)

10.1 두 모평균의 동일성 검정 – 독립표본의 경우 10.1.1 이표본 𝑍 −검정

10.1.2 엑셀을 이용한 이표본 𝑍 −검정 10.1.3 이표본 t −검정(two sample t-test) 10.1.4 엑셀을 이용한 이표본 𝑡 −검정

10.2 두 모평균의 동일성 검정 – 짝진 표본의 경우

10.2.1 짝지은 𝑡 −검정

10.2.2 엑셀을 이용한 짝지은 𝑡 −검정 10.3 두 모분산의 검정

10.3.1 두 모분산의 동일성검정

10.3.2 엑셀을 이용한 모분산의 동일성검정 10.4 두 모비율의 동일성 검정

(2)

수리정보과학과

10.1 두 모평균의 동일성 검정 – 독립표본의 경우

 두 모집단의 평균을 비교하는 문제들(예)

1. 금년도 대졸 사원의 초임이 남녀별로 차이가 있을까?

2. 주입식 교육과 시청각 교육의 두 가지 교육방법의 효과에는 차이가 있을까?

3. 어떤 두 집단에서 어린아이가 혼자 걷기 시작하는 나이에 차이가 있을까?

기초통계학 - 김대학 2

(3)

10.1 두 모평균의 검정 – 독립표본의 경우

 두 모집단의 평균 𝜇1과 𝜇2에 대한 비교는 모평균의 차 𝜇1 −𝜇2가 0보다 큰가 작 은가에 대하여 가설을 검정함으로써 가능하다.

 각 모집단에서 추출된 표본들이 서로 독립적으로 추출되었을 경우 독립표본(independent sample) – 10. 1 절에서 다룸

 독립이 아닌 경우(짝지은 비교)

대응표본(paired sample) - 10.2 절에서 다룸

 검정방법이 상이함.

 물론 독립표본의 경우에도 분산의 조건에 따라 검정방법이 달라진다.

(4)

수리정보과학과

10.1.1 모평균의 동일성 검정(이표본 𝑍 −검정)

모분산이 알려진 두 정규모집단에 대한 동일성 검정

 평균이 𝜇1, 분산이 𝜎12인 정규모집단으로부터의 크기 𝑛1인 랜덤표본 𝑋1, 𝑋2, ⋯ , 𝑋𝑛1

 이와는 서로 독립인 평균이 𝜇2, 분산이 𝜎22인 정규모집단으로부터의 크기 𝑛2 인 랜덤표본 𝑌1, 𝑌2, ⋯ , 𝑌𝑛2 을 이용하여

 두 모집단 평균의 차이 𝜇1 − 𝜇2 에 대한 가설의 검정.

 𝜇1 − 𝜇2의 추정량 : 𝑋� − 𝑌�

 검정통계량 : 𝑍 = 𝑋�−𝑌� −(𝜇1−𝜇2)

𝜎12𝑛1+𝜎22𝑛2

 두 모평균의 차이

𝛿

에 대한 검정통계량

기초통계학 - 김대학 4

𝑍 = 𝑋� − 𝑌� − 𝛿 𝜎 1 2

𝑛 1 + 𝜎 𝑛 2 2 2

(5)

 두 모평균의 차에 대한 검정방법 - 𝜎12과 σ22을 알 경우

1.

𝐻0: 𝜇1 − 𝜇2 = 𝛿대 𝐻0: 𝜇1 − 𝜇2 ≤ 𝛿일 때, 𝑍 ≤ −𝑧𝛼이면 귀무가설 기각

2.

𝐻0: 𝜇1 − 𝜇2 = 𝛿와 𝐻0: 𝜇1 − 𝜇2 ≥ 𝛿 일 때, 𝑍 ≥ 𝑧𝛼이면 귀무가설 기각

3.

𝐻0: 𝜇1 − 𝜇2 = 𝛿와 𝐻0: 𝜇1 − 𝜇2 ≠ 𝛿 일 때, |𝑍| ≥ 𝑧𝛼/2이면 귀무가설 기각

 위의 경우에 대한 𝑝 −값

1.

𝐻1: 𝜇1 − 𝜇2 ≤ 𝛿의 경우, 𝑝 = 𝑃(𝑍 ≤ −𝑧)

2.

𝐻1: 𝜇1 − 𝜇2 ≥ 𝛿의경우, 𝑝 = 𝑃(𝑍 ≥ 𝑧)

3.

𝐻1: 𝜇1 − 𝜇2 ≠ 𝛿의경우, 𝑝 = 𝑃(|𝑍| ≥ 𝑧)

(6)

수리정보과학과

예제 10.1

 금년에 기업체에 취업한 대졸 사원들의 초임을 남녀별로 조사하였다. 랜덤하 게 추출된 15명의 남자 대졸사원의 월별 초임의 평균은 752,000원, 14명의 여자 대졸사원의 초임 평균은 695,000원이었다. 모집단은 모표준편차가 각각

22,000원과31,000원인 정규분포를 따른다고 할 때 남자와 여자의 초임이 같다 고 말할 수 있을까?

기초통계학 - 김대학 6

(7)

(풀이) 이 문제의 가설은 𝐻0: 𝜇1 = 𝜇2대 𝐻1: 𝜇1 ≠ 𝜇2이다. 따라서 검정통계량은 𝑍 = 𝑋� − 𝑌� − 𝛿

𝜎12

𝑛1 + 𝜎𝑛222

= 752000 − 695000 − 0 220002

15 + 310002/14

= 5.6743

로 되고 유의수준을 5%로 두면 𝑧0.025 = 1.96이므로 𝑍 > 𝑧0.025가 되어 귀무가설 은 기각된다. 즉, 남자와 여자의 초임은 차이가 있다고 결론 내릴 수 있다.

(8)

수리정보과학과

표본의 크기가 큰 경우 모평균의 동일성 검정

 두 집단의 표본의 크기가 모두 큰 경우(보통 30이상)에는 모분산을 모르고 모 집단이 정규분포를 따르지 않더라도 𝑍 −검정을 할 수 있다. 이 때에는 모분산 의 추정치로 표본분산을 사용하여 검정통계량을 계산한다.

 검정통계량 :

𝑍 = 𝑋�−𝑌� −𝛿

𝑆12𝑛1

+

𝑆22𝑛2

(여기서, 𝑆12과 𝑆22은 각각 두 집단의 표본분산)

기초통계학 - 김대학 8

(9)

예제 10.2

 일반적으로 림프구세포와 암세포들의 크기가 다르다고 할 수 있는가? 아래의 자료는 흑색족(melanoma) 환자들의 생체조직으로부터 채취한 40개의 림프구 세포와 50개의 암세포들의 세포직경(𝜇m)에 관한 자료이다. 암세포의 직경이 림프구세포의 직경보다 더 크다고 볼 수 있는가를 유의수준은 5%에서 가설검 정 하여라.

림프구 세

9.0 9.4 4.7 4.8 8.9 4.9 8.4 5.9 6.3 5.7 5.0 3.5 7.8 10.4 8.0 8.0 8.6 7.0 6.8 7.1 5.7 7.6 6.2 7.1 7.4 8.7 4.9 7.4 6.4 7.1 6.3 8.8 8.8 5.2 7.1 5.3 4.7 8.4 6.4 8.3

표본평균 : 6.95

표본표준편차 : 1.60

암세포

12.6 14.6 16.2 23.9 23.3 17.1 20.0 21.0 19.1 19.4 16.7 15.9 15.8 16.0 17.9 13.4 19.1 16.6 18.9 18.7 20.0 17.8 13.9 22.1 13.9 18.3 22.8 13.0 17.9 15.2 17.7 15.1 16.9 16.4 22.8 19.4 19.6 18.4 18.2 20.7 16.3 17.7 18.1 24.3 11.2 19.5 18.6 16.4 16.1 21.5

표본평균 : 17.92

표본표준편차 2.92

(10)

수리정보과학과

(풀이) 림프구세포 집단을 1집단, 암세포 집단을 2집단으로 생각하자. 각 집단의 평 균 𝜇1, 𝜇2에 대하여 이 문제의 가설은 𝐻0: 𝜇1 = 𝜇2 대 𝐻1: 𝜇1 < 𝜇2이다. 따라서 검정 통계량은

𝑍 = 𝑋� − 𝑌� − 𝛿 𝑆12

𝑛1 + 𝑆𝑛222

= 6.95 − 17.92 − 0

1.602/40 +2.972/50 = −22.37

로 되고 유의수준을 5%로 하였을 때 𝑍0.05 = 1.645이므로 𝑍 ≤ 𝑧0.05가 되어 귀무가설은 기각된다. 즉, 림프구세포는 종양세포보다 작다고 말할 수 있다.

기초통계학 - 김대학 10

(11)

10.1.2 엑셀을 이용한 이표본 𝑍 −검정

엑셀의 데이터분석기능을 이용하여 데이터를 분석한다.

데이터 메뉴에서 [데이터분석]을 선택하면 대화상자가 나타나는데 여기서 "𝑍 −검 정 : 평균에 대한 두 집단”을 선택하고 <확인>을 누른다.나타나는 대화상자에서

“변수1 입력범위”를 지정한다. 입력란을 클릭하여 데이터가 있는 주소 A1:A41를 입력하거나 오른쪽의 화살표부분을 눌러 화면을 최소화한 후 워크시트의 A1셀을 클릭하고 A41까지 드래그하여 림프구 데이터를 범위로 입력한다. 마찬가지로

“변수2 입력범위”에도 데이터가 들어있는 범위를 선택한다. 나머지 항목도 클 릭하여 적합한 값 을 넣는다. 입력이 모두 끝나면 <확인>을 누른다. 가설평균차는 검정하고자 하는 모평균의 차이 𝛿값을 쓴다. 변수1의 분산-기지값은 첫 번째 변수 에 대해 알려진 모분산의 값을 입력한다. 마찬가지로 변수2의 분산 기지값

2.972 = 8.82를 입력한다. 이름표란은 입력범위에 변수이름을 포함시켰으면 체크 한다. 데이터 값만 선택했을 때에는 체크하지 않으면 된다. 마지막으로 유의수준 란에는 원하는 유의수준을 입력한다. 기본적으로 유의수준은 0.05로 설정되어 있 다.

(12)

수리정보과학과

엑셀화면

기초통계학 - 김대학 12

(13)

출력결과 해설

1) 두 집단에 대한 표본평균이 계산되어 있고 입력한 분산(기지의 분산)들과 표본수(관측수), 가설 평균 차가 출력된다.

2) 𝑍 통계량의 값이 계산된다.

3) 𝑃(𝑍 ≤ 𝑧) 단측검정은 단측검정의 𝑝 −값을 계산한다. 여기서는 가설이 𝐻0: 𝜇1 = 𝜇2대 𝐻1: 𝜇1 < 𝜇2일 때의 𝑝 −값이다. 결과는 𝑝 −값이 매우 작아서 (𝑝 < 0.05), 5% 유의수준 하에서 귀무가설은 기각된다.

4) 𝑧기각치 단측 검정의 값은 유의수준 5%에서 단측검정에 대한 임계치 𝑧0.05값을 나타낸다. 우리가 알고 있는 바와 같이 1.645(≒1.644853)라는 값이 출력된다. 이 값과 𝑍통계량 값을 비교하여

𝑍 ≤ −𝑧0.05이므로 귀무가설이 기각된다.

5) 𝑃(𝑍 ≤ 𝑧)양측 검정은 양측검정에서의 𝑝 −값을 계산한다. 가설이 𝐻0: 𝜇1− 𝜇2 = 𝛿대 𝐻1: 𝜇1 − 𝜇2 ≠ 𝛿 일 때의 𝑝 −값이다. 이 값 역시 아주 작은 값이므로 양측검정을 실시하더라도 귀무가설이 기각됨을 알 수 있다.

6) 𝑧기각치 양측 검정의 값은 유의수준 5%에서 양측검정에 대한 기각값을 나타낸다. 우리가 알고 있 는 바와 같이 1.96(≒1.959961)이라는 값이 출력된다. 이 값과 𝑍통계량 값을 비교하여 양측검정에서의 귀무가설이 기각된다.

(14)

수리정보과학과

10.1.3 이표본 t −검정(two sample t-test)

 두 모분산이 알려져 있지 않으면서도 표본수도 적은 자료를 접하게 되는 경우 모평균의 차이를 검정하기 위해 두 모집단이 정규분포를 따른다는 가정이 필 요하다.

– 두 모분산이 같은 경우와 두 모분산이 다른 경우로 구분하여 검정

기초통계학 - 김대학 14

(15)

모분산을 모르지만 같은 경우

 표본분산을 합동시켜 두 모집단이 가지는 동일한 분산의 추정량을 사용하는 방법이 적절

 공통분산 혹은 합동분산의 추정량

𝑆 𝑝 2 = 𝑛

1

−1 𝑆 𝑛

12

+ 𝑛

2

−1 𝑆

22

1

+𝑛

2

−2

 검정통계량

𝑇 = 𝑋� − 𝑌� − (𝜇1 − 𝜇2) 𝑆𝑝2( 1𝑛1 + 1𝑛2)

(16)

수리정보과학과

 이표본 𝑇검정

1. 𝐻0: 𝜇1 − 𝜇2 = 𝛿대 𝐻0: 𝜇1 − 𝜇2 ≤ 𝛿일 때, T ≤ −𝑡𝛼,𝑛1+𝑛2−2이면 기각 2. 𝐻0: 𝜇1 − 𝜇2 = 𝛿와 𝐻0: 𝜇1 − 𝜇2 ≥ 𝛿 일 때, T ≥ 𝑡𝛼,𝑛1+𝑛2−2이면 기각

3. 𝐻0: 𝜇1 − 𝜇2 = 𝛿와 𝐻0: 𝜇1 − 𝜇2 ≠ 𝛿 일 때, |𝑇| ≥ 𝑡𝛼/2,𝑛1+𝑛2−2이면 기각

 위의 경우에 대한 𝑝 −값

1.

𝐻1: 𝜇1 − 𝜇2 ≤ 𝛿의 경우, 𝑝 = 𝑃(𝑇 ≤ −𝑡)

2.

𝐻1: 𝜇1 − 𝜇2 ≥ 𝛿의경우, 𝑝 = 𝑃(𝑇 ≥ 𝑡)

3.

𝐻1: 𝜇1 − 𝜇2 ≠ 𝛿의경우, 𝑝 = 𝑃(|𝑇| ≥ 𝑡)

기초통계학 - 김대학 16

(17)

예제 10.3

 어떤 두 지역에서 어린 아이가 혼자 걷기 시작하는 나이에 차이가 있는지를 알 아보기 위하여 다음과 같은 자료를 수집하였다.(단위 : 개월)

 모집단은 정규분포를 따르고 두 모분산이 같다고 가정할 때 어떤 결론을 내릴 수 있는가?

유의수준을 5%로 가설 검정하여라.

A집단 : 9.5, 10.5, 9.0, 9.75, 10.0, 13.0, 10.0, 13.5, 10.0, 9.5, 10.0, 9.75 B집단 : 12.5, 9.5, 13.5, 13.75, 12.0, 13.75, 12.5, 9.5, 12.0, 13.5, 12.0, 12.0

(18)

수리정보과학과

(풀이)이 문제의 가설은 𝐻0: 𝜇1 = 𝜇2 대 𝐻0: 𝜇1 ≠ 𝜇2이다. 따라서 검정통계량은 다음 과 같다.

𝑡 = 𝑋� − 𝑌� − 𝛿 𝑆𝑝2( 1𝑛1 + 1𝑛2)

= | 10.375 − 12.20833 − 0|

2.024621( 112 + 1 12)

= 3.15606

유의수준 5%로 하였을 때 𝑡0.025,22는 2.073837이므로 |𝑡| > 𝑡𝛼

2,𝑛1+𝑛2−2가 되어 귀 무가설은 기각된다. 즉, 두 집단의 어린 아이가 혼자 걷기 시작하는 나이에는 차이 가 있다고 말할 수 있다.

기초통계학 - 김대학 18

(19)

모분산을 모르지만 다른 경우

검정통계량 𝑇 = 𝑋�−𝑌� −(𝜇1−𝜇2)

(𝑆12𝑛1+𝑆22𝑛2)

자유도 : 𝑣 = 𝑆14(𝑆12𝑛1+𝑆22𝑛2)2

𝑛12 𝑛1−1 + 𝑆24

𝑛22 𝑛2−1

𝑇가 근사적으로는 자유도가 𝑣𝑡 −분포를 따른다는 것을 이용하여 검정한다.

𝑣의 값이 정수가 아닐 때에는 이 값에 가장 가까운 정수를 사용하거나 보간법을 사 용하여 자유도를 계산하여 사용하기도 한다.

(20)

수리정보과학과

 이표본 𝑇검정

1.

𝐻0: 𝜇1 − 𝜇2 = 𝛿대 𝐻0: 𝜇1 − 𝜇2 ≤ 𝛿일 때, T ≤ −𝑡𝛼,𝑣 이면 귀무가설 기각

2.

𝐻0: 𝜇1 − 𝜇2 = 𝛿와 𝐻0: 𝜇1 − 𝜇2 ≥ 𝛿 일 때, T ≥ 𝑡𝛼,𝑣이면 귀무가설 기각

3.

𝐻0: 𝜇1 − 𝜇2 = 𝛿와 𝐻0: 𝜇1 − 𝜇2 ≠ 𝛿 일 때, |𝑇| ≥ 𝑡𝛼/2,𝑣이면 귀무가설 기각

 위의 경우에 대한 𝑝 −값

1.

𝐻1: 𝜇1 − 𝜇2 ≤ 𝛿의 경우, 𝑝 = 𝑃(𝑇 ≤ −𝑡)

2.

𝐻1: 𝜇1 − 𝜇2 ≥ 𝛿의경우, 𝑝 = 𝑃(𝑇 ≥ 𝑡)

3.

𝐻1: 𝜇1 − 𝜇2 ≠ 𝛿의경우, 𝑝 = 𝑃(|𝑇| ≥ 𝑡)

기초통계학 - 김대학 20

(21)

예제 10.4

[예제 10.3]에서 두 모분산이 다르다고 가정할 때 어떤 결론을 내릴 수 있는지 유 의수준 5%에서 검정하여라.

(풀이) 이 문제의 가설은 𝐻0: 𝜇1 = 𝜇2 대 𝐻0: 𝜇1 ≠ 𝜇2이다. 모분산이 다르므로 검정 통계량은 다음과 같다.

𝑡 = 𝑋� − 𝑌� − 𝛿 (𝑆𝑛112 + 𝑆𝑛222)

= | 10.375 − 12.20833 − 0|

(1.94886412 + 2.10037912 )

= 3.15606

이때의 자유도 𝑣는 다음과 같이 계산된다.

𝑣 = 𝑆 (𝑆12⁄ +𝑆𝑛1 22⁄ )𝑛2 2

14/{𝑛12 𝑛1−1 }+𝑆24/{𝑛22 𝑛2−1 } = (1.948864 12⁄ +2.100397 12⁄ )2

1.9488642 122 12−1 +2.1003972{122(12−1)} ≈ 22.

(22)

수리정보과학과

따라서 유의수준을 5%로 하였을 때 𝑡0.025,22 = 2.073875 이므로 𝑡 > 𝑡𝛼

2,𝑛1+𝑛2−2가 되어 귀무가설은 기각된다. 즉, 두 집단의 어린 아이가 혼자 걷기 시작하는 나이 에는 차이가 있다고 말할 수 있다.

기초통계학 - 김대학 22

(23)

10.1.4 엑셀을 이용한 이표본 𝑡 −검정

엑셀의 데이터분석기능을 이용하여 [예제 10.5]의 데이터를 분석. 1열에는 𝐴집단의 데이터를, 2열에는 𝐵집단의 데이터를 입력한다. 데이터 메뉴에서[데이터분석]을 선택하면 대화상자가 나타나는데 여기서”𝑡 −검정 : 등분산 가정 두집단”을 선택 하고 <확인>을 누른다.

대화상자에 적합한 값을 넣는다. 변수1 입력범위는 오른쪽화살표부분을 눌러 화면 을 최소화한 후 A1을 클릭하고 A13까지 드래그하여 𝐴집단 데이터를 범위로 입력 한다. 다시 화살표부분을 눌러 대화상자를 돌아온 후에 마찬가지 방식으로 변수2 입력범위에 𝐵집단의 데이터가 들어있는 부분, B1~B13까지를 입력한다. 가설평균 차는 검정하고자 하는 모평균의 차이 값을 쓴다. 이름표란은 입력범위에 변수이름 을 포함시켰으면 이 란을 체크한다. 원하는 유의수준을 입력한 후 확인버튼을 누 른다.

결과가 새로운 워크시트에 나타난다.

(24)

수리정보과학과

엑셀화면

기초통계학 - 김대학 24

(25)

출력결과 해설

1) 두 집단에 대한 표본평균이 계산되어 있고 입력한 분산들과 표본수(관측수), 가설 평균차가 출력된다.

2) 공동(pooled) 분산은 합동분산의 추정치 𝑆𝑝2의 값이다.

3) 가설 평균차는 검정하고자 하는 모평균의 차이를 입력한 것이다.

4) 자유도는 𝑡 −분포의 자유도 𝑛1 + 𝑛2 − 2 = 22가 출력된다.

5) 𝑇통계량의 값이다.

6) 𝑃(𝑇 ≤ 𝑡)단측 검정은 단측검정에서의 𝑝 −값이 계산된다. 𝑝 −값이 0.002291(<

0.05)이므로 5% 유의수준 하에서 귀무가설은 기각된다.

7) 𝑇기각치 단측검정은 유의수준 5%에서 자유도 22인 𝑡 −분포의 단측검정에 대 한 임계치 𝑡0.05,22를 나타낸다. 이 값과 𝑇 통계량 값을 비교했을 때 𝑡 ≤ 𝑡0.05,22 이므로 귀무가설이 기각되어 두 모평균간에 유의한 차이가 있다고 할 수 있다.

(26)

수리정보과학과

출력결과

8) 𝑃(𝑇 ≤ 𝑡)양측 검정은 양측검정에서의 𝑝 −값이 계산된다. 여기서는 𝑝 − 값이 0.004582(< 0.05)이므로 양측검정을 실시한다면 단측검정의 결과와 마찬가지 로 5% 유의수준 하에서 귀무가설이 기각됨을 알 수 있다.

9) 𝑡기각치 양측 검정은 유의수준 5%에서 자유도 26인 𝑡 −분포의양측검정에 대 한 임계치 𝑡0.05,22를 나타낸다. |𝑡| > 𝑡0.025,22이 되어 가설이 기각됨을 확인할 수 있다.

 모분산이 서로 다른 경우에는 대화상자에서“𝑡 −검정 : 이분산 가정 두 집단” 을 선택하여 사용한다.

기초통계학 - 김대학 26

(27)

10.2 두 모평균의 동일성 검정 – 짝지은 표본의 경우

 어떤 실험이나 치료의 효과를 측정할 때 자주 사용하는 방법으로 독립적이 아 닌 표본으로부터 관측치를 얻었을 때 이를 처리하는 방법을 대응비교(paired comparison) 또는 쌍체비교라고 한다.

 이질적 실험단위를 대상으로 두 처리의 효과를 비교할 때, 비교의 효과를 높이 고자 동질적인 실험단위로 쌍을 이루어 두 처리를 적용하여 비교하는 것이 목 적.

(28)

수리정보과학과

10.2.1 짝지은 𝑡 −검정(대응비교, 쌍체비교)

 각 관측치 간의 차이 𝐷1, 𝐷2, ⋯ , 𝐷𝑛이 서로 독립이고 동일한 정규분포를 따른다 는 가정이 필요하다.

 𝐷� = 𝐷1, 𝐷2, ⋯ , 𝐷𝑛의 평균 , 𝑆𝐷 =표준편차

 𝐻0: 𝜇𝐷 = 𝛿0에 대한 검정통계량 :

𝑇 = 𝐷�−𝛿 𝑆

0

𝐷

𝑛

 검정통계량 𝑇의 분포가 자유도 𝑛 − 1인 𝑡 −분포를 따른다.

기초통계학 - 김대학 28

(29)

 𝜎𝐷2을 모르고 𝑛이 작을 경우의 검정

1.

𝐻0: 𝜇𝐷 = 𝛿0대 𝐻0: 𝜇𝐷 ≤ 𝛿0일 때, T ≤ −𝑡𝛼,𝑛−1 이면 귀무가설 기각

2.

𝐻0: 𝜇𝐷 = 𝛿0대 𝐻0: 𝜇𝐷 ≥ 𝛿0일 때, T ≥ 𝑡𝛼,𝑛−1이면 귀무가설 기각

3.

𝐻0: 𝜇𝐷 = 𝛿0대 𝐻0: 𝜇𝐷 ≠ 𝛿0일 때, |𝑇| ≥ 𝑡𝛼

2,𝑛−1이면 귀무가설 기각

 위의 경우에 대한 𝑝 −값

1.

𝐻1: 𝜇1 ≤ 𝛿0의 경우, 𝑝 = 𝑃(𝑇 ≤ −𝑡)

2.

𝐻1: 𝜇1 ≥ 𝛿0의경우, 𝑝 = 𝑃(𝑇 ≥ 𝑡)

3.

𝐻1: 𝜇1 ≠ 𝛿0의경우, 𝑝 = 𝑃(|𝑇| ≥ 𝑡)

(30)

수리정보과학과

예제 10.5

 어느 대기업에서는 직업훈련이 근로자들의 능률향상에 효과가 있는지를 검정 하고자 한다. 이를 위해 이 기업에서는 전체 근로자들 중에서 10명을 랜덤하게 추출하여 이들에게 직업훈련을 실시하기 전과 후의 각 작업능률을 점수로 측 정하였더니 다음 표와 같았다.

 위 결과로 직업훈련을 실시하기 전과 후에 이 기업 전체 근로자들의 평균작업 능률에 차이가 있는지를 유의수준 5%로 검정하라.

기초통계학 - 김대학 30

근로자 1 2 3 4 5 6 7 8 9 10

실시전(𝑋𝑖) 76 60 85 58 91 75 82 64 79 88 실시후(𝑌𝑖) 81 52 87 70 86 77 90 63 85 83

(31)

(풀이) 이 문제의 가설은 𝐻0: 𝜇1 = 𝜇2 =0 대 𝐻1: 𝜇1 = 𝜇2 ≠ 0이다. 따라서 검정통계 량은 𝑇 = |𝐷�−𝛿𝑆 0|

𝐷/ 𝑛 = |−1.6−0|40.7/ 10 ≈ 0.793 이다. 유의수준을 5%로 하였을 때 𝑡0.025,9 = 2.262이므로 |𝑡| < 𝑡𝛼

2,𝑛−1가 되어 귀무가설은 기각될 수 없다. 즉, 직업훈련을 실 시하기 전과 실시한 후에 이 기업 근로자들의 평균작업능률에는 차이가 없다고 말 할 수 있다.

(32)

수리정보과학과

10.2.2 엑셀을 이용한 짝지은 𝑡 −검정

① [도구]메뉴에서 [데이터분석]을 선택하여 분석도구 중에서 “𝑡 −검정 : 쌍체비 교”를 선택하고 <확인>을 누른다.

② 이표본 𝑡 −검정에서와 같이 대화상자에 적합한 값을 넣는다. 입력이 모두 끝 나면 <확인>을 누른다.

③ 결과가 새로운 워크시트에 나타난다.

기초통계학 - 김대학 32

(33)

엑셀화면

(34)

수리정보과학과

10.3 두 모분산의 동일성 검정

 모분산의 비교는 모평균의 비교시에

두 모집단의 분산이 같다는 가정이 타당한지 알아보기 위한 경우와

분산자체의 비교에 목적이 있는 경우도 있다. 검정에 요구되는 가정은 다음과 같다.

1) 𝑋

1

, 𝑋

2

, ⋯ , 𝑋

𝑛1

은 평균 𝜇

1

, 분산 𝜎

12

인 정규분포를 따르는 모집단에서 나온 표본이다.

2) 𝑌

1

, 𝑌

2

, ⋯ , 𝑌

𝑛2

은 평균 𝜇

2

, 분산 𝜎

22

인 정규분포를 따르는 모집단에서 나온 표본이다.

3) 두 표본은 서로 독립이다.

기초통계학 - 김대학 34

(35)

10.3.1 두 모분산의 동일성 검정

 두 모분산의 비 𝜎12/ 𝜎22의 추정을 위하여 표본분산의 비를 생각

 각각의 표본분산을 모분산으로 나눈 비를 통계량으로 두면 통계량의 표본분포 는 𝑆12/𝜎12

𝑆22/𝜎22~𝐹(𝑛1 − 1, 𝑛2 − 1)

 𝑓𝛼(𝑣1, 𝑣2) :자유도가 𝑣1, 𝑣2일 때 𝐹 분포의 상위 𝛼의 확률값을 갖는 기각값

𝐹 = 𝑆 1 2 /𝜎 2 2

𝑆 2 2 /𝜎 1 2

(36)

수리정보과학과

 두 모분산의 비에 대한 검정방법

1. 𝐻0: 𝜎12/𝜎22 =1 대 𝐻1: 𝜎12/𝜎22<1일 때, 𝐹 ≤ 𝐹1−𝛼(𝑛1 − 1, 𝑛2 − 1)이면 기 각

2. 𝐻0: 𝜎12/𝜎22 =1 대 𝐻1: 𝜎12/𝜎22>1일 때,𝐹 ≥ 𝐹𝛼(𝑛1 − 1, 𝑛2 − 1)이면 기각 3. 𝐻0: 𝜎12/𝜎22 =1 대 𝐻1: 𝜎12/𝜎22≠1일 때,𝐹 ≤ 𝐹1−𝛼/2(𝑛1 − 1, 𝑛2 − 1) 또는

𝐹 ≥ 𝐹𝛼/2(𝑛1 − 1, 𝑛2 − 1) 이면 기각

 위의 경우에 대한 𝑝 −값

1. 𝐻1: 𝜎12 < 𝜎22 경우, 𝑝 = 𝑃(𝐹 < 𝑓) 2. 𝐻1: 𝜎12 > 𝜎22의경우, 𝑝 = 𝑃(𝐹 > 𝑓) 3. 𝐻1: 𝜎12 ≠ 𝜎22의경우, 𝑝 = 2𝑃(𝐹 > 𝑓)

기초통계학 - 김대학 36

(37)

 정규분포나 𝑡 −분포는 좌우대칭의 형태를 가지고 있으나 F 분포는 대칭이 아님 을 감안하여야 한다. 따라서 기각역을 설정할 때 상위

𝛼/2, 하위 𝛼/2의 확률을

따로 생각해야 한다는 것에 유의해야 한다.

(38)

수리정보과학과

예제 10.6

 한 대학의 경영학과에서 남학생들이 여학생들보다 주식시장에 대한 지식이 많다는 주장 에 대해 논쟁이 일어났다. 논쟁을 가라앉히기 위해 지도강사는 각 15명의 남녀를 독립적 으로 표본 추출하여 주식시장에 대한 지식 측정검사를 하였다. 결과는 다음과 같다.

두 집단의 주식시장에 대한 지식의 산포가 다르다는 증거가 있는지 유의수준 5%에서 검정하라.

기초통계학 - 김대학 38

남학생 57 78 42 44 91 65 63 60 97 85 92 42 86 81 64

여학생 73 96 74 55 91 50 46 82 43 79 79 50 46 81 83

(39)

(풀이)이 문제에 대한 가설은 𝐻0: 𝜎12 = 𝜎22 대 𝐻0: 𝜎12 ≠ 𝜎22 로 생각할 수 있다. 검 정통계량은

𝐹 = 𝑆12𝜎22

𝑆22𝜎12 = 𝑆12

𝑆22 = 329.41

353.03 = 0.9331

로 된다. 따라서 유의수준을 5%로 하였을 때 𝐹0.025 14,14 = 2.979 이고

𝐹0.975 14,14 = 0.336 이므로 𝐹 > 𝐹0.025(14,14) 와 𝐹 < 𝐹0.975(14,14)가 성립하여 귀무가설은 기각될 수 없다. 즉, 두 집단의 주식시장에 대한 지식의 산포가 다르다 고 말할 수 없다.

(40)

수리정보과학과

10.3.2 엑셀을 이용한 모분산의 검정

① 데이터를 입력한다.

② 데이터메뉴를 선택하고 데이터 메뉴에서 [데이터분석]을 선택하면 대화상자 가 나타나는데 여기서 “𝐹 −검정 : 분산에 대한 두 집단”을 선택하고 <확인>

을 누른다.

③ 대화상자에 적합한 값을 넣는다. 변수1 입력범위는 오른쪽 화살표부분을 눌러 화면을 최소화한 후 A1을 클릭하고 A13까지 드래그하여 𝐴집단 데이터를 범위 로 입력한다. 다시 화살표부분을 눌러 대화상자로 돌아온 후에 마찬가지 방식 으로 변수2 입력범위에 𝐵집단의 데이터가 들어있는 부분, B1~B13까지를 입력 한다. 이름표란은 입력범위에 변수이름을 포함시켰으면 이 란을 체크한다. 원 하는 유의수준을 입력한다. 입력 후 확인버튼을 누른다.

기초통계학 - 김대학 40

(41)

엑셀화면

(42)

수리정보과학과

출력결과 해설

1) 두 그룹의 표본평균과 표본분산, 관측수, 자유도가 차례로 출력된다.

2) [𝐹 −비] : 값 𝑆12/𝑆22이 출력된다.

3) 단측검정의 결과만이 출력된다.

4) 엑셀의 분산비 검정 절차에서는 표본분산비 𝑆12/𝑆22가 1보다 클 때에는 대립 가설이 𝐻1: 𝜎12/𝜎22 > 1인 경우의 단측검정결과를 표본분산비가 1보다 작을 때에는 𝐻1: 𝜎12/𝜎22 < 1에 대한 단측검정 결과만을 제공한다.

5) [𝐹𝑃 𝐹 ≤ 𝑓 단측 검정] : 단측검정시의 𝑝 −값

6) [𝐹 기각치 - 단측 검정] : 자유도 (14,14)에 해당하는 𝐹-분포 의 하위 5% 기각값

기초통계학 - 김대학 42

(43)

10.4 두 모비율의 동일성 검정

관심의 대상인 속성이 두 표본에서 나타나는 도수를 각각 𝑋, 𝑌라고 하면 𝑝1𝑝2 추정량은 각각 𝑝� =1 𝑛𝑋

1, 𝑝� =2 𝑛𝑋

2이며, 𝑋와 𝑌는 각각 이항분포 𝐵 𝑛1, 𝑝1 , 𝐵 𝑛2, 𝑝2 따르며, 서로 독립이다.

두 모비율의 차인 𝑝1 − 𝑝2의 추정량

표본의 크기 𝑛1, 𝑛2가 충분히 큰 경우에 중심극한 정리에 의하여 𝑝�과 𝑝1 �의 분포는 2 각각 근사적으로 정규분포 𝑁 𝑝1,𝑝1 1−𝑝𝑛 1

1 , 𝑁 𝑝2,𝑝2 1−𝑝𝑛 2

2 를 따른다.

𝑝� − 𝑝1 �은 서로 독립이므로 표본크기가 충분히 큰 경우 𝑝2 � − 𝑝1 �의 분포는 근사적으2 로 정규분포 𝑁(𝑝1 − 𝑝2,𝑝1 1−𝑝𝑛 1

1 + 𝑝2 1−𝑝𝑛 2

2 )를 따른다.

표준화 과정을 통하여 𝑝�−𝑝1 � −(𝑝2 1−𝑝2)

𝑝1� 1−𝑝1

𝑛1 +𝑝2� 1−𝑝2𝑛2 ~𝑁(0,1)를 얻는다.

𝑝1� = 𝑝− 𝑝2 � − 𝑝1 � =2 𝑛𝑋

1𝑛𝑌

2

(44)

수리정보과학과

 귀무가설 𝐻0: 𝑝1 = 𝑝2가 사실일 때에는 공통비율인

𝑝

1

= 𝑝

2

= 𝑝를 이용

하여, 검정통계량 𝑝� − 𝑝1 �의 분산 추정 2 (𝑝 = 두 모집단에서의 공통인 모비율)

𝑉𝑉𝑉 𝑝� − 𝑝1 � =2 𝑝1(1 − 𝑝1)

𝑛1 + 𝑝2(1 − 𝑝2)

𝑛2 = 𝑝 1 − 𝑝 1

𝑛1 + 1 𝑛2

 𝑝1 = 𝑝2 = 𝑝인 경우에 𝑝의 추정량 : 𝑝̂ = 𝑛𝑋+𝑌

1+𝑛2로 정의되는 합동표본비율 (pooled sample proportion)을 사용

 𝑉𝑉𝑉� 𝑝� − 𝑝1 � = 𝑝̂(1 − 𝑝̂)(2 𝑛1

1 + 𝑛1

2)

 𝐻0: 𝑝1 = 𝑝2가 사실이면 𝑝�−𝑝1 � −02

𝑝�(1−𝑝�)(𝑛1−1+𝑛2−1) ≈ 𝑁(0,1)

기초통계학 - 김대학 44

(45)

 두 모비율의 가설검정

1. 𝐻0: 𝑝1 = 𝑝2 대 𝐻0: 𝑝1 < 𝑝2일 때, 𝑍 ≤ 𝑧𝛼이면 귀무가설 기각 2. 𝐻0: 𝑝1 = 𝑝2 대 𝐻0: 𝑝1 > 𝑝2일 때, 𝑍 ≥ 𝑧𝛼이면 귀무가설 기각 3. 𝐻0: 𝑝1 = 𝑝2 대 일 때, |𝑍| ≥ 𝑧𝛼 2 이면 귀무가설 기각

 𝑝 −값계산

1. 𝐻1: 𝑝1 < 𝑝2의 경우, 𝑝 = 𝑃 𝑍 ≤ 𝑧𝛼 2. 𝐻1: 𝑝1 > 𝑝2의 경우, 𝑝 = 𝑃 𝑍 ≥ 𝑧𝛼 3. 𝐻1: 𝑝1 ≠ 𝑝2의 경우, 𝑝 = 𝑃 |𝑍| ≥ 𝑧𝛼

(46)

수리정보과학과

예제 10.7

다음의 자료는 한 범죄학 잡지에 실린 것으로써 충동적 살인범과 계획적 살인범의 교화에 차이가 있는지를 알아보기 위한 것이다. 일정기간 복역 후에 가석방된 충동적 살인범과 계 획적 살인범 중에서 각각 42명과 40명을 랜덤추출하여 가석방이 성공적인 경우, 즉 재범이 없는 경우와 실패한 경우의 도수를 관측한 결과가 다음과 같다. 살인범의 유형에 따라 가석 방의 성공률에 차이가 있는지를 유의수준 5%에서 검정하라.

기초통계학 - 김대학 46

성공 실패 표본크기

충동적 살인범 13 29 𝑛1 = 42 계획적 살인범 22 18 𝑛2 = 40 합계 35 47 𝑛 = 82

(47)

(풀이) 충동적 살인범과 계획적 살인범에 대한 가석방의 성공률을 각각 𝑝1, 𝑝2라고 하면, 검정하려는 가설은 𝐻0: 𝑝1 = 𝑝2 대 𝐻1: 𝑝1 ≠ 𝑝2이다. 한편 𝑝1, 𝑝2와 귀무가설 하에서의 공통 모비율 𝑝1 = 𝑝2 = 𝑝의 추정값은 각각 𝑝� = 13 421 ⁄ = 0.310,

𝑝� = 22 402 ⁄ = 0.550로 되어 𝑝̂ = (13 + 22) (42 + 40)⁄ = 0.427을 얻는다.

검정통계량의 값은 𝑍 = 𝑝�(1−𝑝�)(𝑛𝑝�−𝑝1 2

1−1+𝑛2−1) = −2.20 로 되어 유의 수준을 5%로 하 였을 때 𝑍 > 𝑍0.025 = 1.96이 성립하여 귀무가설은 기각된다. 즉, 살인범의 유형에 따라 가석방의 성공률에 차이가 있다고 말할 수 있다.

(48)

수리정보과학과

참고문헌

 현대통계학, 1993, 영지문화사, 김우철 외 7인

 보건통계학, 2006, 정문각, 신해림 외 4인

 엑셀과 함깨하는 정보통계학, 2002, 교우사, 김대학 외 4인

 통계학개론, 2008, 영지문화사, 김용대 외 11인

 통계학의 이해, 2009, 율곡출판사, 이용구 외 1인

 일반통계학, 2008, 영지문화사, 김우철 외 8인

http://www.google.com/이미지

 Microsoft Excel, v. 2010

기초통계학 - 김대학 48

참조

관련 문서

 주어진 유의수준에 따라 귀무가설의 기각 여부를 결정하는

범죄를 저지른 범죄 현장을 분석하고 유형 및 무형의 증거에 대한 설명을 통하여 범죄자의 성격유형을 파악해내며, 다른 범죄들과의. 유사성을 밝힘으로써

• 다양한 버전을 만들어 고객에게 차별적으로 제공해 다양한 욕구를 충족시킴 상품 라인 별 가격결정(Product Line Pricing). • 주요 상품에 덧붙여서 선택상품,

 CPU 내에 데이터가 담겨 있는 메모리 주소를 임시 저장하는 장소.  CPU 내에 데이터가 담겨 있는 메모리 주소를

(The Application Fee Waiver Request Form is available within the online application when you answer “yes” to the question “Are you applying for an application fee waiver?”

최근의 세계적인 곡물가격 상승은 식품가격 상승 을 견인하고 곡물 및 곡물제품을 원재료로 하는 요식업, 가공업, 공업 등 관련부문 에도

비매체적 요인 은 수용자인 관객을 고려하여 원작의 이념을 변화시키게 하는 정치적 요인, 제작비용 때문에 원작의 이야기의 범위를 축소시키게 하는 경제적 요인, 신

③ 한 이동통신회사의 통계자료에 의하면 과거 고객들의 평균 통화시간은 2분 30초였다. 그런데 이 통신회사는 통화요금을 인하하면 고객들의 평균 통화시 간이