• 검색 결과가 없습니다.

제 9장 가설검정(Hypothesis testing)

N/A
N/A
Protected

Academic year: 2022

Share "제 9장 가설검정(Hypothesis testing)"

Copied!
32
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

제 9장 가설검정(Hypothesis testing)

9.1 가설검정의 원리 9.2 가설검정의 오류

9.3 𝑝 −값과 가설검정의 절차 9.4 모평균과 모비율의 검정 9.4.1 모평균(𝜇)의 검정 9.4.2 모비율(𝑝)의 검정

9.4.3 엑셀을 이용한 𝑝 −값 계산

(2)

9.1 가설검정의 원리

 가설검정이란, 모집단의 모수나 모분포에 대하여 어떤 가설을 설정하고, 적절 한 통계량을 이용하여 그 가설을 기각할 것인지 또는 채택할 것인지를 판단하 는 과정

가설검정

의사결정에 있어서 매우 중요한 역할

* 가설이란 모수나 모집단의 분포에 대해 서술된 통계적 가설 (statistical hypothesis)을 의미한다.

(3)

가설검정과 관련된 경영·경제 분야의 예

① 인터넷 접속 후 데이터 전송 속도가 고속화되고 있다. 특히 무선 라우터(router) 의 경우 자유롭게 인터넷에 접속하려는 사용자의 수요 증가로 인해 더욱 고속 화되고 있다. 따라서 한 무선 라우터 생산회사에서는 기존 라우터에 비해 데 이터 전송 속도가 훨씬 빨라진 초고속 라우터를 개발하였으며 불량률이 2%를 넘지 않는다고 한다. 이 라우터를 판매하려는 도매업자는 불량률이 2%를 넘 지 않는다는 회사 측의 주장이 과연 타당한지 판정하기를 원할 것이다

.

(4)

가설검정과 관련된 환경관련 분야의 예

② 한 환경전문가는 도시 거주민들의 평균 생활폐기물량이 지방 거주민들의 평 균 생활폐기물량보다 더 많아서 1일 1인당 평균 생활폐기물은 1kg이라고 예상 한다. 그래서 정부의 환경부서는 도시 거주민들의 1인 1인당 평균 생활폐기물 량이 1kg라는 예상을 확인하고 싶어한다.

(5)

가설검정과 관련된 통신분야의 예

③ 한 이동통신회사의 통계자료에 의하면 과거 고객들의 평균 통화시간은 2분 30초였다. 그런데 이 통신회사는 통화요금을 인하하면 고객들의 평균 통화시 간이 길어져서 오히려 이윤을 증가시킬 것으로 예측한다. 따라서 이 통신회사 는 통화요금의 인하로 평균 통화시간이 2분 30초보다 길어진다는 가설에 관 심을 가지고 있다.

(6)

9.1 가설검정의 원리

확정하고자 하는 주장에 반대되는 가설

확정하고자 하는 주장

귀무가설 = 𝐻0

대립가설 = 𝐻1

(7)

 대립가설 (𝐻1 로 표기) : 연구자가 주장하고 싶은 확인되지 않은 가설로 부등호 를 이용하여 표현

 귀무가설 (𝐻0 로 표기) : 연구자의 주장에 상반되는 가설로서 연구자의 주장이 인증되기 전까지 참(true)으로 받아들여지는 가설

 단측대립가설 : 대립가설에 나타나는 영역이 한쪽인 가설

 양측대립가설 : 대립가설에 나타나는 영역이 양쪽인 가설

(8)

 표본을 통하여 주어진 가설을 옳지 않다고 판단할 때 그 가설을 기각(reject)한 다고 하며, 그 가설이 옳다고 판단할 때 그 가설을 채택(accept)한다고 한다.

 통계적 가설검정의 결과는 항상 귀무가설을 중심으로 표현하며 또 기각할 수 있는지, 없는지와 같이 기각을 중심으로 표현한다.

 대립가설이나 채택을 이용한 표현은 되도록 하지 않는다.

 귀무가설은 되도록이면 가장 간단한 형태로 나타난다.

(9)

 대립가설의 형태

– 양측검정(two-sided test)과 단측검정(one-sided test)의 두 가지 형태

 양측검정 : 양측대립가설에 대한

 단측검정(one-sided test) : 단측대립가설에 대한 검정 * 대립가설은 항상 부등호를 이용하여 표현됨.

* 가설검정에서 대립가설의 부등호 방향이 가설검정의 열쇠임.

(10)

 가설검정의 유형

1. 양측검정 𝐻0 ∶ 𝜃 = 𝜃0 대 𝐻1 ∶ 𝜃 ≠ 𝜃0

2. 단측검정 𝐻0 ∶ 𝜃 = 𝜃0(또는 𝜃 ≤ 𝜃0) 대 𝐻1 ∶ 𝜃 > 𝜃0 3. 단측검정 𝐻0 ∶ 𝜃 = 𝜃0(또는 𝜃 ≥ 𝜃0) 대 𝐻1 ∶ 𝜃 < 𝜃0

(11)

9.2 가설검정의 오류

 판단기준

랜덤표본에 근거하여 귀무가설을 채택하는 경우와 대립가설이 보다 타당하다 고 판단되어 귀무가설을 기각하는 경우 중 하나를 결정하는 기준

 가설검정에서 수반되는 두 가지 오류

제 1종오류(type 1 error) : 귀무가설이 참일 때 귀무가설을 기각하는 오류(확률) 제 2종오류(type 2 error) : 귀무가설이 거짓일 때 귀무가설을 채택하는 오류

 유의수준(significance level) 𝛼 : 제 1종오류의 허용최대 한계 𝛼 = 𝑃(제 1종오류) = 𝑃(𝐻0를 기각 | 𝐻0가 참)

(12)

 유의수준(significance level), 𝛼 : 제 1종오류가 발생할 확률의 최대허용치.

 제 2종오류의 확률을 𝛽로 표기한다.

 𝛽 위험 : 제 2종 오류의 발생확률, 𝛽 = 𝑃(제 2종 오류)= 𝑃(𝐻0를 채택 | 𝐻0가 참)

 제 1종 오류와 제 2종 오류 사이에는 역의 관계가 성립한다.

(제1종오류를 줄이면 2종오류가 늘어난다)

구분 실제상황

𝐻0 : 참 𝐻1 : 참 검정결과 𝐻0 기각안함 옳은 결정 2종 오류

𝐻0 기각 1종 오류 옳은 결정

(13)

 통계적 가설검정에 있어서는 제 1종오류가 발생할 확률의 허용한계인 𝛼 를 고 려하여 검정을 하게 된다.

 귀무가설이 사실이 아닐 때 귀무가설을 기각하게 될 확률은 1 − 𝛽가 되는데 이 값을 검정력(power)이라고 한다.

 검정통계량(test statistic) : 귀무가설의 타당성 여부를 결정하는데 사용되는 통 계량

 기각값(critical value) : 주어진 유의수준에서 귀무가설을 채택하거나 기각하는 기준이 되는 값

검정통계량 = 표본통계량 − 귀무가설에서 설정된 모수값 표본 통계량의 표준오차

(14)

9.3 𝑝 −값과 가설검정의 절차

 𝑝 −값 : 귀무가설이 참일 때 표본과 같이 나올

 𝑝 −값이 작을수록 귀무가설에 반대되는 강한 증거.

 가설검정에서 기각 혹은 채택을 결정하기 위한 판정에 가장 많이 사용되는 측도로서 𝑝 −값이 작을수록 𝐻1의 강력한 증거가 됨

 𝒑 −값을 유의확률이라고도 함

 표본을 근거로 귀무가설 𝐻0를 기각하게 되는 가장 작은 유의수준

𝐻1 에 대한 증거의 강도를 수치로 나타낸 것

𝑷값 < 유의수준 𝜶 ⇒ 유의수준 𝜶 에서 𝑯𝒐기각

(15)

가설검정의 절차

1) 검정하고자 하는 목적에 맞는 귀무가설 𝐻0와 대립가설 𝐻1을 설정한다.

2) 유의수준 𝛼를 정한다.

3) 검정통계량(test statistic)을 계산한다.

4) 기각역(reject region)을 구한다.

5) 검정통계량과 기각역을 비교하여 판정한다.

또는 𝑝 −값을 구하여 유의수준 𝛼와 비교한다.

(16)

9.4 모평균과 모비율의 검정 9.4.1 모평균(𝜇)의 검정

모분산을 알 때

 평균이𝜇, 분산이 𝜎2인 모집단으로부터의 랜덤표본 𝑋1, 𝑋2, ⋯ , 𝑋𝑛을 얻을 때

 표본의 크기 𝑛이 크면,

표본평균 𝑋�는 근사적으로 평균이 𝜇, 분산이 𝜎2/𝑛인 정규분포를 따른다.

 이 결과를 이용하여 모평균의 검정이 이루어진다.

𝑍 = 𝑋� − 𝜇

𝜎/ 𝑛

(17)

모분산을 모를 때

 평균이𝜇, 분산이 𝜎2인 정규모집단으로부터의 랜덤표본 𝑋1, 𝑋2, ⋯ , 𝑋𝑛을 얻을 때

 표본의 크기 𝑛이 작고 (보통 30 이하) 모분산 𝜎2이 알려져 있지 않은 경우에

 모평균의 검정은 표본분산 𝑆2을 추정하여 사용하는 통계량

가 자유도가 𝑛 − 1인 𝑡분포를 따른다는 사실을 이용하여 검정한다.

𝑇 = 𝑋� − 𝜇

𝑆/ 𝑛

(18)

 𝜇0 : 귀무가설에서 주장되는 모평균

 𝑆 : 표본표준편차

 𝑧 : 𝑍의 관측값

 𝑧𝛼 : 표준정규분포에서 𝑃 𝑍 ≥ 𝑧𝛼 = 𝛼를 만족하는 값

 𝑡 : 𝑇의 관측값

 𝑡𝛼: 자유도 𝑛 − 1인 𝑡분포에서 𝑃 𝑇 ≥ 𝑡𝛼 = 𝛼를 만족하는 값

(19)

 일표본 𝑍검정 : 단일 모평균의 검정방법 - 𝜎2을 알 경우

1.

𝐻0: 𝜇 = 𝜇0와 𝐻1: 𝜇 ≤ 𝜇0일 때, 𝑍 ≤ −𝑧𝛼이면 귀무가설 기각

2.

𝐻0: 𝜇 = 𝜇0와 𝐻1: 𝜇 ≥ 𝜇0일 때, 𝑍 ≥ 𝑧𝛼이면 귀무가설 기각

3.

𝐻0: 𝜇 = 𝜇0와 𝐻1: 𝜇 ≠ 𝜇0일 때, |𝑍| ≥ 𝑧𝛼/2이면 귀무가설 기각

 위의 경우에 대한 𝑝-값

1.

𝐻1: 𝜇 ≤ 𝜇0의 경우, 𝑝 = 𝑃(𝑍 ≤ −𝑧)

2.

𝐻1: 𝜇 ≥ 𝜇0의 경우, 𝑝 = 𝑃(𝑍 ≥ 𝑧)

3.

𝐻1: 𝜇 ≠ 𝜇0의 경우, 𝑝 = 𝑃(|𝑍| ≥ 𝑧)

(20)

 일표본 𝑇검정 : 단일 모평균의 검정방법 - 𝜎2을 모르고 𝑛이 작을 경우

1.

𝐻0: 𝜇 = 𝜇0와 𝐻1: 𝜇 ≤ 𝜇0일 때, 𝑇 ≤ −𝑡𝛼,𝑛−1이면 귀무가설 기각

2.

𝐻0: 𝜇 = 𝜇0와 𝐻1: 𝜇 ≥ 𝜇0일 때, 𝑇 ≥ 𝑡𝛼,𝑛−1이면 귀무가설 기각

3.

𝐻0: 𝜇 = 𝜇0와 𝐻1: 𝜇 ≠ 𝜇0일 때, |𝑇| ≥ 𝑡𝛼

2,𝑛−1이면 귀무가설 기각

 위의 경우에 대한 𝑝 −값

1.

𝐻1: 𝜇 ≤ 𝜇0의 경우, 𝑝 = 𝑃(𝑇 ≤ −𝑡)

2.

𝐻1: 𝜇 ≥ 𝜇0의 경우, 𝑝 = 𝑃(𝑇 ≥ 𝑡)

3.

𝐻1: 𝜇 ≠ 𝜇0의 경우, 𝑝 = 𝑃(|𝑇| ≥ 𝑡)

(21)

정규분포에서의 기각값

 정규분포의 경우

 𝑇분포의 경우 자유도에 따라 달라지며 표본의 수가 작은 경우 같은 유의수준 에 대하여 𝑇분포의 기각값은 정규분포의 기각값보다 항상 큰 값을 가지지만 표본의 수가 커질수록 정규분포의 기각값으로 수렴하게 된다.

유의수준(𝛼) 단축검정(𝑧𝛼) 양측검정(𝑧𝛼/2)

0.10 1.282 1.645

0.05 1.645 1.960

0.01 2.326 2.576

(22)

𝑋�의 표본분포와 기각역 : 단측검정

(23)

𝑋�의 표본분포와 기각역 : 양측검정

(24)

예제 9.1

한 타이어 제조회사에서 생산중인 타이어의 수명이 평균 37,000km이하로 알려져 있다.

타이어의 수명을 증가시키는 공정을 개발하고 있는 이 회사의 연구소에서 개발 중인 새 공정에 의해 시제품을 100개 생산하여 조사한 결과 평균 수명이 𝑋� = 38,000km이었 고 표준편차가 𝑆 = 5,000km 이었다. 이 연구소의 조사결과 새 공정이 성공적임을 뜻하 는지를 알아보자.

(풀이) 이 문제는 가설 𝐻0: 𝜇 ≤ 37,000 대 𝐻1: 𝜇 > 37,000 로 귀결되고 사용되는 검정통 계량의 분포는 분산을 몰라도 𝑛이 크므로 정규분포를 따르므로 이용하여

𝑍 = 𝑋�−𝜇𝑆/ 𝑛0 = 38,000−37,000

5,000/ 100 = 2.0 를 얻는다. 이 값은 유의수준을 5%로 했을 때 단측검

정에 대한 기각값 1.645보다 크므로 5% 유의수준에서 귀무가설은 기각된다. 즉, 타이어 의 평균수명이 37,000km이상이라고 말할 수 있다.

(25)

수리정보과학과

9.4.2 모비율(𝑝)의 검정

표본비율 𝑝�의 평균은 𝑝 이고, 표준편차는 𝑝(1−𝑝)𝑛 이므로 대표본인 경우, 𝑝� 은 근사적으로 정규분포를 따른다.

𝑝� ≈ 𝑁 𝑝,𝑝 1−𝑝𝑛 , 𝑝�−𝑝

𝑝(1−𝑝)/𝑛 ≈ 𝑁(0,1)

검정통계량 :

검정통계량의 귀무가설하에서의 분포는 표준정규분포를 따른다. (𝑝0 : 귀무가설이 참일 경우의 모비율)

기초통계학 - 김대학 25

𝑍 = 𝑝̂ − 𝑝

0

𝑝

0

(1 − 𝑝

0

)/𝑛

(26)

 유의수준이 𝛼일 때 대립가설의 형태에 따른 모비율의 가설검정

1.

𝐻0: 𝑝 = 𝑝0와 𝐻1: 𝑝 ≤ 𝑝0일 때, 𝑍 ≤ −𝑧𝛼이면 귀무가설 기각

2.

𝐻0: 𝑝 = 𝑝0와 𝐻1: 𝑝 ≥ 𝑝0일 때, 𝑍 ≥ 𝑧𝛼이면 귀무가설 기각

3.

𝐻0: 𝑝 = 𝑝0와 𝐻1: 𝑝 ≠ 𝑝0일 때, |𝑍| ≥ 𝑧𝛼/2이면 귀무가설 기각

 위의 경우에 대한 𝑝 −값

1.

𝐻1: 𝑝 ≤ 𝑝0의 경우, 𝑝 = 𝑃(𝑍 ≤ −𝑧)

2.

𝐻1: 𝑝 ≥ 𝑝0의 경우, 𝑝 = 𝑃(𝑍 ≥ 𝑧)

3.

𝐻1: 𝑝 ≠ 𝑝0의 경우, 𝑝 = 𝑃(|𝑍| ≥ 𝑧)

(27)

예제 9.2

혈액을 주로 취급하는 100명의 병원근무자 표본을 대상으로 B형 간염 감염여부를 조사 하기 위한 혈청검사를 실시하였다. 그 중 20명이 양성으로 나타났다. 이 자료를 근거로 그 모집단의 양성률이 0.23보다 작다고 할 수 있는지 알아보자.

(풀이) 이 문제는 가설 𝐻0: 𝑝 = 0.23 대 𝐻0: 𝑝 ≤ 0.23을 검정하는 문제로 귀결된다.

𝑝� = 0.20이므로 검정통계량은 𝑍 = 𝑝 𝑝�−𝑝0

0(1−𝑝0)/𝑛 = 0.23(1−0.23)/1000.20−0.23 = −0.7129가 된다.

이 값은 5% 유의수준에서 단측검정에 대한 기각값 -1.645보다 크지 않으므로 5%

유의수준에서 귀무가설은 기각 되지 않는다.

(28)

9.4.3 엑셀을 이용한 𝑝 −값 계산

 엑셀 함수를 이용하여 표준정규분포에서의 확률을 계산하여 구할 수 있다.

𝑃(𝑍 ≤ 2.65) 계산방법

=𝑁𝑁𝑁𝑁𝑁𝑁𝑆𝑇(𝑋, 평균, 표준편차, 확률밀도(0) 혹은 누적(1)) =𝑁𝑁𝑁𝑁𝑁𝑁𝑆𝑇(2.65, 0, 1, 1)

=0.996

𝑝값 계산방법

=𝑃(𝑍 ≥ 2.65) = 1 − 𝑃(𝑍 ≤ 2.65) = 1 – 0.996 = 0.004

(29)

엑셀을 이용한 예제 9.1의 𝑝 −값 계산방법

① 표준도구모음줄에서 “함수마법사”단추를 누른다.

② 대화상자가 나타나면 함수종류 중에서 “통계”를 클릭한다. 함수이름에서는 오른쪽의 이동막대를 조정하여 뒤로 가서 “𝑁𝑁𝑁𝑁𝑆𝑁𝑁𝑆𝑇”를 클릭한다. 선택 이 끝나면 <확인>단추를 누른다.

③ 𝑍라고 쓰여진 란을 클릭하여 원하는 수치를 적는다. 여기서는 2.0을 이용한 다. <확인>을 누른다.

④ 0.977249938이라는 수가 보인다. 이 값은 표준정규분포의 누적확률값이다.

즉, 2보다 작거나 같을 확률이 계산된 것이다. 따라서 원하는 𝑝 −값은 1-

0.977249938=0.022750062이 된다. 비교적 작은 값이므로, 귀무가설을 반증하 는 증거가 된다.

(30)

엑셀화면

(31)

엑셀을 이용한 예제 9.2의 𝑝 −값 계산방법

① 표준도구모음줄에서 “함수마법사”단추를 누른다.

② 대화상자가 나타나면 함수종류 중에서 “통계”를 클릭한다. 함수이름에서는 오른쪽의 이동막대를 조정하여 뒤로 가서 “𝑁𝑁𝑁𝑁𝑆𝑁𝑁𝑆𝑇”를 클릭한다. 선택 이 끝나면 <확인>단추를 누른다.

③ 𝑍값을 쓰는 란에 -0.7129를 쓰면 0.237954라는 수가 계산된다. 이 값은 -

0.7129보다 작을 확률이므로 우리가 구하고자 하는 𝑝 −값이 된다. 이 값은 상 당히 큰 값으로 전혀 유의하지 않음을 알 수 있다.

(32)

엑셀화면

참조

관련 문서

 평균 이상의 학생 수와 평균 이하의 학생수를 얻 어내어 출력한다..  학생들의

평균,

변화율 계산시 원 수량과 가격을 평균 수량과 평균 가격으로 대치하면

순자산, 가구소득 분위별 평균, 점유율 및

(The algebraic mean of west and east, and south and north components) VWD,VWS : 도(˚)단위의 평균 벡터풍향과 ㎧단위의 평균

(The algebraic mean of west and east, and south and north components) VWD,VWS : 도(˚)단위의 평균 벡터풍향과 ㎧단위의

(The algebraic mean of west and east, and south and north components) VWD,VWS : 도(˚)단위의 평균 벡터풍향과 ㎧단위의

(The algebraic mean of west and east, and south and north components) VWD,VWS : 도(˚)단위의 평균 벡터풍향과 ㎧단위의