• 검색 결과가 없습니다.

2. 가설검정 (Hypothesis testing)

N/A
N/A
Protected

Academic year: 2022

Share "2. 가설검정 (Hypothesis testing)"

Copied!
110
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

1. 추 정 (Estimation)

2. 가설검정 (Hypothesis testing)

자료로부터 정보를 이용하여 모집단에 관한 추측이나 결론을 이끌어 내는 과정을 통계적 추론(statistical inference)이라 한다.

통계적 추론에서는 결론(의사결정)의 신빙성을 수치로 나타내기 위하여 확률을 이용하는 것이 그 특징이다. 통계적 추론은 그 목적에 따라 여러 가지가 있으나 이들 중 가장

기본이 되는 것은 추정(estimation)과 가설검정(hypothesis testing)이라고 불리 우는 가설에 의한 추론이다. 이 장에서는 이들의 기본개념과 적용사례에 대해 알아본다.

개 요

(2)

2. 계량형 및 계수형 데이터에 대한 추정과 검정을 실시하는 방법 및 분포함수를 적용하는 사례를 연구하여 분포함수의 올바른 사용법을 학습토록 한다.

3. 수집된 표본집단의 데이터를 이용하여 모집단에 대한 통계적 특성을 파악하는 능력을 향상시키고자 한다.

 추정 : 표본을 이용하여 이러한 모집단의 특성 값에 대한 추측 값을 제공하고 그 오차한계를 제시하는 과정을 추정(estimation)이라고 한다.

 가설검정 : 어떤 모집단의 가설을 설정하고, 가설의 성립여부를 시료의 데이터로 판단하여 통계적인 결정을 내리는 것을 말한다.

 귀무가설 : 표본집단은 비교하고자 하는 집단 혹은 모집단과 차가 없다고 생각한다.

이것을 “귀무가설”이라고 하고 기호 Ho 로 표시한다.Ho

 검정통계량 : 귀무가설” Ho 를Ho 를 기각할 것인지 아닌지를 결정하기 위해 표본 통계량에 대해서 계산을 해 얻어진 값을 말한다.

 유의수준 : “ 귀무가설” Ho 가 참인데도 측정치에 의하여Ho Ho 가 버려질 확률의Ho 값을 말한다.

주요 용어

(3)

통계적 추론에서 가장 기본적인 추측의 대상은 모집단의 평균, 표준편차, 비율 등과 같은 모집단의 특정 값이다.

표본을 이용하여 이러한 모집단의 특성 값에 대한 추측 값을 제공하고 그 오차한계를 제시하는 과정을 추정(estimation)이라고 한다.

이러한 추정의 개념을 이해하기 위하여 모평균 μ의 추정에 대한 다음의 예를 들어보자.

♧ 추정(Estimation)이란?

(4)

예제) 플라스틱판의 두께 치수를 관리하고 있다. 금일 입고된 자재의 검사를 위해서 9개의 샘플을 가지고 모집단인 당일 입고된 전체의 모평균을 95%의 신뢰도를 가지고 추정하고자 한다.

1) 이 자재의 이제까지의 공정Data 분석결과 표준편차가 0.3이라고 할 때 오늘 입고된 자재의 평균을 추정하시오.

2) 이 자재에 대한 기존의 측정Data는 보존되어 있지 않다고 한다. 오늘 입고된 자재의 평균을 추정하시오.

 측정 Data : 7.0, 7.1, 6.8, 7.1, 7.0, 7.4, 7.2, 6.8, 6.6

(5)

1) 이부품의 이제까지의 공정Data 분석결과 표준편차가 0.3이라고 할 때 오늘 입고된 자재의 평균을 추정하시오.

이제까지의 공정Data를 가지고 있는 경우에는 그 Data를 표준편차가 모집단의 표준편차 σ이고, 이때의 당일 측정한 Data의 평균으로부터 자재의 평균을 추정하면..

= (7.0 + 7.1+ 6.8+ 7.1+ 7.0+ 7.4+ 7.2+ 6.8+ 6.6)/9 = 7.0 σ

-> ( 6.804, 7.196)

α/2

α/2

(6)

2) 이 자재에 대한 기존의 측정Data는 보존되어 있지 않다고 한다.

오늘 입고된 자재의 평균을 추정하세요.

입고 자재에 대하여 이제까지 측정을 하였더라도 Data가 보존되어 있지 않기 때문에 이 자재에 대한 표준편차를 알 수가 없다.

샘플의 평균과 표준편차로부터 자재의 평균을 추정하면….

t(n-1;α/2)=t(9-1;0.025)=2.306 (t-table에서 찾은 값)

±t(8;0.025)

9

(7)

“결과 1)과 결과 2)”에는 약간의 차이를 보이고 있다. 과거의 공정 Data를 가지고 있을 경우에 모집단의 표준편차를 알 수 있으므로 보다 정확한 결과를 추정할 수 있다.

결과 2)의 경우에는 표준편차를 모집단의 표준편차를 샘플의 표준편차로서 추정하여야 함으로 이에 따르는 오차를 줄이지 않는 한 (= 샘플의 크기를 크게 하지 않는 한)

정확한 추정이 어렵다.

모집단의 표준편차를 알고 있으면 평균을 추정하는데

보다 정확한 추정이 가능하겠군요!

그렇죠 !

그래서 지속적인 공정 Data의 관리가 중요합니다.

나중에 유사공정분석에도 아주 유용하게 사용됩니다.

(8)

구간 추정에서는 처음부터 추정치에 어떤 폭을 가지게 하여 모수가 그 구간 내에 포함될 확률, 예를 들면 “95% 이다”와 같이 표현하는 방법을 사용한다. 여기서 모수가 그 구간 내에 포함될 확률을 신뢰율 또는

신뢰도라 한다.

※ 신뢰도, 시료, 신뢰 구간과의 관계 : 신뢰도가 증가하면 신뢰구간은 넓어지고, 신뢰도가 감소하면 신뢰구간은 좁아진다. 시료의 수가 증가하면 신뢰구간은 좁아지고, 시료의 수가 감소하면 신뢰구간은 넓어진다.

용 어 내 용

점 추 정 분포의 기대치를 이용하여 단 하나의 값으로 모수를 추정하는 것.

구간추정 모수가 일정한 확률로 어느 한계 내에서 있게 될 신뢰구간을 구하는 것.

신 뢰 율 (신뢰도)

♧ 추 정 용 어

(9)

구분 추정항목

계량값

한 개의 모평균의 추정

부 항 목 분 포 함 수

독립적인 두 개의 모평균 차의 추정

대응 있는 두 개의 모평균 차에 대한 추정

한 개의 모 분산의 추정

두개의 모 분산 차에 대한 추정

표준편차를 아는 경우 표준편차를 모르는 경우

정규분포

정규분포

정규분포 표준편차를 아는 경우

표준편차를 모르는 경우 표준편차를 아는 경우 표준편차를 모르는 경우 표준편차를 아는 경우 표준편차를 모르는 경우

t 분포

t 분포

t 분포 카이제곱분포

F 분포

♧ 추정의 분포함수

(10)

♧ 추정의 분포함수

계수값

모 부적합품률의 추정

두 부적합품률의 차의 추정

모 부적합수의 추정

모 부적합수 차의 추정

정규분포로 계산가능

정규분포로 계산가능 이항분포

포아송 분포 정규분포로 계산가능

정규분포로 계산가능 np≥5이고 n(1-p) ≥5

np≥5이고 n(1-p) ≥5가 성립되지 않은 경우

n1,n2가 큰 경우

m ≥ 5 m < 5

m1 ≥ 5, m2 ≥ 5

(11)

(1) 모평균 μ에 대한 신뢰구간

(모 분산 σ2 旣知일 때)

표준정규분포; Z~N(0, 1)

-Z α 0

2

Zα 2

1 α α

2 α

2

(12)

예제) 분산이 σ2 = 225 인 정규모집단으로부터 크기가 n=25 인 표본을 Random하게 추출하여 다음과 같은 자료를 얻었고 이들의 표본평균은 64.32 가 되었다.

모평균 μ에 대한 95% 신뢰구간을 구하라.

(13)

 통계학 > 기초통계학 > 1-표본 Z

• Mini TAB 분석 예

표본의 평균 모 표준편차

(14)

1-표본 Z

가정된 표준 편차 = 15

N 평균 SE 평균 95% CI

25 64.3200 3.0000 (58.4401, 70.1999)

양측 구간

(15)

T 분포; T~t(n-1)

α/2 α/2

1-α

- t

(n-1,α) 0

t

(n-1,α)

(2) 모평균 μ에 대한 신뢰구간

(모 분산 σ2 未知일 때)

(16)

예제) 전구를 생산하는 어떤 제조업체에서는 전구를 새로운 밀봉방법에 의해 생산된 전구들의 평균 수명시간 μ를 추정하기 위해 생산된 전구들 중에서 9개를

Random하게 추출하여 수명시간을 시간단위로 측정한 결과로 다음을 얻었다.

5000, 5100, 5400, 5200, 5400, 5000, 5300, 5200, 5200.

새로운 밀봉방법에 의해 생산된 전구들의 수명시간의 분포는 정규분포를 따른다고 가정하고 모평균 수명시간 μ에 대한 90% 신뢰구간을 구하라.

(17)

 통계학 > 기초통계학 > 1-표본 t

• Mini TAB 분석 예

분석할 데이터 선택

(18)

1-표본 T: EX-1-t

변수 N 평균 표준 편차 SE 평균 90% CI

EX-1-t 9 5200.00 150.00 50.00 (5107.02, 5292.98)

양측 구간

(19)

♧ 표본의 크기(n)가 30 이상이 된다면 표준정규분포표를 흔히 이용한다.

(20)

χ

2

– 분포

(3) 모 분산(σ

2

)에 대한 신뢰구간

(21)

예제) 어떤 회사가 생산하고 있는 화학 시트의 폭 치수에 대한 분산을 추정하고자 한다.

이 회사의 화학 시트 중에서 20개를 Random하게 추출하여 조사한 결과로 이들 폭 치수의 표본분산이 5임을 알았다. 이 회사 화학 시트들의 폭 치수의 분포는 정규분포를 따른다고 가정하고 모 분산 σ2 에 대한 95% 신뢰구간을 구하라.

(22)

(4) 두 모평균들의 차 μ1-μ2에 대한 신뢰구간

( σ1 2 , σ2 2 ; 旣知 )

(23)

예제) 두 기업들에서 각각 A상표 전구들과 B상표 전구들을 생산하고 있다. 생산된 A상표 전구들과 B상표 전구들 중에서 독립적으로 각각 40개와 50개를 Random하게 추출하여 조사한 결과로 각 표본평균 수명시간이 418시간과 402시간임을 알았다.

두 상표 전구의 수명 시간들은 각각 정규분포를 따르며 모 표준편차가 26시간과 22시간임이 알려져 있다고 가정하고 두 상표 전구의 모평균 수명 시간들의 차에 대한 95% 신뢰구간을 구하라.

(24)

n1와 n2의 표본의 표준편차를 Pooling(합)해서 구한다.

(4) 두 모평균들의 차 μ1-μ2에 대한 신뢰구간

( σ1 2 , σ2 2 ; 未知, σ12 2 2 )

(25)

예제) 어떤 화학약품의 제조에 상표가 다른 2종류의 원료를 사용하고 있다. 각 원료에서 그 주성분 A의 함량은 아래와 같다.

상표 1의 주성분 A의 평균함량을 μ1, 상표 2의 주성분 B의 평균함량을 μ2 라고 할 때 μ12 의 신뢰구간을 구하라. (단 모 분산이 같다고 한다.)

(26)

분석할 데이터 입력

 통계학 > 기초통계학 > 2-표본 t

• Mini TAB 분석 예

분석할 데이터 선택

두 집단의 분산이 동일하다고 가정

(27)

2-표본 T 검정 및 CI: EX-2-t-1, EX-2-t-2 EX-2-t-1 대 EX-2-t-2의 두 표본 T

표준

N 평균 편차 SE 평균 EX-2-t-1 11 80.52 2.04 0.61 EX-2-t-2 10 79.14 1.65 0.52

차분 = mu (EX-2-t-1) - mu (EX-2-t-2) 차분 추정치: 1.37818

차분의 95% CI: (-0.32807, 3.08444)

차이 = 0 의 T 검정 (대 not =): T-값 = 1.69 P-값 = 0.107 DF = 19 둘 다 합동 표준 편차 1.8658을(를) 사용합니다.

양측 구간

(28)

(4) 두 모평균들의 차 μ1-μ2에 대한 신뢰구간

( σ1 2 , σ2 2 ; 未知, σ12 ≠σ22 )

(29)

짝 지워진 표본의 두 모 분산 을 모르지만 서로 대응인 경우 두 정규 모집단으로부터 크기가 n 인 확률표본 d1, d2, d3,…,dn 에 의해 정의되는 표본평균과 각 표본분산을 각각 라고 한다면 모평균

에 대한 신뢰구간은 다음과 같다.

(4) 두 모평균들의 차 μ1-μ2에 대한 신뢰구간

( 짝 지워진 표본 )

(30)

예제) 어느 대기업에서는 직무교육이 근로자들의 능률향상에 효과가 있는지를 추정

하고자 한다. 이를 위해 이 기업에서는 전체 근로자들 중에서 10명을 Random하게 추출하여 이들에게 직무교육을 실시하기 전과 실시한 후의 각 작업능률을 점수로 측정하였더니 다음 표와 같았다.

위 결과로 직무교육을 실시하기 전과 실시한 후에 기업 전체 근로자들의 평균 작업능률의 차 μ1-μ2 에 대한 95% 신뢰구간을 구하라.

(31)
(32)

 통계학 > 기초통계학 > 쌍체 t

• Mini TAB 분석 예

분석할 데이터 선택

(33)

쌍체 T 검정 및 CI: EX-P-t-1, EX-P-t-2 EX-P-t-1 - EX-P-t-2에 대한 쌍체 T

N 평균 표준 편차 SE 평균 EX-P-t-1 10 75.8000 11.6409 3.6812 EX-P-t-2 10 76.4000 13.7937 4.3620 차분 10 -0.600000 7.515909 2.376739

평균 차분의 95% CI: (-5.976557, 4.776557)

평균 차분의 T 검정 = 0 (대 not = 0): T-값 = -0.25 P-값 = 0.806

양측 구간

(34)

(5) 두 모 분산 비 에 대한 신뢰구간

(35)

F-분포 (F-Distribution)

F (n1 – 1, n2 – 1, 1 – α )

2 F (n1 – 1, n2 – 1, )α 2

(36)

예제) 어떤 화학제품 안에 들어있는 X 성분의 양을 두 가지 측정방법에 의해서 측정한 데이터는 다음과 같다. 방법 1,2의 95% 신뢰구간 모 분산 비를 구하라

(37)

 통계학 > 기초통계학 > 2 분산

• Minitab 분석 예

분석할 데이터 선택

(38)
(39)

등분산 검정: EX-2-Vari-1, EX-2-Vari-2 표준 편차의 95% Bonferroni 신뢰 구간

N 하한 표준 편차 상한 EX-2-Vari-1 8 0.0827776 0.132315 0.303064 EX-2-Vari-2 7 0.0851155 0.140051 0.352300 F-검정(정규 분포)

검정 통계량 = 0.89, P-값 = 0.873 Levene 검정(연속형 분포)

검정 통계량 = 0.08, P-값 = 0.788

(40)

(6) 모 비율 P 에 대한 신뢰구간

(41)

예제) 어떤 공장의 제품들로부터 크기가 n=500 개의 표본을 Random하게 추출해서 조사한 결과로 160 개의 부적합품을 얻었다.

이 공장 제품들의 부적합품 비율 P에 대한 95% 근사 신뢰구간을 구하라.

(42)

 통계학 > 기초통계학 > 1 비율

• Mini TAB 분석 예

표본의 크기 표본의 불량

(43)

1 비율에 대한 검정 및 CI

p = 0.5 대 p not = 0.5 의 검정

표본 X N 표본 p 95% CI Z-값 P-값 1 160 500 0.320000 (0.279112, 0.360888) -8.05 0.000

양측 구간

정규분포에 근거한 신뢰구간

(44)

(7) 모 비율차 P1-P2 에 대한 신뢰구간

(45)

예제) 어떤 공정에서 원료는 A, B 두 회사로부터 납품되고 있다. 이 두 회사의 원료에 대해서 제품에 미치는 부적합품률 (회사 A, B의 부적합품률은 각각 P1, P2 라 하자) 차를 조사하기 위하여 회사 A, 회사 B의 원료로 만들어진 제품 중에서 Random하게 각각 120개, 150개의 제품을 추출하여 불량개수를 찾아보니 각각 12개, 9개 였다. p1-p2의 95% 근사 신뢰구간을 구하라.

(46)

 통계학 > 기초통계학 > 2 비율

• Mini TAB 분석 예

표본의 불량 표본의 크기

(47)

2 비율에 대한 검정 및 CI 표본 X N 표본 p 1 12 120 0.100000 2 9 150 0.060000 차분 = p (1) - p (2) 차분 추정치: 0.04

차분의 95% CI: (-0.0257684, 0.105768)

차분 검정 = 0 (대 not = 0): Z = 1.22 P-값 = 0.223

(48)
(49)

어떤 모집단의 가설을 설정하고, 가설의 성립여부를 시료의 데이터로 판단하여 통계적인 결정을 내리는 것을 말한다.

예로서 모평균이 기준치 μ와 다른가 어떤가의 검정은 다음과 같은 논리로 한다.

최초에 모평균은 기준치 μ는 차가 없다고 생각한다.

이것을 “귀무가설이(Null Hypothesis)”라고 하고 기호 H0 로 표시한다.

다음에 실제로 측정치를 취하여 이 가설이 옳다고 하기에는 이와 같은 결과가 나타날 확률 α 가 너무나 작은 값으로 인정되면 처음의 가설 H0 을 버리고 모평균은 기준치는 다르다.

이것을 “대립가설(Alternative Hypothesis)”이라 하고 H1 로 표시한다.

즉, “귀무가설” H0 을 “버릴 것”(기각)인지 혹은 채택할 것인지를 통계적으로 판단하는 것을 검정이라 한다.

 가설검정(Hypothesis testing)이란?

(50)

- 제1종 과오: “귀무가설”이 옳은 데도 불구하고 이를 기각해 버리는 과오.→ α(Alpha) - 제2종 과오: “귀무가설”이 옳지 않는데도 불구하고 이를 채택하는 과오. → β(Beta) - 제1종 과오: “귀무가설”이 옳은 데도 불구하고 이를 기각해 버리는 과오.→

α

α(Alpha) - 제2종 과오: “귀무가설”이 옳지 않는데도 불구하고 이를 채택하는 과오. → ββ(Beta)

정확한 결정 1-

α α

제 2 종 과오 (소비자위험)

β β

제 1 종 과오

(생산자위험, 유의수준)

α α

정확한 결정 1-

β β

H0 H1

H0

H1 채택

사실 • 1 -

α α

: 신뢰도

• 1 -

β β

: 검출력 - 귀무가설(Null Hypothesis:H0): 변화나 차이가 없음을 설명하는 가설

- 대립가설(Alternative Hypothesis:H1): H0가 기각되면 참(True)이 됨을 설명하는 가설

(51)

♧ 가설검정의 용어정의

 검정통계량(Test Statistic); H0 를 기각할 것인지 아닌지를 결정하기 위해 표본 통계량에 대해서 계산을 해 얻어진 값.

 유의수준(Significance Level); “귀무가설” Ho 가 참인데도 측정치에 의하여Ho HH0 0 가 버려질 확률, 즉 제1종 과오의 확률.

 P-value(Attained Significance Level) ; 계산된 기각역의 확률 값.

- P 값이 실험자가 선택한 α 값보다 작으면 귀무가설α Ho 을 기각하고, Ho P 값이 α 값보다 크면 귀무가설α HH00 을 채택

- P 값 활용의 이점 : 계산된 검정 통계량의 유의수준을 판단할 수 있음.

(52)

 채택역(Acceptance Region); 귀무가설을 채택하는 영역

▶ 검정 통계량이 채택역에 있으면 대립가설을 기각하고, 귀무가설을 채택함.

 기각역(Rejection Region); 귀무가설을 기각하는 영역

▶ 검정 통계량이 기각역에 있으면 귀무가설을 기각하고, 대립가설을 채택함.

a(유의수준)

검정 통계량 기각역

채택역

p 값

임계값 혹은 유의값 (Critical Value)

♧ 가설검정의 용어정의

(53)

 검정구분에 따라 가설을 검정할 때, 선택 검정방법(예를 들어, 우측, 또는 양측)에 따라 다른 결과가 나올 수 있으므로 통계 검정치 와

유의차가 작은 경우 주의해야 함

♧ 가설검정의 구분

H0: ≤ H1: > H0: ≥

H1: <

H0: = H1: ≠ 가설검정

좌측검정 (Left-tailed)

우측검정 (Right-tailed)

양측검정 (Two-tailed)

(54)

우측검정 (Right-tailed)

a = 0.05 좌측검정

(Left-tailed)

a = 0.05

양측검정 (Two-tailed)

a/2 = 0.025 a/2 = 0.025

♧ 가설검정의 구분

H0: ≤ H1: > H0: ≥

H1: <

H0: = H1: ≠

(55)

 가설검정의 절차 (Ⅰ)

1단계 귀무가설 및 대립가설을 세운다.

2단계 유의수준( α ; 보통 5% )을 선택한다.

3단계 시료의 통계량을 계산한다.

4단계 검정 통계량을 계산한다.

5단계 귀무가설에 대한 의사결정(판정)을 한다.

(56)

 가설검정의 절차 (Ⅱ)

1단계 무엇을 검정할 것인가를 명확히 한다.

2단계 귀무가설 및 대립가설을 세운다.

3단계 유의수준( α ; 보통 5% )을 선택한다.

4단계 검정 방법을 선택한다.

5단계 시료의 크기를 정하고, 데이터를 수집한다.

6단계 데이터에 대한 검정통계량 및 P값을 계산

7단계 기각치와 비교하여 가설을 선택한다.

(57)

♧ 가설 채택 기준

구 분

1. 검정통계량

(Test Statistic)

* 검정 통계량의 절대값이 분포표의 기각치 보다 큰 경우

귀 무 가 설 의 기 각 대 립 가 설 의 기 각

* 검정 통계량의 절대값이 분포표의 기각치 보다 작을 경우

2. P 값

(P-Value)

* P 값이 α 보다 작은 경우 (P-Value < α)

* P 값이 α 보다 큰 경우 (P-Value > α)

3. 신뢰구간

(Confidence Level)

* 가설로 세운 모수 값이 계산된 신뢰구간 밖에 있을 경우

* 가설로 세운 모수 값이 계산된 신뢰구간 안에 있을 경우

(58)

구분 검정항목

계량값

한 개의 모평균의 검정

부 항 목 분 포 함 수

독립적인 두 개의 모평균 차의 검정

대응 있는 두 개의 모평균 차에 대한 검정

한 개의 모 분산의 검정 두개의 모 분산 차에 대한 검정

표준편차를 아는 경우 표준편차를 모르는 경우

정규분포

정규분포

정규분포 표준편차를 아는 경우

표준편차를 모르는 경우 표준편차를 아는 경우 표준편차를 모르는 경우

표준편차를 아는 경우 표준편차를 모르는 경우

t 분포

t 분포

t 분포 카이제곱분포

F 분포

♧ 검정의 분포함수

(59)

♧ 검정의 분포함수

계수값

모 부적합품의 검정

두 부적합품의 차의 검정

모 부적합수의 검정

모 부적합수 차의 검정

정규분포로 계산가능

정규분포로 계산가능 이항분포

포아송 분포 정규분포로 계산가능

정규분포로 계산가능 np≥5이고 n(1-p) ≥5

np≥5이고 n(1-p) ≥5가 성립되지 않은 경우

n1,n2가 큰 경우

m ≥ 5

m < 5

m1 ≥ 5, m2 ≥ 5

(60)

♧ 검정 분류

• Z-test는 평균의 차이를 검사

One Sample Z

• 집단의 표준편차는 기지이고, 정규분포를 이루어 안정되어 있을 때 (일반적으로 흔히 평균이 표준편차의 변화 없이 이동함)

• 표본수가 30이상 (정규분포 정도가 우선)

Z-test

• t-test로 평균의 차이를 검사

One Sample t

• 30개 이하의 작은 시료사용

Two Sample t

• 집단의 표준편차는 미지

Paired t

• 모집단은 기본적으로 정규분포라고 가정

(모집단이 정규분포가 아닐 경우는 비모수 검정 방법을 사용)

t-test

(61)

♧ 검정 분류

• χ2-test는 표본집단이 모집단과의 분산의 차이를 검사

χ

2

-test

• 모집단의 표준편차를 알 때

χ

2

-test

• F-test는 두 집단간에 분산의 차이를 검정

Two Variance

• 데이터가 정규성을 가질 때 2가지 중 한가지 선택가능 - F-test ; 2개의 분포에 대하여 적용한다.

- Bartlett’s test ; 2개 이상의 분포에 적용한다.

• 데이터가 정규성이 않을 경우에는 Levene’s test를 적용한다.

- Levene’s test ; 2개 이상의 분포에 적용한다.

F-test

(62)

양측검정 (Two-tailed) (1) 모평균 μ에 대한 검정 (모 분산 σ2 旣知일 때)

(63)

좌측검정 (Left-tailed)

우측검정 (Right-tailed)

(64)
(65)

예제) 한 제약회사에서 생산하고 있는 기존의 진통제는 진통효과가 나타나는 시간이 평균이 30분, 표준편차가 5분인 것으로 알려져 있다.

새로운 진통제의 진통효과가 더 빠른가를 확인하기 위하여, 50명의 환자를 랜덤 추출하여 새로운 진통제에 의해 그 효과가 나타나는 시간을 관측한 결과 평균이 28.5분이었다. 새로운 진통제에 의한 진통효과가 나타나는 시간이 표준편차가 5분인 정규분포를 따른다고 하고 적절한 가설을 유의수준 5% 에서 검정하라.

H0 : μ= 30, H1 : μ< 30 유의수준 5%의 기각역

(66)

 통계학 > 기초통계학 > 1-표본 Z

• Mini TAB 분석 예

표본의 평균 모 표준편차

모 평균

(67)

1-표본 Z

mu = 30 대 < 30의 검정 가정된 표준 편차 = 5

N 평균 SE 평균 95% 상한 Z P 50 28.5000 0.7071 29.6631 -2.12 0.017

좌측검정

(68)

(1) 모평균 μ에 대한 검정 (모 분산 σ2 未知일 때)

(69)

예제) 전구를 생산하는 한 회사에서 현재 생산하는 전구의 평균 수명은 1,950시간으로 알려져 있다. 새로이 개발중인 전구의 평균수명 μ가 기존의 전구보다 수명이 더 길다고 할 수 있는가를 확인하기 위하여 9개의 시제품을 생산하여 그 수명

시간을 조사한 결과가 아래와 같다. 가설을 세우고 유의수준 5%로 검정을 하시오.

2000 1975 1900 2000 1950 1850 1950 2100 1975

(70)

 통계학 > 기초통계학 > 1-표본 t

• Mini TAB 분석 예

분석할 데이터 선택

모평균

(71)

1-표본 T: T-1-t

mu = 1950 대 > 1950의 검정

변수 N 평균 표준 편차 SE 평균 95% 하한 T P T-1-t 9 1966.67 69.60 23.20 1923.53 0.72 0.246

우측 검정

(72)

(3) 모 분산 σ 에 대한 검정

(73)

예제) 플라스틱판을 생산하는 한 공장에서는 생산되는 판 두께의 표준편차가 1.5mm를 초과해서 생산하면 공장에 이상이 있는 것으로 간주한다.

어느날 점검에서 10개의 판을 랜덤 추출하여 그 두께를 측정한 결과가 mm단위로 아래와 같이 주어졌다. 공정에 이상이 있는가를 유의수준 5%로 검정을 하라.

226 228 226 225 232 228 227 229 225 230

(74)

(4) 두 모평균 μ

1

2

에 대한 검정

( σ1 , σ2 ; 旣知 )

(75)
(76)

예제) “기계 A, B “로 만들어진 “두 개의 Lot”에서 각각 표본 10개씩을 Random하게 뽑아 내어 측정한 결과 아래와 같은 결과를 얻었다. 이때, 표준편차는 σA=0.03㎝, σB=0.02㎝ 란 것을 알고 있다. 기계 A로 제작된 것의 모평균이 기계 B로 제작한 것의 모평균보다 크다고 할 수 있겠는가를 검정하라. (단 유의수준 α=5% 이다.)

(77)

• Excel 분석 예

(78)

(4) 두 모평균 μ

1

2

에 대한 검정 ( σ

1 2

, σ

2 2

; 未知, σ

12

2 2

)

(79)
(80)

예제) 재료 A와 재료 B로 만든 각 화학제품의 강도를 측정하여 아래의 데이터를 얻었다.

A와 B의 모평균차가 있다고 할 수 있겠는가 (단, 모 분산은 같고, 유의수준 5% 검정)

(81)

• Excel 분석 예

(82)

분석할 데이터 입력

 통계학 > 기초통계학 > 2-표본 t

• Minitab 분석 예

분석할 데이터 선택

두 집단의 분산이 동일하다고 가정

(83)

2-표본 T 검정 및 CI: T-2-t-1, T-2-t-2 T-2-t-1 대 T-2-t-2의 두 표본 T

표준

N 평균 편차 SE 평균 T-2-t-1 10 74.81 2.17 0.69 T-2-t-2 8 70.79 2.55 0.90

차분 = mu (T-2-t-1) - mu (T-2-t-2) 차분 추정치: 4.02250

차분의 95% CI: (1.66643, 6.37857)

차이 = 0 의 T 검정 (대 not =): T-값 = 3.62 P-값 = 0.002 DF = 16 둘 다 합동 표준 편차 2.3430을(를) 사용합니다.

양측 구간

(84)

(4) 두 모평균 μ

1

2

에 대한 검정

( σ1 2 , σ2 2 ; 未知, σ12 ≠σ2 2 )

(85)
(86)

(4) 두 모평균 μ

1

2

에 대한 검정

( 짝 지워진 표본 )

(87)

예제) 열 처리의 전후에 변화가 있는 것 같아서 샘플을 취해 열처리 전에 한번 측정하고, 동일 샘플에 대해 열처리 후에 대응을 지어 측정한 결과 다음의 데이터가 얻어졌다.

열처리 전과 후의 평균치에 차가 있다고 할 수 있는가? (단 유의수준 α=5%이다.)

(88)
(89)

• Excel 분석 예

(90)

 통계학 > 기초통계학 > 쌍체 t

• Minitab 분석 예

분석할 데이터 선택

(91)

쌍체 T 검정 및 CI: T-P-t-1, T-P-t-2 T-P-t-1 - T-P-t-2에 대한 쌍체 T

N 평균 표준 편차 SE 평균 T-P-t-1 6 1.99000 0.03688 0.01506 T-P-t-2 6 2.00000 0.04000 0.01633 차분 6 -0.010000 0.035777 0.014606 평균 차분의 95% CI: (-0.047546, 0.027546)

평균 차분의 T 검정 = 0 (대 not = 0): T-값 = -0.68 P-값 = 0.524

양측 구간

(92)

(5) 두 모 분산 비 에 대한 검정

(93)
(94)

예제) 원료 A와 원료 B에 대한 설탕의 당도는 아래와 같다. 원료 A와 원료 B는 제품의 당도에 따른 산포에 차가 있다고 말할 수 있는가? (단, 유의수준 5%이다.)

(95)

• Excel 분석 예

(96)

 통계학 > 기초통계학 > 2 분산

• Minitab 분석 예

분석할 데이터 선택

(97)
(98)

등분산 검정: T-2-Vari-1, T-2-Vari-2 표준 편차의 95% Bonferroni 신뢰 구간

N 하한 표준 편차 상한 T-2-Vari-1 10 0.572290 0.874897 1.76174 T-2-Vari-2 9 0.511133 0.797566 1.70029 F-검정(정규 분포)

검정 통계량 = 1.20, P-값 = 0.805 Levene 검정(연속형 분포)

검정 통계량 = 0.23, P-값 = 0.636

(99)

(6) 모 비율 P 에 대한 검정

(100)

(101)

예제) 어떤 제조공정에서 과거 40주간에 걸친 검사결과 공정 부적합품률은 3.2%였다.

A사의 가공공구를 일부 사용하여 제작한 제품을 검사한 결과, 4일간에 제조된 210개의 제품 중에 11개의 부적합품이 나타났다.

A사의 가공공구를 사용함으로써 공정의 모 부적합품률이 증가했는가를 유의수준 α=0.05 로 검정하라.

(102)

 통계학 > 기초통계학 > 1 비율

• Mini TAB 분석 예

표본의 크기 표본의 불량

(103)

1 비율에 대한 검정 및 CI

p = 0.032 대 p > 0.032의 검정

표본 X N 표본 p 95% 하한 Z-값 P-값 1 11 210 0.052381 0.027093 1.68 0.047

우측 검정

정규분포에 근거한 신뢰구간

(104)

(7) 모 비율차 P1-P2 에 대한 검정

(105)

(106)

예제) 어떤 감광지 제조공장에서 농도가 다른 용액 A, B속에서의 변색 정도를 보기 위해서 감광지의 시험지를 연속 투입하여 실험한 결과 아래의 데이터를 얻었다.

용액의 농도 A, B 에 따라 불량 매수의 출현 비율 PA, PB 에 차가 있다고 할 수 있는지 알고 싶다. 유의수준 5%로 검정하라.

(107)
(108)

 통계학 > 기초통계학 > 2 분산

• Mini TAB 분석 예

표본의 부적합품 표본의 크기

(109)

2 비율에 대한 검정 및 CI 표본 X N 표본 p 1 72 1000 0.072000 2 28 800 0.035000 차분 = p (1) - p (2)

차분 추정치: 0.037

차분의 95% CI: (0.0165341, 0.0574659)

차분 검정 = 0 (대 not = 0): Z = 3.41 P-값 = 0.001

(110)

알고자 하는 집단 혹은 모집단에 대해서 확률분포 및 신뢰도를 적용하여 점 추정, 구간추정을 하는 방법을 연구함으로써 분포함수의 올바른

사용법을 학습함.

2.

가설검정 (Hypothesis testing)

어떤 모집단의 가설을 설정하고, 가설의 성립여부를 시료의 데이터로 판단하여 통계적인 판단을 내리는 방법을 익힘으로써 모집단에 대한 통계적 특성을 파악하는 능력과 분포함수의 올바른 사용법을 학습함.

참조

Outline

관련 문서

•모집단의 모수나 분포특성에 대한 정보가 없다고 가정을 하고, 표본자료를 이용하여 표본의 통계량(표본평균, 표본분산)을 산출 하여 이들의 표본분포를 이용하여

공유결합보다는 약한 이러한 이끌림을 수소결합(hydrogen bond)이라고 한다.. 물 이외에도 다양한 종류의 극성화합물이 존재하며 여기에는 극성 유기화합물이

 Discount Sounds 가 새로운 대리점 후보지 평가를 하기 위해 그 지역 거주자의 평균 연소득을 고려 한다.. 표 본규모는

변환의 기하학을 쉽고 재미있게 소개하는 교육과정의 일부분이 되고 있다. 또한, 이러한 테셀레이 션 활동은 예술적 창조와 기하학적 탐구를 가능하게 한다.. 그는

특히 극한 수문사상에 대한 추정 한계치나 대소 수공구조물 의 설계빈도를 결정하기 위해서는 이러한 공학적 판단과 함께 내용년한을 초과 하지 않는

• 마케터들은 소비자의 대안평가 과정을 이해하고 이러한 과정에 영향을 끼치기 위해서

③ 한 이동통신회사의 통계자료에 의하면 과거 고객들의 평균 통화시간은 2분 30초였다. 그런데 이 통신회사는 통화요금을 인하하면 고객들의 평균 통화시 간이

정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기 가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유 의성을 검정.. 서로