추정과검정의개념추정과검정의개념

(1)

추정과 검정의 개념

(2)

자료분석은 추정 _估计 과 검정 _试验 의 과정

예 > A 제품

产品

의 남녀간에 만족도

满意度

가 다른 것 같다

• 만족도 조사

• 남녀만족도 요약

^摘要

• 남녀 두 집단의 ( 만족도 ) 차이

区别

를 추정 하고

• 그 차이가 유의한지를

具有统计意义

검정 한다

(3)

추정

Estimation

• 종류

• 점추정과 구간추정

• 점추정 (

点估计

point estimation)

• 표본의 평균은 样本平均值 180 이다

• 남녀 만족도의 차이는 0.7 이다

• 구간추정 (

^区间估计

interval estimation)

• 모집단의 평균은 180±30 구간에 있다

• 남녀만족도의 차이는 0.7±0.4 구간에 있 다

(4)

구간추정에 사용되는 용어

• 신뢰도 (

置信度

confidence level)

• 100% 확신하는 구간을 설정하는 것은 무의미

• 추정이 어느정도 틀릴 각오를 해야함

• 틀릴확률 = 유의수준 =1- 신뢰도

• 주로 사용하는 것이 95% 신뢰수준 ( 신뢰도 )

• 표본오차

样本错误

• 표본은 전수조사整个调查 가 아니므로 당연히 오차 가 존재

• 신뢰구간置信区间 의 구간너비를 표본오차라 명함

• “ 본 조사는… 95% 신뢰수준에서 표본오차는 ± 3% 입니다”

(5)

가설 假设

hypothesis

• 검정 ( 试验 test) 은 가설검정이 원어

^全名

• 설 ? 设

• 백과사전 ) 구체적인 사물에 관하여 자기의 의견을 서술하면서 , 사리를 설명하여 나가는 문장

• 가설 ?

• 모수参数에 대한 주장 断言

• 변수变数들의 관계关系를 규정确定한 문장句子

• 가설검정

• 추정값을 통해 모수의 값에 대한 판단判决

• 변수에 관한 주장断言에 대한 판단

(6)

가설검정 假設檢定 최종

판단의 형태는

• 주장을 상이

^不同

한 두개로 분리

^分割

• 둘 중에 하나를 선택

选择

• 예 >

• 남녀간 차이가 없다

• 남녀간 차이가 있다

• 결론

• 기각 or 채택

• reject or accept

• 拒绝 or 接受

(7)

가설의 표현방법

귀무가설 H₀ 대립가설 H₁

대립가설이 채택되면 새로 운 사실이 입증되는 실험의 성과를 보는 경우가 대부분

•기존의 사실

•실험전에 인정하는 보수적 주장

•차이없다 , 효과없다 , 0 이다 •차이있다 , 효과있다 , 0 이 아니다

•입증하고자하는 사 실

•적극적 주장

귀무가설이 채택되면 새로 운 사실이 입증되는 것이 없 어 도로 무로 돌아간다는 표 현

(8)

판단의

중심 重心 은

?

• 귀무가설

零假设回无

• 보수

^保守

적으로 귀무가설이 옳다 고 보고

• 이에서 많이 벗어나야 대립가설

备选假设

이 맞다라고 본다

• 결론

• 귀무가설 채택

接受

• 귀무가설 기각

拒绝

• 귀무가설 채택시 표현

表达

• 귀무가설을 기각할 만한 충분

^充

足

한 증거

证据

를 찾지 못하였다

(9)

예제 例子

• 대학생大学生의 IQ 가 일반인^普通人 IQ(105) 보다 높은지 알고싶다

• 대학생 집단组에서 50 명을 뽑아 IQ 검사检查

• 표본평균样本平均이 107 이 나왔다

• 당신의 선택选择은 ?

– H₀: 평균이 105 이다

– H₁: 평균이 105 보다 크다^伟大 ( 단측 ^一面 ^单侧검 정 )

또는

– H₁: 평균이 105 가 아니다 ( 양측 ^双侧 검정 )

• 일반적인 가설 형태

• 단측검정보다 기각하는 경우가 적어지므로 공인认证된 실 험实验에서는 주로 양측검정 사용

(10)

무얼

중심 心脏 으로 생각한다고 ??

H

₀

가 사실일 때

当 H0 为真时

표본평균의 분포를 먼저 그린 다

首先绘制样本均值的分布

105 106 107

H

₁

많이 벗어나야 H

₀

이 아니라고

생각

(11)

H ⁰ 은 아니다 의 기준 ^基准 ? 기각역

拒絕域

• 기각역을 구하려면 아래의 분포를 알아야 한다

• Z 분포 , T 분포

105 106 107

H

₁

기각역

(12)

유의수준 ?

显著性水平 (α)

• H

0

가 사실

真实

일 때 기각역에 속 할

属于

가능성이 작지만 존재

^有可能

• 그 가능성을 유의수준 (significan ce level)

• 주로 5%, 1%

105 106 107

H

₁

5% 기각역

拒絕域

유의수준=5%

(13)

유의확률 p-value

• 107 이상 되는 확률 ( 유의확률 ) 을 구 해서 유의수준과 비교

• 아래서 107 이상일 확률이 3% 라면…

• 5% 기가역 안에 포함

• 귀무가설 H⁰ 기각

105 106 107

률 3%유의확

(14)

유의 확률 ?

• 일명 p- 값

^p- 值

= Pr(result |H

₀

is true)

• 이 값이 작다면 H

₀

이 사실이 아님

• SPSS 출력결과에 모두 유의확률만 표시

• 예 > 유의확률 =0.03

• 5% 보다 작으므로 귀무가설 기각

• 1% 보다 크니까 귀무가설 채택

(15)

요약

• 选择一个显著性水平 (α) ，若低于这个概率阈值，就會拒绝零假设。最常用的是 5% 和 1%

• 计算 p 值

• 将此值与显着性水平进行比较

• 如果 p 值小，则拒绝零假设

• 如果零假被拒设绝结论是有区别的

(16)

평균 비교

Keywords

t 검정 독립표본 ,

쌍체비교 F 검정

(17)

모집단 평균에 관한 검정

• 모집단이 하나일 때

• A 집단의 만족도가 4 이상

이라고 할 수 있는지

• 모집단이 두개 일 때

• 남녀간에 평균차이가 있는지

• 광고를 보기전과 후에 태도 ( 평균 ) 가 변화가 있는지

• 모집단이 3 개 이상일 때

• 상중하 그룹간에 평균차이가 있는지

(18)

독립표본 t 검정

• 두 집단의 평균의 차이를 비교한다

• 두 집단은 독립적이어야 한다

• 예 > 남자집단 대 여자집단

• 예 > 광고를 보기 전과 보고난 후

• 두 집단으로 나누어 한 집단에는 광고를 보여주지 않고 나머지 집단은 광고를 보여 준 경우 ( 독립표본 )

• 광고를 보여주기 전에 측정하고 다시 광고를 보여준 다음에 측정 ( 쌍체비교 )

(19)

예제

• J 기업의 광고매체와 유통경로 에 따른 매출액 자료

연구주제

• 광고매체에 따른 매출액 평균이

다르다고 할 수 있나 ? 가설

• H

₀

:

두 집단의 평균이 같다

• H

₁

:

두 집단의 평균이 다르다

(20)

SPSS 에 의한 검정

유의확률이

0.05 보다 크므로 두 평균간에

차이가 없다

(21)

일원배치 분산분석 ( 여러평균의 비교 )

• 세개 이상의 평균을 비교

• 평균이 모두 같다고 할 수 있는지 판단

• 평균이 모두 같지는 않다면 다른 쌍이 있다는 의미

• 검정은 F 검정

• 왜냐면 검정통계량이 F 분포를 따르므로

• 분산을 이용한다는 의미로 분산분석

• 그룹을 나누는 기준이 하나라는 의미로 일원

• 예 > 유통망 기준에 의한 매출액 평균 비교

(22)

예제 ( 계속 )

• J 기업의 광고매체와 유통경로에 따른 매출액 자료

연구주제

• 유통경로 (3 가지 ) 에 따른 매출액

평균이 다르다고 할 수 있나 ? 가설

• H

₀

:

세 집단의 평균이 같다

• H

₁

:

세 집단의 평균이 모두 같지 는 않다

(23)

SPSS 에 의한 검정

유의확률이

0.05 보다 작으므로 세 평균간에

차이가 있다

(24)

예제 ( 일원배치 )

대리점 충청지역 강원지역 서울지역

1 75 71 90

2 87 100 100

3 83 47 92

4 45 62 72

5 95 90 101

6 89 72 98

7 74 65 95

8 110 78 130

9 75 55 94

10 84 96 120

(25)

자료의 입력

(26)

출력결과

 가설

Ho : 평균이 모두 같다

 유의확률

p- 값 : 0.007 <- 매우 작은 값

 결론

Ho 기각 => 평균이 모두 같지는 않다

(27)

차이가 있다면 어디서 차이 ?( 사후분석 )

옵션 : 기술통계

사후분석 : Duncan

(28)

평균이 다르다는데 어떤 것들이 다를까 ?

• 사후분석 ( 던컨의 방법 )

• 같은 부집단에 포함된 그룹은 평균이 같은 것으로 판단

• 그러므로 강원과 충청은 같고 서울은 다른 것으로 추정

(29)

교차분석

(30)

설문 예

• 교재 230 쪽

scale 문항 내 용

명목 1 귀하의 성별은 무엇입니까 ? ① 남자 ② 여자

명목 2

귀하가 점심시간에 주로 이용하는 음식점은 ?

① 구내식당 ② 회사주변식당 ( 도보거리 )

③ 회사근거리식당 ( 차량이동 ) ④ 편의점 ⑤ 기타 ( )

척도

( 구간 ) 3

귀하는 점심시간에 음식점을 선택할 때 ‘맛’에 대하여 어느 정도 중요 하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다

④ 중요하다 ⑤ 매우 중요하다

척도

( 구간 ) 4

귀하는 점심시간에 음식점을 선택할 때 ‘가격’에 대하여 어느 정도 중 요하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다

④ 중요하다 ⑤ 매우 중요하다

(31)

변수의 척도에 따른 분석 법

• 1-2 의 분석

• “ 남녀 ( 명목척도 ) 간에 이용하는 음식점 ( 명목척도 ) 이 다른 지 를 비교하려면 {” 명목 : 명목 } 이므로 교차분석 을 사용

• 1-3 의 분석

• “ 남녀 ( 명목척도 ) 간에 선택시 맛 중요도 ( 계량척도 ) 가 다른 지 를 비교하려면 {” 명목 : 계량 } 이므로 평균비교 를 사용

• 2-4 의 분석

• “ 이용하는 음식점 ( 명목척도 ) 에 따라 가격 중요도 ( 계량척 도 ) 가 다른지 를 비교하려면 {” 명목 : 계량 } 이므로 평균비교

• 3-4 의 분석

• 맛을 중요하게 생각하는 사람은 가격에 대한 중요도가 덜할까” 분석하려면 { 계량 : 계량 } 이므로 상관분석 을 사용

(32)

어떤 자료에 교차분석을 ?

• 명목변수들간의 관계

• 가로 : 성별

• 세로 : 선호특성

• 가설은 ?

• 관계없다 vs. 관계있다

(33)

우선

교차표를 자세히…

• 성별로 비율 (percent) 을 구하여 보면

• 비율의 균형을 파악

성별

선택 남 여

디자인 20(33%) 30(75%) 가격 40(67%) 10(25%) 합계 60(100

%) 40(100

%)

(34)

차이가

나긴 나는데 어떻게 판단 하지…

• 차이가 없다면 원래 자료의 모양은

?

• 수학적 판단의 기준은 ?

성별

선택 남 여

디자인 20(33%) 30(75%) 가격 40(67%) 10(25%) 합계 60(100

%) 40(100

%)

(35)

주변확률을 계산해보면

• Pr( 남자 )=60/100

• Pr( 디자인 )=50/100

• 독립일 때 Pr( 남자이고 디자인 )=Pr( 남자 ) x pr( 디자인 )=30/100

• 현재 자료는 Pr( 남자이고 디자인 )=20/100

• 독립가정과 현재 자료의 차이가 존재 성별

선택 남 여 합계

디자인 20 30 50

가격 40 10 50

합계 60 40 100

(36)

원래자료와

독립일 때 자료를

비교하면

^{• 원자료}⁽괄호안은 독립일 때 기대값 )

성별

선택 남 여 합계

디자인 20(30) 30(20

) 50

가격 40(30) 10(20

) 50

합계 60 40 100

(37)

아이디어 !!!

• 원자료와 ( 독립일 때 기대값 )

• 이 두값의 차이가 크면

• 독립이 아닌거다

성별

선택 남 여

디자인 20 (30) 30 (20)

가격 40 (30) 10 (20)

(38)

그래서

다음을 계산

• (20-30)

²

+(30-20)

²

+(40-30)

²

+ (10-20)

²

• 이 값이 크면 독립이 아니다

성별

선택 남 여

디자인 20 (30) 30 (20)

가격 40 (30) 10 (20)

(39)

교차표와 수식의

일반화

• Oij=(i,j) 셀의 관측도수 , Eij=(i,j) 셀의 기대도수 B

A B1 B2

A1 O

₁₁

(E

₁₁

) O

₁₂

(E

₁₂

) A2 O

₂₁

(E

₂₁

) O

₂₂

(E

₂₂

)

7 . 20 16

) 20 30

( 20

) 20 10

( 30

) 30 20

( 30

) 30 40

) (

(

² ² ² ² ²

2

 

 

 

  

j ij

ij ij

i

E

 O

(40)

검정통계 량의 분포

자유도가 (I-1)(J-1) 인 카이제곱 분포 )) 1 )(

1 ((

) ~

(

² ₂

2

  

   Ô _E Ê Î ^J

j ij

ij ij

i



0 0.1 0.2 0.3 0.4

0 2 4 6

(41)

그러나…

복잡한

분포대신 • 유의확률만 알면… .

•유의확률 <0.05

=> 관계있다 . 차이있다

(42)

SPSS 연습

• 교차분석 _ 음식점 .sav

(43)

(44)

(45)

출력결과

결론 : 유의수준 5% 에서 귀무가설 기각

귀무가설 : 성별에 따라 선호 하는 식당에 차이가 없다

추정과검정의개념추정과검정의개념