• 검색 결과가 없습니다.

추정과검정의개념추정과검정의개념

N/A
N/A
Protected

Academic year: 2022

Share "추정과검정의개념추정과검정의개념"

Copied!
45
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

추정과 검정의 개념

(2)

자료분석은 추정 估计 과 검정 试验 의 과정

예 > A 제품

产品

의 남녀간에 만족도

满意度

가 다른 것 같다

• 만족도 조사

• 남녀만족도 요약

摘要

• 남녀 두 집단의 ( 만족도 ) 차이

区别

를 추정 하고

• 그 차이가 유의한지를

具有统 计意义

검정 한다

(3)

추정

Estimation

• 종류

• 점추정과 구간추정

• 점추정 (

点估计

point estimation)

• 표본의 평균은 样本平均值 180 이다

• 남녀 만족도의 차이는 0.7 이다

• 구간추정 (

区间估计

interval estimation)

• 모집단의 평균은 180±30 구간에 있다

• 남녀만족도의 차이는 0.7±0.4 구간에 있 다

(4)

구간추정에 사용되는 용어

• 신뢰도 (

置信度

confidence level)

• 100% 확신하는 구간을 설정하는 것은 무의미

• 추정이 어느정도 틀릴 각오를 해야함

• 틀릴확률 = 유의수준 =1- 신뢰도

• 주로 사용하는 것이 95% 신뢰수준 ( 신뢰도 )

• 표본오차

样本错误

• 표본은 전수조사整个调查 가 아니므로 당연히 오차 가 존재

• 신뢰구간置信区间 의 구간너비를 표본오차라 명함

• “ 본 조사는… 95% 신뢰수준에서 표본오차는 ± 3% 입니다”

(5)

가설 假设

hypothesis

• 검정 ( 试验 test) 은 가설검정이 원어

全名

• 설 ? 设

• 백과사전 ) 구체적인 사물에 관하여 자기의 의견을 서술하면서 , 사리를 설명하여 나가는 문장

• 가설 ?

• 모수参数에 대한 주장 断言

• 변수变数들의 관계关系를 규정确定한 문장句子

• 가설검정

• 추정값을 통해 모수의 값에 대한 판단判决

• 변수에 관한 주장断言에 대한 판단

(6)

가설검정 假設檢定 최종

판단의 형태는

• 주장을 상이

不同

한 두개로 분리

分割

• 둘 중에 하나를 선택

选择

• 예 >

• 남녀간 차이가 없다

• 남녀간 차이가 있다

• 결론

• 기각 or 채택

• reject or accept

• 拒绝 or 接受

(7)

가설의 표현방법

귀무가설 H0 대립가설 , 연구가설

H1

대립가설이 채택되면 새로 운 사실이 입증되는 실험의 성과를 보는 경우가 대부분

기존의 사실

실험전에 인정하는 보수적 주장

차이없다 , 효과없다 , 0 이다 차이있다 , 효과있다 , 0 이 아니다

입증하고자하는 사

•적극적 주장

귀무가설이 채택되면 새로 운 사실이 입증되는 것이 없 어 도로 무로 돌아간다는 표

(8)

판단의

중심 重心 은

?

• 귀무가설

零假设 回无

• 보수

保守

적으로 귀무가설이 옳다 고 보고

• 이에서 많이 벗어나야 대립가설

备选假设

이 맞다라고 본다

• 결론

• 귀무가설 채택

接受

• 귀무가설 기각

拒绝

• 귀무가설 채택시 표현

表达

• 귀무가설을 기각할 만한 충분

한 증거

证据

를 찾지 못하였다

(9)

예제 例子

• 대학생大学生의 IQ 가 일반인普通人 IQ(105) 보다 높은지 알고싶다

대학생 집단에서 50 명을 뽑아 IQ 검사检查

• 표본평균样本平均이 107 이 나왔다

당신의 선택选择은 ?

– H0: 평균이 105 이다

– H1: 평균이 105 보다 크다伟大 ( 단측 一面 单侧 검 정 )

또는

– H1: 평균이 105 가 아니다 ( 양측 双侧 검정 )

일반적인 가설 형태

단측검정보다 기각하는 경우가 적어지므로 공인认证된 실 험实验에서는 주로 양측검정 사용

(10)

무얼

중심 心 脏 으로 생각한다고 ??

H

0

가 사실일 때

当 H0 为真时

표본평균의 분포를 먼저 그린 다

首先绘制样本均值的分布

105 106 107

H

1

많이 벗어나야 H

0

이 아니라고

생각

(11)

H 0 은 아니다 의 기준 基准 ? 기각역

拒絕域

• 기각역을 구하려면 아래의 분포를 알아야 한다

• Z 분포 , T 분포

105 106 107

H

1

기각역

(12)

유의수준 ?

显著性水平 (α)

• H

0

가 사실

真实

일 때 기각역에 속 할

属于

가능성이 작지만 존재

有可能

• 그 가능성을 유의수준 (significan ce level)

• 주로 5%, 1%

105 106 107

H

1

5% 기각역

拒絕域

유의수준=5%

(13)

유의확률 p-value

• 107 이상 되는 확률 ( 유의확률 ) 을 구 해서 유의수준과 비교

• 아래서 107 이상일 확률이 3% 라면…

• 5% 기가역 안에 포함

• 귀무가설 H0 기각

105 106 107

률 3%유의확

(14)

유의 확률 ?

• 일명 p- 값

p-

= Pr(result |H

0

is true)

• 이 값이 작다면 H

0

이 사실이 아님

• SPSS 출력결과에 모두 유의확률만 표시

• 예 > 유의확률 =0.03

• 5% 보다 작으므로 귀무가설 기각

• 1% 보다 크니까 귀무가설 채택

(15)

요약

유의수준 (α) 을 선택합니다 . 유의수준은 귀무가설하에서 귀무가설을 기각할 확률입니다 . 가장 일반적으로 사용되는 것은 5%와 1% 입니다 .

• p 값 계산

이 값을 유의 수준과 비교

• p- 값이 작으면 귀무가설을 기각합니다 .

귀무가설이 기각되면 유의한 차이가 존재합니다 .

选择一个显著性水平 (α) ,若低于这个概率阈值,就會拒绝零假设。最常用 的是 5% 和 1%

计算 p 值

将此值与显着性水平进行比较

• 如果 p 值小,则拒绝零假设

如果零假 被拒 绝 结论是有区别

(16)

평균 비교

Keywords

t 검정 독립표본 ,

쌍체비교 F 검정

(17)

모집단 평균에 관한 검정

• 모집단이 하나일 때

• A 집단의 만족도가 4 이상

이라고 할 수 있는지

• 모집단이 두개 일 때

• 남녀간에 평균차이가 있는지

• 광고를 보기전과 후에 태도 ( 평균 ) 가 변화가 있는지

• 모집단이 3 개 이상일 때

• 상중하 그룹간에 평균차이가 있는지

(18)

독립표본 t 검정

• 두 집단의 평균의 차이를 비교한다

• 두 집단은 독립적이어야 한다

• 예 > 남자집단 대 여자집단

• 예 > 광고를 보기 전과 보고난 후

두 집단으로 나누어 한 집단에는 광고를 보여주지 않고 나머지 집단은 광고를 보여 준 경우 ( 독립표본 )

광고를 보여주기 전에 측정하고 다시 광고를 보여준 다음에 측정 ( 쌍체비교 )

(19)

예제

• J 기업의 광고매체와 유통경로 에 따른 매출액 자료

연구주제

• 광고매체에 따른 매출액 평균이

다르다고 할 수 있나 ? 가설

• H

0

:

두 집단의 평균이 같다

• H

1

:

두 집단의 평균이 다르다

(20)

SPSS 에 의한 검정

유의확률이

0.05 보다 크므로 두 평균간에

차이가 없다

(21)

일원배치 분산분석 ( 여러평균의 비교 )

• 세개 이상의 평균을 비교

• 평균이 모두 같다고 할 수 있는지 판단

평균이 모두 같지는 않다면 다른 쌍이 있다는 의미

• 검정은 F 검정

왜냐면 검정통계량이 F 분포를 따르므로

• 분산을 이용한다는 의미로 분산분석

• 그룹을 나누는 기준이 하나라는 의미로 일원

• 예 > 유통망 기준에 의한 매출액 평균 비교

(22)

예제 ( 계속 )

• J 기업의 광고매체와 유통경로에 따른 매출액 자료

연구주제

• 유통경로 (3 가지 ) 에 따른 매출액

평균이 다르다고 할 수 있나 ? 가설

• H

0

:

세 집단의 평균이 같다

• H

1

:

세 집단의 평균이 모두 같지 는 않다

(23)

SPSS 에 의한 검정

유의확률이

0.05 보다 작으므로 세 평균간에

차이가 있다

(24)

예제 ( 일원배치 )

대리점 충청지역 강원지역 서울지역

1 75 71 90

2 87 100 100

3 83 47 92

4 45 62 72

5 95 90 101

6 89 72 98

7 74 65 95

8 110 78 130

9 75 55 94

10 84 96 120

(25)

자료의 입력

(26)

출력결과

가설

Ho : 평균이 모두 같다

유의확률

p- 값 : 0.007 <- 매우 작은 값

결론

Ho 기각 => 평균이 모두 같지는 않다

(27)

차이가 있다면 어디서 차이 ?( 사후분석 )

옵션 : 기술통계

사후분석 : Duncan

(28)

평균이 다르다는데 어떤 것들이 다를까 ?

• 사후분석 ( 던컨의 방법 )

• 같은 부집단에 포함된 그룹은 평균이 같은 것으로 판단

• 그러므로 강원과 충청은 같고 서울은 다른 것으로 추정

(29)

교차분석

(30)

설문 예

• 교재 230 쪽

scale 문항 내 용

명목 1 귀하의 성별은 무엇입니까 ? ① 남자 ② 여자

명목 2

귀하가 점심시간에 주로 이용하는 음식점은 ?

① 구내식당 ② 회사주변식당 ( 도보거리 )

③ 회사근거리식당 ( 차량이동 ) ④ 편의점 ⑤ 기타 ( )

척도

( 구간 ) 3

귀하는 점심시간에 음식점을 선택할 때 ‘맛’에 대하여 어느 정도 중요 하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다

④ 중요하다 ⑤ 매우 중요하다

척도

( 구간 ) 4

귀하는 점심시간에 음식점을 선택할 때 ‘가격’에 대하여 어느 정도 중 요하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다

④ 중요하다 ⑤ 매우 중요하다

(31)

변수의 척도에 따른 분석 법

• 1-2 의 분석

• “ 남녀 ( 명목척도 ) 간에 이용하는 음식점 ( 명목척도 ) 이 다른 지 를 비교하려면 {” 명목 : 명목 } 이므로 교차분석 을 사용

• 1-3 의 분석

• “ 남녀 ( 명목척도 ) 간에 선택시 맛 중요도 ( 계량척도 ) 가 다른 지 를 비교하려면 {” 명목 : 계량 } 이므로 평균비교 를 사용

• 2-4 의 분석

• “ 이용하는 음식점 ( 명목척도 ) 에 따라 가격 중요도 ( 계량척 도 ) 가 다른지 를 비교하려면 {” 명목 : 계량 } 이므로 평균비교

• 3-4 의 분석

• 맛을 중요하게 생각하는 사람은 가격에 대한 중요도가 덜할까” 분석하려면 { 계량 : 계량 } 이므로 상관분석 을 사용

(32)

어떤 자료에 교차분석을 ?

• 명목변수들간의 관계

• 가로 : 성별

• 세로 : 선호특성

• 가설은 ?

관계없다 vs. 관계있다

(33)

우선

교차표를 자세히…

• 성별로 비율 (percent) 을 구하여 보면

• 비율의 균형을 파악

성별

선택 남 여

디자인 20(33%) 30(75%) 가격 40(67%) 10(25%) 합계 60(100

%) 40(100

%)

(34)

차이가

나긴 나는데 어떻게 판단 하지…

• 차이가 없다면 원래 자료의 모양은

?

• 수학적 판단의 기준은 ?

성별

선택 남 여

디자인 20(33%) 30(75%) 가격 40(67%) 10(25%) 합계 60(100

%) 40(100

%)

(35)

주변확률을 계산해보면

• Pr( 남자 )=60/100

• Pr( 디자인 )=50/100

• 독립일 때 Pr( 남자이고 디자인 )=Pr( 남자 ) x pr( 디자인 )=30/100

• 현재 자료는 Pr( 남자이고 디자인 )=20/100

• 독립가정과 현재 자료의 차이가 존재 성별

선택 남 여 합계

디자인 20 30 50

가격 40 10 50

합계 60 40 100

(36)

원래자료와

독립일 때 자료를

비교하면

• 원자료(괄호안은 독립일 때 기대값 )

성별

선택 남 여 합계

디자인 20(30) 30(20

) 50

가격 40(30) 10(20

) 50

합계 60 40 100

(37)

아이디어 !!!

• 원자료와 ( 독립일 때 기대값 )

• 이 두값의 차이가 크면

• 독립이 아닌거다

성별

선택 남 여

디자인 20 (30) 30 (20)

가격 40 (30) 10 (20)

(38)

그래서

다음을 계산

• (20-30)

2

+(30-20)

2

+(40-30)

2

+ (10-20)

2

• 이 값이 크면 독립이 아니다

성별

선택 남 여

디자인 20 (30) 30 (20)

가격 40 (30) 10 (20)

(39)

교차표와 수식의

일반화

• Oij=(i,j) 셀의 관측도수 , Eij=(i,j) 셀의 기대도수 B

A B1 B2

A1 O

11

(E

11

) O

12

(E

12

) A2 O

21

(E

21

) O

22

(E

22

)

7 . 20 16

) 20 30

( 20

) 20 10

( 30

) 30 20

( 30

) 30 40

) (

(

2 2 2 2 2

2

 

 

 

 

 

  

j ij

ij ij

i

E

E

O

(40)

검정통계 량의 분포

자유도가 (I-1)(J-1) 인 카이제곱 분포 )) 1 )(

1 ((

) ~

(

2 2

2

  

   O E E I J

j ij

ij ij

i

0 0.1 0.2 0.3 0.4

0 2 4 6

(41)

그러나…

복잡한

분포대신 • 유의확률만 알면… .

•유의확률 <0.05

=> 관계있다 . 차이있다

(42)

SPSS 연습

• 교차분석 _ 음식점 .sav

(43)
(44)
(45)

출력결과

결론 : 유의수준 5% 에서 귀무가설 기각

귀무가설 : 성별에 따라 선호 하는 식당에 차이가 없다

참조

관련 문서