추정과 검정의 개념
자료분석은 추정 估计 과 검정 试验 의 과정
예 > A 제품
产品의 남녀간에 만족도
满意度가 다른 것 같다
• 만족도 조사
• 남녀만족도 요약
摘要• 남녀 두 집단의 ( 만족도 ) 차이
区别를 추정 하고
• 그 차이가 유의한지를
具有统 计意义검정 한다
추정
Estimation
• 종류
• 점추정과 구간추정
• 점추정 (
点估计point estimation)
• 표본의 평균은 样本平均值 180 이다
• 남녀 만족도의 차이는 0.7 이다
• 구간추정 (
区间估计interval estimation)
• 모집단의 평균은 180±30 구간에 있다
• 남녀만족도의 차이는 0.7±0.4 구간에 있 다
구간추정에 사용되는 용어
• 신뢰도 (
置信度confidence level)
• 100% 확신하는 구간을 설정하는 것은 무의미
• 추정이 어느정도 틀릴 각오를 해야함
• 틀릴확률 = 유의수준 =1- 신뢰도
• 주로 사용하는 것이 95% 신뢰수준 ( 신뢰도 )
• 표본오차
样本错误• 표본은 전수조사整个调查 가 아니므로 당연히 오차 가 존재
• 신뢰구간置信区间 의 구간너비를 표본오차라 명함
• “ 본 조사는… 95% 신뢰수준에서 표본오차는 ± 3% 입니다”
가설 假设
hypothesis
• 검정 ( 试验 test) 은 가설검정이 원어
全名• 설 ? 设
• 백과사전 ) 구체적인 사물에 관하여 자기의 의견을 서술하면서 , 사리를 설명하여 나가는 문장
• 가설 ?
• 모수参数에 대한 주장 断言
• 변수变数들의 관계关系를 규정确定한 문장句子
• 가설검정
• 추정값을 통해 모수의 값에 대한 판단判决
• 변수에 관한 주장断言에 대한 판단
가설검정 假設檢定 최종
판단의 형태는
• 주장을 상이
不同한 두개로 분리
分割• 둘 중에 하나를 선택
选择• 예 >
• 남녀간 차이가 없다
• 남녀간 차이가 있다
• 결론
• 기각 or 채택
• reject or accept
• 拒绝 or 接受
가설의 표현방법
귀무가설 H0 대립가설 H1
대립가설이 채택되면 새로 운 사실이 입증되는 실험의 성과를 보는 경우가 대부분
•기존의 사실
•실험전에 인정하는 보수적 주장
•차이없다 , 효과없다 , 0 이다 •차이있다 , 효과있다 , 0 이 아니다
•입증하고자하는 사 실
•적극적 주장
귀무가설이 채택되면 새로 운 사실이 입증되는 것이 없 어 도로 무로 돌아간다는 표 현
판단의
중심 重心 은
?
• 귀무가설
零假设 回无• 보수
保守적으로 귀무가설이 옳다 고 보고
• 이에서 많이 벗어나야 대립가설
备选假设
이 맞다라고 본다
• 결론
• 귀무가설 채택
接受• 귀무가설 기각
拒绝• 귀무가설 채택시 표현
表达• 귀무가설을 기각할 만한 충분
充足
한 증거
证据를 찾지 못하였다
예제 例子
• 대학생大学生의 IQ 가 일반인普通人 IQ(105) 보다 높은지 알고싶다
• 대학생 집단组에서 50 명을 뽑아 IQ 검사检查
• 표본평균样本平均이 107 이 나왔다
• 당신의 선택选择은 ?
– H0: 평균이 105 이다
– H1: 평균이 105 보다 크다伟大 ( 단측 一面 单侧 검 정 )
또는
– H1: 평균이 105 가 아니다 ( 양측 双侧 검정 )
• 일반적인 가설 형태
• 단측검정보다 기각하는 경우가 적어지므로 공인认证된 실 험实验에서는 주로 양측검정 사용
무얼
중심 心 脏 으로 생각한다고 ??
H
0가 사실일 때
当 H0 为真时
표본평균의 분포를 먼저 그린 다
首先绘制样本均值的分布
105 106 107
H
1많이 벗어나야 H
0이 아니라고
생각
H 0 은 아니다 의 기준 基准 ? 기각역
拒絕域
• 기각역을 구하려면 아래의 분포를 알아야 한다
• Z 분포 , T 분포
105 106 107
H
1기각역
유의수준 ?
显著性水平 (α)
• H
0가 사실
真实일 때 기각역에 속 할
属于가능성이 작지만 존재
有可能• 그 가능성을 유의수준 (significan ce level)
• 주로 5%, 1%
105 106 107
H
15% 기각역
拒絕域
유의수준=5%
유의확률 p-value
• 107 이상 되는 확률 ( 유의확률 ) 을 구 해서 유의수준과 비교
• 아래서 107 이상일 확률이 3% 라면…
• 5% 기가역 안에 포함
• 귀무가설 H0 기각
105 106 107
률 3%유의확
유의 확률 ?
• 일명 p- 값
p- 值= Pr(result |H
0is true)
• 이 값이 작다면 H
0이 사실이 아님
• SPSS 출력결과에 모두 유의확률만 표시
• 예 > 유의확률 =0.03
• 5% 보다 작으므로 귀무가설 기각
• 1% 보다 크니까 귀무가설 채택
요약
• 选择一个显著性水平 (α) ,若低于这个概率阈值,就會拒绝零假 设。最常用的是 5% 和 1%
• 计算 p 值
• 将此值与显着性水平进行比较
• 如果 p 值小,则拒绝零假设
• 如果零假 被拒设 绝 结论是有区别的
평균 비교
Keywords
t 검정 독립표본 ,
쌍체비교 F 검정
모집단 평균에 관한 검정
• 모집단이 하나일 때
• A 집단의 만족도가 4 이상
이라고 할 수 있는지
• 모집단이 두개 일 때
• 남녀간에 평균차이가 있는지
• 광고를 보기전과 후에 태도 ( 평균 ) 가 변화가 있는지
• 모집단이 3 개 이상일 때
• 상중하 그룹간에 평균차이가 있는지
독립표본 t 검정
• 두 집단의 평균의 차이를 비교한다
• 두 집단은 독립적이어야 한다
• 예 > 남자집단 대 여자집단
• 예 > 광고를 보기 전과 보고난 후
• 두 집단으로 나누어 한 집단에는 광고를 보여주지 않고 나머지 집단은 광고를 보여 준 경우 ( 독립표본 )
• 광고를 보여주기 전에 측정하고 다시 광고를 보여준 다음에 측정 ( 쌍체비교 )
예제
• J 기업의 광고매체와 유통경로 에 따른 매출액 자료
연구주제
• 광고매체에 따른 매출액 평균이
다르다고 할 수 있나 ? 가설
• H
0:
두 집단의 평균이 같다• H
1:
두 집단의 평균이 다르다SPSS 에 의한 검정
유의확률이
0.05 보다 크므로 두 평균간에
차이가 없다
일원배치 분산분석 ( 여러평균의 비교 )
• 세개 이상의 평균을 비교
• 평균이 모두 같다고 할 수 있는지 판단
• 평균이 모두 같지는 않다면 다른 쌍이 있다는 의미
• 검정은 F 검정
• 왜냐면 검정통계량이 F 분포를 따르므로
• 분산을 이용한다는 의미로 분산분석
• 그룹을 나누는 기준이 하나라는 의미로 일원
• 예 > 유통망 기준에 의한 매출액 평균 비교
예제 ( 계속 )
• J 기업의 광고매체와 유통경로에 따른 매출액 자료
연구주제
• 유통경로 (3 가지 ) 에 따른 매출액
평균이 다르다고 할 수 있나 ? 가설
• H
0:
세 집단의 평균이 같다• H
1:
세 집단의 평균이 모두 같지 는 않다SPSS 에 의한 검정
유의확률이
0.05 보다 작으므로 세 평균간에
차이가 있다
예제 ( 일원배치 )
대리점 충청지역 강원지역 서울지역
1 75 71 90
2 87 100 100
3 83 47 92
4 45 62 72
5 95 90 101
6 89 72 98
7 74 65 95
8 110 78 130
9 75 55 94
10 84 96 120
자료의 입력
출력결과
가설
Ho : 평균이 모두 같다
유의확률
p- 값 : 0.007 <- 매우 작은 값
결론
Ho 기각 => 평균이 모두 같지는 않다
차이가 있다면 어디서 차이 ?( 사후분석 )
옵션 : 기술통계
사후분석 : Duncan
평균이 다르다는데 어떤 것들이 다를까 ?
• 사후분석 ( 던컨의 방법 )
• 같은 부집단에 포함된 그룹은 평균이 같은 것으로 판단
• 그러므로 강원과 충청은 같고 서울은 다른 것으로 추정
교차분석
설문 예
• 교재 230 쪽
scale 문항 내 용
명목 1 귀하의 성별은 무엇입니까 ? ① 남자 ② 여자
명목 2
귀하가 점심시간에 주로 이용하는 음식점은 ?
① 구내식당 ② 회사주변식당 ( 도보거리 )
③ 회사근거리식당 ( 차량이동 ) ④ 편의점 ⑤ 기타 ( )
척도
( 구간 ) 3
귀하는 점심시간에 음식점을 선택할 때 ‘맛’에 대하여 어느 정도 중요 하게 생각하십니까 ?
① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다
④ 중요하다 ⑤ 매우 중요하다
척도
( 구간 ) 4
귀하는 점심시간에 음식점을 선택할 때 ‘가격’에 대하여 어느 정도 중 요하게 생각하십니까 ?
① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다
④ 중요하다 ⑤ 매우 중요하다
변수의 척도에 따른 분석 법
• 1-2 의 분석
• “ 남녀 ( 명목척도 ) 간에 이용하는 음식점 ( 명목척도 ) 이 다른 지 를 비교하려면 {” 명목 : 명목 } 이므로 교차분석 을 사용
• 1-3 의 분석
• “ 남녀 ( 명목척도 ) 간에 선택시 맛 중요도 ( 계량척도 ) 가 다른 지 를 비교하려면 {” 명목 : 계량 } 이므로 평균비교 를 사용
• 2-4 의 분석
• “ 이용하는 음식점 ( 명목척도 ) 에 따라 가격 중요도 ( 계량척 도 ) 가 다른지 를 비교하려면 {” 명목 : 계량 } 이므로 평균비교
• 3-4 의 분석
• 맛을 중요하게 생각하는 사람은 가격에 대한 중요도가 덜할까” 분석하려면 { 계량 : 계량 } 이므로 상관분석 을 사용
어떤 자료에 교차분석을 ?
• 명목변수들간의 관계
• 가로 : 성별
• 세로 : 선호특성
• 가설은 ?
• 관계없다 vs. 관계있다
우선
교차표를 자세히…
• 성별로 비율 (percent) 을 구하여 보면
• 비율의 균형을 파악
성별
선택 남 여
디자인 20(33%) 30(75%) 가격 40(67%) 10(25%) 합계 60(100
%) 40(100
%)
차이가
나긴 나는데 어떻게 판단 하지…
• 차이가 없다면 원래 자료의 모양은
?
• 수학적 판단의 기준은 ?
성별
선택 남 여
디자인 20(33%) 30(75%) 가격 40(67%) 10(25%) 합계 60(100
%) 40(100
%)
주변확률을 계산해보면
• Pr( 남자 )=60/100
• Pr( 디자인 )=50/100
• 독립일 때 Pr( 남자이고 디자인 )=Pr( 남자 ) x pr( 디자인 )=30/100
• 현재 자료는 Pr( 남자이고 디자인 )=20/100
• 독립가정과 현재 자료의 차이가 존재 성별
선택 남 여 합계
디자인 20 30 50
가격 40 10 50
합계 60 40 100
원래자료와
독립일 때 자료를
비교하면
• 원자료(괄호안은 독립일 때 기대값 )성별
선택 남 여 합계
디자인 20(30) 30(20
) 50
가격 40(30) 10(20
) 50
합계 60 40 100
아이디어 !!!
• 원자료와 ( 독립일 때 기대값 )
• 이 두값의 차이가 크면
• 독립이 아닌거다
성별
선택 남 여
디자인 20 (30) 30 (20)
가격 40 (30) 10 (20)
그래서
다음을 계산
• (20-30)
2+(30-20)
2+(40-30)
2+ (10-20)
2• 이 값이 크면 독립이 아니다
성별
선택 남 여
디자인 20 (30) 30 (20)
가격 40 (30) 10 (20)
교차표와 수식의
일반화
• Oij=(i,j) 셀의 관측도수 , Eij=(i,j) 셀의 기대도수 B
A B1 B2
A1 O
11(E
11) O
12(E
12) A2 O
21(E
21) O
22(E
22)
7 . 20 16
) 20 30
( 20
) 20 10
( 30
) 30 20
( 30
) 30 40
) (
(
2 2 2 2 22
j ij
ij ij
i
E
E
O
검정통계 량의 분포
자유도가 (I-1)(J-1) 인 카이제곱 분포 )) 1 )(
1 ((
) ~
(
2 22
O E E I J
j ij
ij ij
i
0 0.1 0.2 0.3 0.4
0 2 4 6
그러나…
복잡한
분포대신 • 유의확률만 알면… .
•유의확률 <0.05
=> 관계있다 . 차이있다
SPSS 연습
• 교차분석 _ 음식점 .sav출력결과
결론 : 유의수준 5% 에서 귀무가설 기각
귀무가설 : 성별에 따라 선호 하는 식당에 차이가 없다