• 검색 결과가 없습니다.

추정과검정의개념추정과검정의개념

N/A
N/A
Protected

Academic year: 2022

Share "추정과검정의개념추정과검정의개념"

Copied!
124
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

추정과 검정의 개념

(2)

자료분석은 추정 估计 과 검정 试验 의 과정

예 > A 제품产品의 남녀간에 만족도满意度가 다른 것 같 다

• 만족도 조사

• 남녀만족도 요약摘要

• 남녀 두 집단의 ( 만족도 ) 차이区别를 추정하고

• 그 차이가 유의한지를具有

统计意义 검정한다

(3)

추정

Estimation

• 종류

점추정과 구간추정

점추정 ( 点估计 point estimation)

표본의 평균은 样本平均值 180 이다

남녀 만족도의 차이는 0.7 이다

• 구간추정 ( 区间估计 interval estimation)

모집단의 평균은 180±30 구간에 있다

남녀만족도의 차이는 0.7±0.4 구간에 있다

(4)

구간추정에 사용되는 용어

• 신뢰도 ( 置信度 confidence level)

• 100% 확신하는 구간을 설정하는 것은 무의미

• 추정이 어느정도 틀릴 각오를 해야함

• 틀릴확률 = 유의수준 =1- 신뢰도

• 주로 사용하는 것이 95% 신뢰수준 ( 신뢰도 )

표본오차 样本错误

• 표본은 전수조사整个调查 가 아니므로 당연히 오차가 존재

• 신뢰구간置信区间 의 구간너비를 표본오차라 명 함

• “ 본 조사는… 95% 신뢰수준에서 표본오차는

±3% 입니다”

(5)

가설 假设

hypothesis

검정 ( 试验 test) 은 가설검정이 원어全名

설 ?

• 백과사전 ) 구체적인 사물에 관하여 자기의 의견을 서술하면서 , 사리를 설명하여 나가는 문장

가설 ?

• 모수参数에 대한 주장 断言

• 변수变数들의 관계关系를 규정确定한 문장句子

• 가설검정

추정값을 통해 모수의 값에 대한 판단判决

변수에 관한 주장断言에 대한 판단

(6)

가설검정 假設檢定 최종 판단의

형태는

주장을 상이不同한 두개로 분리分割

둘 중에 하나를 선택选择

예 >

남녀간 차이가 없다

남녀간 차이가 있다

결론

기각 or 채택

• reject or accept

拒绝 or 接受

(7)

가설의 표현방법

귀무가설 H0 대립가설 , 연구가설

H1

대립가설이 채택되면 새로 운 사실이 입증되는 실험의 성과를 보는 경우가 대부분

기존의 사실

실험전에 인정하는 보수적 주장

차이없다 , 효과없다 , 0 이다 차이있다 , 효과있다 , 0 이 아니다

입증하고자하는 사

•적극적 주장

귀무가설이 채택되면 새로 운 사실이 입증되는 것이 없 어 도로 무로 돌아간다는 표

(8)

판단의 중심 重心 은 ?

귀무가설零假设 回无

• 보수保守적으로 귀무가설이 옳 다고 보고

이에서 많이 벗어나야 대립가설

备选假设이 맞다라고 본다

• 결론

귀무가설 채택 接受

귀무가설 기각 拒绝

귀무가설 채택시 표현 表达

귀무가설을 기각할 만한 충분 한 증거证据를 찾지 못하였다

(9)

예제 例子

대학생大学生의 IQ 가 일반인普通人 IQ(105)보다 높은지 알고싶다

대학생 집단에서 50명을 뽑아 IQ 검사检查

표본평균样本平均이 107 이 나왔다

당신의 선택选择은 ?

– H0: 평균이 105 이다

– H1: 평균이 105 보다 크다伟大 ( 단측 一面 单侧 검 정 )

또는

– H1: 평균이 105 가 아니다 ( 양측 双侧 검정 )

일반적인 가설 형태

단측검정보다 기각하는 경우가 적어지므로 공인认证된 실 험实验에서는 주로 양측검정 사용

(10)

무얼 중심

心脏

으로 생각한다 고 ??

H0가 사실일 때

当 H0 为真时

표본평균의 분포를 먼저 그린

首先绘制样本均值的分布

105 106 107

H1

많이 벗어나야 H0 이 아니라고

생각

(11)

H

0

은 아니다 의 기준

基准

? 기각역 拒絕域

• 기각역을 구하려면 아래 의 분포를 알아야 한다

• Z 분포 , T 분포

105 106 107

H1

기각역

(12)

유의수 준 ?

显著性水平 (α)

• H

0

가 사실

真实

일 때 기각역에 속 할

属于

가능성이 작지만 존재

有可能

• 그 가능성을 유의수준 (significance level)

• 주로 5%, 1%

105 106 107

H1

5% 기각역

拒絕域

유의수준=5%

(13)

유의확률 p-value

• 107 이상 되는 확률 ( 유의확률 ) 을 구 해서 유의수준과 비교

아래서 107 이상일 확률이 3% 라면…

• 5% 기가역 안에 포함

귀무가설 H0 기각

105 106 107

률 3%유의확

(14)

유의 확률 ?

일명 p- p-

= Pr(result |H0 is true)

이 값이 작다면 H0 이 사실이 아님

• SPSS 출력결과에 모두 유의확률만 표시

• 예 > 유의확률 =0.03

• 5% 보다 작으므로 귀무가설 기각

• 1% 보다 크니까 귀무가설 채택

(15)

요약

유의수준 (α) 을 선택합니다 . 유의수준은 귀무가설하에서 귀무가설을 기각 할 확률입니다 . 가장 일반적으로 사용되는 것은 5% 와 1% 입니다 .

• p 값 계산

이 값을 유의 수준과 비교

• p- 값이 작으면 귀무가설을 기각합니다 .

귀무가설이 기각되면 유의한 차이가 존재합니다 .

选择一个显著性水平 (α) ,若低于这个概率阈值,就會拒绝零假设。最常用 的是 5% 和 1%

计算 p 值

将此值与显着性水平进行比较

如果 p 值小,则拒绝零假设

如果零假设被拒绝 结论是有区别的

(16)

평균 비교

Keywords

t 검정 독립표본 ,

쌍체비교 F 검정

(17)

모집단 평균에 관한 검정

모집단이 하나일 때

• A 집단의 만족도가 4 이

상이라고 할 수 있는지

모집단이 두개 일 때

• 남녀간에 평균차이가 있 는지

• 광고를 보기전과 후에 태 도 ( 평균 ) 가 변화가 있는 지

모집단이 3 개 이상일 때

• 상중하 그룹간에 평균차 이가 있는지

(18)

독립표본 t 검정

두 집단의 평균의 차이를 비교한다

두 집단은 독립적이어야 한다

• 예 > 남자집단 대 여자집단

• 예 > 광고를 보기 전과 보고난 후

두 집단으로 나누어 한 집단에는 광고를 보여주지 않고 나머지 집단은 광고 를 보여준 경우 ( 독립표본 )

광고를 보여주기 전에 측정하고 다시 광고를 보여준 다음에 측정 ( 쌍체비 교 )

(19)

예제

• J 기업의 광고매체와 유통 경로에 따른 매출액 자료 연구주제

광고매체에 따른 매출액 평

균이 다르다고 할 수 있나 ? 가설

• H0: 두 집단의 평균이 같다

• H1: 두 집단의 평균이 다르

(20)

SPSS 에 의한 검정

유의확률이

0.05 보다 크므로 두 평균간에

차이가 없다

(21)

일원배치 분산분석 ( 여러평균의 비교 )

• 세개 이상의 평균을 비교

• 평균이 모두 같다고 할 수 있는지 판단

평균이 모두 같지는 않다면 다른 쌍이 있다는 의미

• 검정은 F 검정

왜냐면 검정통계량이 F 분포를 따르므로

• 분산을 이용한다는 의미로 분산분석

• 그룹을 나누는 기준이 하나라는 의미로 일원

예 > 유통망 기준에 의한 매출액 평균 비교

(22)

예제 ( 계속 )

• J 기업의 광고매체와 유통경로 에 따른 매출액 자료

연구주제

유통경로 (3 가지 ) 에 따른 매출

액 평균이 다르다고 할 수 있 나 ?

가설

• H0: 세 집단의 평균이 같다

• H1: 세 집단의 평균이 모두 같지 는 않다

(23)

SPSS 에 의한 검정

유의확률이

0.05 보다 작으므로 세 평균간에

차이가 있다

(24)

예제 ( 일원배치 )

대리점 충청지역 강원지역 서울지역

1 75 71 90

2 87 100 100

3 83 47 92

4 45 62 72

5 95 90 101

6 89 72 98

7 74 65 95

8 110 78 130

9 75 55 94

10 84 96 120

(25)

자료의 입력

(26)

출력결과

가설

Ho : 평균이 모두 같다

유의확률

p- 값 : 0.007 <- 매우 작은 값

결론

Ho 기각 => 평균이 모두 같지는 않다

(27)

차이가 있다면 어디서 차이 ?( 사후분석 )

옵션 : 기술통계

사후분석 : Duncan

(28)

평균이 다르다는데 어떤 것들이 다를까 ?

• 사후분석 ( 던컨의 방법 )

• 같은 부집단에 포함된 그룹은 평균이 같은 것으로 판단

• 그러므로 강원과 충청은 같고 서울은 다른 것으로 추정

(29)

교차분석

(30)

설문 예

• 교재 230 쪽

scale 문항 내 용

명목 1 귀하의 성별은 무엇입니까 ? ① 남자 ② 여자

명목 2

귀하가 점심시간에 주로 이용하는 음식점은 ?

① 구내식당 ② 회사주변식당 ( 도보거리 )

③ 회사근거리식당 ( 차량이동 ) ④ 편의점 ⑤ 기타 ( )

척도

( 구간 ) 3

귀하는 점심시간에 음식점을 선택할 때 ‘맛’에 대하여 어느 정도 중요 하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다

④ 중요하다 ⑤ 매우 중요하다

척도

( 구간 ) 4

귀하는 점심시간에 음식점을 선택할 때 ‘가격’에 대하여 어느 정도 중 요하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다

④ 중요하다 ⑤ 매우 중요하다

(31)

변수의 척도에 따른 분석 법

• 1-2 의 분석

“ 남녀 ( 명목척도 ) 간에 이용하는 음식점 ( 명목척도 ) 이 다른 지 를 비교하려면 { 명목 : 명목 } 이므로 교차분석 을 사용

• 1-3 의 분석

“ 남녀 ( 명목척도 ) 간에 선택시 맛 중요도 ( 계량척도 ) 가 다 른지 를 비교하려면 { 명목 : 계량 } 이므로 평균비교 를 사용

• 2-4 의 분석

이용하는 음식점 ( 명목척도 ) 에 따라 가격 중요도 ( 계량척 도 ) 가 다른지 를 비교하려면 { 명목 : 계량 } 이므로 평균비

• 3-4 의 분석

맛을 중요하게 생각하는 사람은 가격에 대한 중요도가 덜할 까 분석하려면 { 계량 : 계량 } 이므로 상관분석 을 사용

(32)

어떤 자료에

교차분석 을 ?

명목변수들간의 관계• 가로 : 성별

세로 : 선호특성

• 가설은 ?

관계없다 vs. 관계있다

(33)

우선 교차표를 자세히…

• 성별로 비율 (percent) 을 구하여 보면

• 비율의 균형을 파악 성별

선택 남 여

디자인

20(33%) 30(75%)

가격

40(67%) 10(25%)

합계

60(100

%) 40(100

%)

(34)

차이가 나긴 나는데 어떻게 판단 하지…

• 차이가 없다면 원래 자 료의 모양은 ?

• 수학적 판단의 기준은 ? 성별

선택 남 여

디자인

20(33%) 30(75%)

가격

40(67%) 10(25%)

합계

60(100

%) 40(100

%)

(35)

주변확률 을 계산해

보면

• Pr( 남자 )=60/100

• Pr( 디자인 )=50/100

독립일 때 Pr( 남자이고 디자인 )=Pr( 남자 )x pr( 디자인 )=30/100

현재 자료는 Pr( 남자이고 디자인 )=20/100

독립가정과 현재 자료의 차이가 존재

성별

선택 남 여 합계

디자인

20 30 50

가격

40 10 50

합계

60 40 100

(36)

원래자료와

독립일 때 자료를 비교하면

• 원자료(괄호안은 독립일 때 기대값 )

성별

선택 남 여 합계

디자인

20(30) 30(20

) 50

가격

40(30) 10(20

) 50

합계

60 40 100

(37)

아이디어 !!!

• 원자료와 ( 독립일 때 기대값 )

• 이 두값의 차이가 크면

• 독립이 아닌거다

성별

선택 남 여

디자인

20 (30) 30 (20)

가격

40 (30) 10 (20)

(38)

그래서 다음을 계산

• (20-30)2+(30-20)2+(40-30)2+ (10-20)2

• 이 값이 크면 독립이 아니다

성별

선택 남 여

디자인

20 (30) 30 (20)

가격

40 (30) 10 (20)

(39)

교차표와 수식의 일반화

• Oij=(i,j) 셀의 관측도수 , Eij=(i,j) 셀의 기대도 수

B

A B1 B2

A1 O

11

(E

11

) O

12

(E

12

) A2 O

21

(E

21

) O

22

(E

22

)

7 . 20 16

) 20 30

( 20

) 20 10

( 30

) 30 20

( 30

) 30 40

) (

(

2 2 2 2 2

2

 

 

 

 

 

  

j ij

ij ij

i

E

E

O

(40)

검정통 계량의

분포

자유도가 (I-1)(J-1) 인 카이제곱 분포

)) 1 )(

1 ((

) ~

(

2 2

2

  

   O E E I J

j ij

ij ij

i

0 0.1 0.2 0.3 0.4

0 2 4 6

(41)

그러나… 복잡한

분포대신 유의확률만 알면… .

• 유의확률 <0.05

=> 관계있다 . 차이있

(42)

SPSS 연

• 교차분석 _ 음식점 .sav

(43)
(44)
(45)

출력결과

결론 : 유의수준 5% 에서 귀무가설 기각

귀무가설 : 성별에 따라 선호 하는 식당에 차이가 없다

(46)

연관성분석 关联分析

1. 교차분석

2. 상관분석 相关分析 3. 평균비교

(47)

Review

scale 문항 내 용

명목 1 귀하의 성별은 무엇입니까 ? ① 남자 ② 여자

명목 2

귀하가 점심시간에 주로 이용하는 음식점은 ? 饭厅

① 구내식당 ② 회사주변식당 ( 도보거리 )

③ 회사근거리식당 ( 차량이동 ) ④ 편의점 ⑤ 기타 ( )

척도

( 구간 ) 3

귀하는 점심시간에 음식점을 선택할 때 ‘맛’에 대하여 어느 정도 중요 하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다

④ 중요하다 ⑤ 매우 중요하다

척도

( 구간 ) 4

귀하는 점심시간에 음식점을 선택할 때 ‘가격’에 대하여 어느 정도 중 요하게 생각하십니까 ? 价格

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다

④ 중요하다 ⑤ 매우 중요하다

名义

名义

标度

标度

(48)

상관분석은

계량변수들간의 관계

두 변수의 연관성

두 변수 ( 속성 属性) 이 관련이 있다

두 속성이 서로 독립 独立이다

가로 : 제품 만족도

세로 : 제품가격

가로 : 혈중콜레스테롤

• 세로 : 체중

연관성의 측도는

공분산 协方差

상관계수 相关系数

(49)

산점도

散点图

scatter plot

• 키와 몸무게

몸무게

170 70

60 80

180 160

키 : 170 몸무게 : 65

身高 重量

(50)

의 연 관성의

• 키와 몸무게

몸무게

170 70

60 80

180 160

키가 크면

몸무게도 크다

양의상관

(51)

연관성의 예

• 흡연량 吸烟量과 기대수명 预期寿

흡연량 기대수명

20 60

50 70

30 10

흡연량이 많으면 기대수명이 적다

음의상관

(52)
(53)

(Covariance)

공분산

• X 의 분산

方差

은 ?

• Y 의 분산

方差

은 ?

• X, Y 의 공분산 은 ?

)

2

( )

( X E X X

Var   

)

2

( )

( Y E Y Y Var   

) )(

( )

,

( X Y E X

X

Y

Y

COV     

(54)

공분산의 의미

X Y

170 70

60 80

180 160

(+) (+) (--) (--)

양의상관

(+) × (+) = (+)

(-) × (-) = (+) 意味

) )(

( X

X

Y

Y

(55)

공분산의 의미

X Y

170 70

60 80

180 160

(+) (-) (-) (+)

음의상관

(-) × (+) = (-)

(+) × (-) = (-)

) )(

( X

X

Y

Y

(56)

(Correlation 상관계수

Coefficient)

수식은

• 피어슨 (Pearson) 상관계수 ( 표 본상관계수 )

공분산은 범위의 크기에 영향을 받으 므로 표준화해주기 위해 각변수의 표 준편차로 나눠준다

모상관계수는 X, Y 의 공분산을 각각 의 편차로 나누어 준다

标准偏差

Y X

Y X Y COV

X

Corr

 

) , ) (

,

( 

(57)

상관계수의 범위

• 가장 높은 양의 상관관계

 X 와 X

 r=1

范围

) 1 (

) (

) )(

(

2

2

  

X X

X X

X X

X

r X

(58)

상관계수의 범위

• 가장 높은 음의 상관관계

 X 와 – X

 r=-1

1 )

( )

(

) )(

(

2

2

 

 

  

X X

X X

X X

X

r X

(59)
(60)

상관분석에서 유의확률은

다음 가설을 검정

모상관계수가 0 이냐 아니냐 ?

즉 상관관계가 있느냐 ? 없느냐 ?

유의확률의 계산

• P-value = Pr( result | H0 is True)

• If p-value< 0.05, we reject H0 (accept H1)

만약 유의확률이 0.03 이면 기각 , 두 변수 간에 상관관 계가 있다

(61)

예제 > 영어점수와 수학점수

영어 수학

36 35

80 65

50 60

58 39

72 48

60 44

56 48

68 61

55 45

65 55

30 40 50 60 70 80 90

30 35 40 45 50 55 60 65 70

수학

영어

英语 成绩 数学 成绩

(62)
(63)

두 변수의 상관계수는 0.643 이고 유의확률은 0.045(<0.05) 이므로 두 변수간에 유의한 상관관계가 존재한다 .

(64)

상관계수 의 한계

• 상관계수는 만능이 아니다

• 수학적 관계이지 속성의 관계는 아니다

영어성적과 수학성적

• 선형관계의 측도이다

곡선관계는 찾아내지 못한다

• 자료분석의 초기단계

全能

局限性

线性关系

初始阶段

(65)

연습 练习

• “ 신문 TV 시간 . Sav” 에서 신문보는 시간과 TV 보는 시간과의 상관관계를 분석하시오 .

• Lecture_evalue.sav 에서 전반적인 강의평가 와 가장 높은 관계를 갖는 변수는 무엇인 가 ?

(66)

회귀분석 (Regression)

回归分析

(67)

Review

우리는 현재 ( 변수와 변수 ) 관계에 관심

• 관계가 있다 ? 없다 ?( 검정의 문제 )

• 어느정도 관계가 있는가 ?( 추정의 문제 ?) 推定

다른 변수값을 예측 또는 추정한다면

• 수학 60 점이니까 물리는 70 점이겠다 ( 계량 => 계량 )

회귀분석

• 영어가 550 점이니까 불합격 하겠네 ( 계량 => 명목 )

로지스틱 회귀분석

• 남자니까 검은색 좋아하겠네 ( 명목 => 명목 )

로그선형모형

变量 变量 关系

验证 预测

名义 名义

标度 标度

(68)

아버지 신장 (X)

아들의 신장 (Y)

회귀분 석의 유 래

• 아버지키가 크면 아들 키도 큰가 ?

• 아들키를 아버지키로 예측가능한가 ?

• 두 변수간에 관계식 은 ?

검정문제검정문제

추정문제추정문제

起源

身高

父亲 儿子

关系公式 回归分析

(69)

아버지 신장 (X)

아들의 신장

(Y) Y= 90+0.5X

회귀분석 결과

일차함수식으로 표현

• 90, 0.5 의 의미는 ?

절편과 기울기 (intercept, slope) 线性函数

常量 倾斜

(70)

수식에서추정과

검정 단계는

• 통계학의 데이터분석은 추정과 검정의 단계로 이루어져있다

• 독립변수 (X) 와 종속변수 (Y) 의 관계식에 서

• Y = a + b X

추정 : 회귀식 , 회귀계수

검정 : 독립변수의 영향력 (b=0?), 모형의 적합성 등

영향을 주는 변

영향을 받는 변

推定 验证

过程

独立变量 因变量 自变量

系数

模型 预测变量

效果

影响 受影响

(71)

요 약

• 회귀분석의 정의

독립변수와 종속변수의 관계를 규명

• 관계식 ( 회귀식 ) 을 추정하고

• 관계 ( 영향력 ) 의 유무를 검정한다

• 회귀분석의 종류

• 단순회귀분석 : 독립변수의 수가 1

• Simple regression

• 다중회귀분석 : 독립변수의 수가 2 이상

• Multiple regression

自变量 因变量 关系 回归式

存在

简单回归 多重回归

(72)

마케팅에서 회귀분석 적용 예

• 독립변수는 계량 , 명목 가능

• 종속변수는 계량만 가능 ( 명목일 때는 다른 분석 사용 )

독립변수 종속변수

연령 , 수입 , 학력 , 주거

연령 , 수입 , 학력 , 주거 구매성향구매성향

광고액광고액 매출액매출액

가격 , 광고시간 , 점포수

가격 , 광고시간 , 점포수 매출액매출액

근무년수 , 상여금 , 교육

근무년수 , 상여금 , 교육 판매원 업적판매원 업적

自变量 因变量

名义 标度

标度

(73)

종속변수

종속변수 상수

상수 회귀 계수

회귀계수 독립독립변수변수 오차 오차

입력변수

모수 : 추정할 값 확률변수 : 추정 못

( 단순 )

회귀분석의 모형

模型

误差

n i

X

Y

i

   

i

 

i

,  1 ,  ,

(74)

자료의 입력

매출액 (Y)

광고시간 (X)

97 45 95 47 94 40 92 36 90 35 85 37 83 32 76 30 73 25 71 27

α, β 를 추정한다

α, β 를 추정한다

数据

销售额 广告时间

(75)

• 잔차 (residual) 를 최소화 하는 회귀직선식을 구 함

Residual

α, β 는 어떻게

추정하는가

?

残差 最小化

X Y ˆ   ˆ   ˆ

Y

i

i

( ˆ )2

min

Y

i

Y

i

(76)

• 최소자승법 (Ordinary Least Squares :OLS) 에 의 한 최소자승추정량 (Least Square Estimates)

회귀계수의 유 도

最小二乘法

最小二乘估计

( ˆ )2 ( ˆ ˆ )2

min

Y

i

Y

i

Y

i

  X

i

0 ˆ )

( ˆ ˆ

2

 

Yi Xi

0 ˆ )

( ˆ ˆ

2

 

Yi Xi

 

2

) (

) )(

ˆ (

X X

Y Y

X X

i

i

i

X Y

ˆ   ˆ

(77)

SPSS 실습

( 광고 _ 매출

액 .sav)

(78)

독립변수와 종속변수만을 대입

(79)

그래프 출력

결과

(80)

출력 결과

输出

22

1

. 1 509

.

ˆ 42 X

Y  

(81)

• 모형 :

• 가설 :

=> 독립변수가 종속변수에 영향을 주 는가 ?

( 절편에 관한 검정은 중요하지 않 음 )

• Idea : 만약 가 0 이라면 X 의 변화 가 Y 에 전혀 영향을 주지 못한다 .

회귀계수 의 검정

假设

影响

不重要

不影响 常量

自变量 因变量

0 :

. 0

: 1

0

vs H

H

X

Y    

(82)

다시 출력결과

유의확률이 5% 보다 적으므로 효과 있다

• 즉 , 광고시간이 매출액에 영향을 준다

< 참고 > 6.7222=?

参考

(83)

결정계수 (R 제곱 )

유의성 검정에서 귀무가설이 기각되더라도 이는 기울기가 0 이 아니라는 것뿐이지 추정 된 회귀식이 전체자료를 잘 설명해 주고 있다고 판단하기 는 어렵다 .

그래서 표본자료로부터 추정 된 회귀선이 그 측정자료에 어느 정도 적합한가를 측정하 는 측도인 결정계수

(coefficient of determination) 가 필요하게 된다 .

관측값 y 의 총변동은 회귀선 에 의해 설명되는 변동과

설명되지 않는 변동으로 나누 어진다

• SST=SSR+SSE

• R2=SSR/SST

• R2=1 이면 회귀선으로 y 의 총 변동이 완전히 설명된다는 것 을 의미한다 . R2=0 이면 회귀 선으로 x 와 y 의 관계를 전혀 설명하지 못한다는 의미

R 决定系数

总计平方和

回归 残差 说明

(84)

출력결과에서 결정계수는 ?

• 결정계수 =0.850

• 전체제곱합 =820.4

• 회귀제곱합 =697.004

• 결정계수 =697.004/820.4 =0.850

决定系数

总计平方和 回归平方和

(85)

단순회귀분석 예제

예제자료

• 자료 : 키 _ 몸무게 .sav

키와 몸무게 자료

• 종속변수와 독립변수는 ?

• 분석단계

• 산점도 (scatter plot)

• 관계식 ( 회귀식 ) 추정

• 관계여부 검정

散点图 因变量 自变量

(86)

출력결과

(87)

출력결과의 해석

산점도를 보니 키와 몸무게 사이에 선형관계가 있는 것으 로 판단된다

몸무게 (Y) 와 키 (X) 의 회귀식을 구해보니

• Y=-124.6+1.09X 의 관계를 갖는다

키가 몸무게에 영향을 주는가를 검정하여본 결과

• H0: B=0 의 가설이 유의확률 0.000으로 기각되어 관계가 있는것 으로 판단된다

결정계수 (R 제곱 ) 는 0.676 으로 매우 높게 나타나서 데이 터 총변동의 67.6% 를 회귀선에 의해서 설명된다고 할 수 있다 .

그런데 키가 0 이면 몸무게도 0 이 되어야 하는데

(88)

절편없는 회귀선

没有拦截

(89)

중회귀분석

• 모형

• 관심

회귀계수의 추정

유의성 검정

• 어떤 독립변수가 종속변수를 설명하는가

• 변수선택 ( 모형의 선택 )

多重回归

变量选择 有兴趣

自变量 因变量

    

X X

k

X

k

Y

1 1 2 2

(90)

예제

결과

• SPSS 에 의하여 확인

• 분석 => 회귀 => 선형

매출액

(Y) 광고시

간 (X1) 판매원 수 (X2)

97 45 130

95 47 128

94 40 135

92 36 119

90 35 124

85 37 120

83 32 117

76 30 112

73 25 115

71 27 108

광고 _ 매출액 _ 판매원 .sav

分析 回归 线性

销售额 广告时间 销售人员数量

2 1

0 . 463 763

. 0

709 .

ˆ 2

X X

Y

(91)
(92)

X2 계수는 유의하지 않

X2 계수는 유의하지 않

출력결과

X1, X2 상관계수가

높다 X1, X2 상관계수가

높다

(93)

질문 : 问题 매출액에

판매원수 (X2) 는 영향을 주지

않는가 ?

• X2 의 계수는 유의하지 않다 ( 유의확률 0.108)

• 그러나 중회귀에서 그것은 단순한 문제가 아님

• 다중공선성의 문제

销售额

销售人员数量

不显著

多重共线性

(94)

Y 와 X2 를 단순회귀분석

하면 두 변수의 관계 매우 유의함

• 그런데도 X2, X1 을 포함하는 회귀 식에서 X2 가 의미가 없다고 나온 이유는 ?

简单回归

显著

(95)

다중공선성

• X2 가 Y 를 설명할 부분을 X1 이 먼저 설 명했기 때문

• X1 과 X2 의 상관계수가 높음

• 이런 현상을 다중공선성 (multicollinearity) 이라 한다 .

• 제거방법

• 덜 중요한 변수를 제거

• 독립변수들의 결합 ( 요인분석 , 단순 평균화 )

• 표본의 수를 많이 뽑음

多重共线性 说明 说明

如何卸载

许多样本量

消除

(96)

다중공선성 진단

诊断

(97)

분산팽창인수 (VIF, Variance Inflation Factor)

• VIF 가 10 이상 , 또는

공차한계가 0.1 미만이면 심각한 다중공선성 존재

공차한계는 1/VIF 容差

方差膨胀因子

容差

(98)

중회귀분석에서 유의할 점

• 변수들간에 다중공선성이 나오지 않도록 주의

• 모형에 변수를 포함시키는 방법 고려 .

方法

(99)

변수선택법

입력 : 모든 변수 포함

다중공선성의 가능성

전진 : 가장 유의한 변수를 하나씩 포함

한번 들어온 변수는 다시 나가지 않음

후진 : 가장 유의하지 못한 변수를 제거

한번 제거된 변수는 영원히 제외

단계선택 : 전진 + 후진을 반복

유의한 변수를 선택한 후 모형이 바뀜으로 인해 유의하지 않은 변수가 생겼는지를 다 시 파악

输入

步进 前进

除去 变量选择方法

(100)

예제 자료 >

맥주 .sav

(101)

중회귀분석 예제

단순회귀분석에서 체중 자료 확장

multiple.sav

• 몸무게 , 키 , 신발크기

종속변수와 독립변수는 ?

• 분석순서

• 산점도

변수들간의 관계식 추정 ( 단계식 회귀 )

독립변수의 유의성 검정 例子

分析顺序

步进 鞋码

(102)

행렬식 산점도 矩阵 散点图

(103)

출력결과

단계식 회귀로 키 , 신발크기가 차례로 입력

鞋码

(104)

분산분석표 결과

• 모형의 유의성은 ? 유의확률 .000

b

• SST=? SSE=? SSR=?

• 결정계수는 ?

(105)

출력결과의 해석

산점도를 보니 키 , 발크기와 몸무게 사이에 선형관계가 있 는 것으로 판단된다

• 몸무게 (Y) 와 키 (X1), 발크기 (X2) 의 회귀식을 구해보니

• Y=-146+0.726X1+0.33X2 의 관계를 갖는다

키와 발크기가 몸무게에 영향을 주는가를 검정하여 본 결과

• H0: B1=0 의 가설이 유의확률 0.001 으로 기각되어 키가 몸무게에 영 향을 주는 것으로 판단된다

• H0: B2=0 의 가설이 유의확률 0.001 으로 기각되어 발크기가 몸무게 에 영향을 주는 것으로 판단된다

• 결정계수 (R 제곱 ) 는 0.727 으로 매우 높게 나타나서 데이터 총변동의 73% 를 회귀선에 의해서 설명된다고 할 수 있다 .

(106)

요인분석 (factor analysis)

연구방법론 10 장 因子分析

(107)

요인분석 은 ?

• 독립변수의 수를 정리하고 싶을 때

과다한 변수는 해석의 어려움

• 독립변수를 구성하는 공통요인으로 모 형을 구축하고 싶을 때

내가 원하는 특성을 조작적 정의에 의해 변수로 만들었을 때

어떠한 구성 ( 내재하는 속성 ) 으로 이루 어져있는가

• 우리가 관측할 수 없는 요인으로 자료 를 재구성하여

구조방정식모형

회귀분석 등 차후 분석이 가능하다

减少 自变量的大小

因子 操作定义

(108)

요인과 변

수 ? Factor and variable

• 변수 = 우리가 관측가능한 값

• 요인 = 관측 불가능하지만 해석 가능한 값

• 행복요인은 인간관계 , 경제 적 , 환경적 변수등으로 구성

• 만족도는 가격 , 성능 , 디자 인 , AS, 브랜드 만족도 등으 로 측정

• 궁극적인 분석목표

• 변수 ? 요인 ?

可观察的

可理解的

因子和变量

(109)

요인과

변수의 예

변수는 요인들로 이루어져 있다

수학성적 = 계산력 + 논리력 + 언어해독 력 + 창의력 + 기타요인

국어성적 = 계산력 + 논리력 + 언어해독 력 + 창의력 + 기타요인

• 100m 기록 = 순발력 + 지구력 + 근력 + 기타요인

마라톤기록 = 순발력 + 지구력 + 근력 + 기타요인

运算能力 逻辑能力 语言能力 创造力

快速度 耐力 强项

(110)

수학적 모형

• 독립변수 ( 종속변수는 없음 )

• X1,X2, …,Xp

• 공통요인 ( 인자 , factor)

• F1, F2,…, Fm

p m

pm p

p p

p

m m

m m

F l

F l

F l X

F l

F l F l X

F l F

l F l X

2 2 1

1

2 2

2 22 1

21 2

2

1 1

2 12 1

11 1

1

(111)

변수와 공통요인

X1 X2 X3 X4 X5 X6 X7 X8

F1

F2

(112)

변수를 가장 잘 설명하는 요인의 선택

X1 X2 X3 X4 X5 X6 X7 X8

F1

F2

(113)

수학적 모형 의 예

• 독립변수 ( 종속변수는 없음 )

• X1: 영어성적

• X2: 수학성적

• 공통요인 ( 인자 , factor)

• F1, F2

• X1( 영어성적 )=0.9F1+0.2F2

• X2( 수학성적 )=0.3F1+0.8F2

적재값 loading

요인의명명 ? (nam-

ing)

英语成绩 数学成绩

载荷值

(114)

요인 적재값의 유도

• 각 변수들을 공통요인으로 되 도록 많이 설명하도록 유도한 다 .

• 이는 변수들의 상관행렬을 이 용

• 상관행렬의 고유값 (eigen value) 과 고유벡터 (eigen vector)

고유값은 공통요인의 변수를 설 명하는 양

고유벡터는 요인적재값의 추정

特征值 因子载荷值

特征向量

(115)

참고 : 상관계수 행렬

相关矩阵

 

 

 

 

1 1

1

2 1

2 21

1 12

p p

p p

r r

r r

r r

R

(116)

몇 개의

요인을 선택하는가

고유값은 각 요인이 설명하는 정보의

• 예 : 변수는 5 개 , 요인이 F1,F2,F3 일 때

• 각 요인의 고유값이 각각 2, 1.5, 0.8 라면

• 3 개 요인에 의해 설명되는 정보의 양은 (2+1.5+0.8)/5=86%

• 즉 5 개의 변수가 갖고있는 정보의 86%

를 세 개의 요인에 의해 설명할 수 있다

• 각 요인이 설명하는 비율은 40%, 30%,16% 라 할 수 있다 .

• 그런데 원래 한 변수의 정보의 양이 1 인데 1 미만의 정보를 갖는 요인을 사용하는건 불합리

즉 고유값이 1 이상인 요인만 선택한 다 .

(117)

예 > 6 과목 성적 ( 변수 )

• 상관계수 행렬

국어 영어 국사 물리 대수 기하 국어 1

영어 .439 1

국사 .410 .351 1 물리 .288 .354 .

164 1 대수 .329 .320 .

190 .595 1 기하 .248 .329 .

181 .470 .464 1

참조

관련 문서

 주어진 유의수준에 따라 귀무가설의 기각 여부를 결정하는

따라서 새로 개발된 소형 자동차의 연비가 기존 자동차에 비해 개선되었다고 할 수 있다....

비율이 1보다 크다는 것은 각 샘플이 하나의 모집단에서 왔을 가능성이 작다는 것이다. 즉, 각 집단의 평균이 같다는

예심원으로부터 시고장과 사건기록을 송부받은 검사는 10일 안으로 그것을 검토하여 피심자의 기소, 사건의 예심환송, 기소중지, 사건의 기각, 피심자에 대한 사회적

[r]

제시된 상황 이나 활동을 학생 스스로 가 해결해야하는 상황으 로 인식시키기 위한 과정 이

귀무가설이 사실이라는 가정 하에서 귀무가설을 기각하는 사건이 더 많이 일어날 확률을 P-값이라 한다. P-값이 작을수록 관측된 값이

71) 강제채혈의 경우 주사를 잘못 놓은 경우 등 극히 이례적인 경우를 제외하고는 건강훼손의 위험이 통상적으로 발생하지 않는다는 점에서 강제채뇨(삽관을 함으로