• 검색 결과가 없습니다.

상관분석

N/A
N/A
Protected

Academic year: 2022

Share "상관분석"

Copied!
28
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

상관분석

相关分析

(2)

설문조사에서 문항 ( 변수 ) 간의 관계

측도 (scale)

문항

( 변수 ) 내 용

명목 1 귀하의 성별은 무엇입니까 ? ① 남자 ② 여자

명목 2 귀하가 점심시간에 주로 이용하는 음식점은 ?

① 구내식당 ② 회사주변식당 ( 도보거리 ) ③ 회사근거리식당 ( 차량이동 ) ④ 편의점 ⑤ 기타 ( )

척도

( 구간 ) 3 귀하는 점심시간에 음식점을 선택할 때 ‘맛’에 대하여 어느 정도 중요하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다 ④ 중요하다 ⑤ 매우 중요하다

척도

( 구간 ) 4 귀하는 점심시간에 음식점을 선택할 때 ‘가격’에 대하여 어느 정도 중요하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다 ④ 중요하다 ⑤ 매우 중요하다

名义 名义 标度 标度

价格

(3)

설문조사에서 문항 ( 변수 ) 간의 관계

측도 (scale)

문항

( 변수 ) 내 용

명목 1 귀하의 성별은 무엇입니까 ? ① 남자 ② 여자

명목 2 귀하가 점심시간에 주로 이용하는 음식점은 ?

① 구내식당 ② 회사주변식당 ( 도보거리 ) ③ 회사근거리식당 ( 차량이동 ) ④ 편의점 ⑤ 기타 ( )

척도

( 구간 ) 3 귀하는 점심시간에 음식점을 선택할 때 ‘맛’에 대하여 어느 정도 중요하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다 ④ 중요하다 ⑤ 매우 중요하다

척도

( 구간 ) 4 귀하는 점심시간에 음식점을 선택할 때 ‘가격’에 대하여 어느 정도 중요하게 생각하십니까 ?

① 전혀 중요하지 않다 ② 중요하지 않다 ③ 보통이다 ④ 중요하다 ⑤ 매우 중요하다

교차분석 교차분석

상관분석 상관분석

평균비교 평균비교

(4)

• 관계의 추정

– 산점도 , 공분산 , 상관계수

• 검정을 위한

– H0: 변수 간에 관계가 없다 ( 조사전 사실 ) => 귀무가설 , 영가설 – H1: 변수 간에 관계가 있다 ( 조사후 주장 ) => 연구가설

– 예 > H0: 맛중요도와 가격중요도는 관계가 없다

• 유의확률에 의한 검정 (t 검정통계량 ) – p-value = Pr( result | H0 is True)

– If p-value< 0.05, we reject H0 (accept H1)

– 예 > 만약 유의확률이 0.03 이면 기각 , 두 변수 간에 관계가 있다 (α=5%)

계량 변수들 간의 관계의 추정 및 검정

(5)

산점도 散點圖

Scatter plot

(6)

범 죄 자 수 감 자 비 율

불평등도

낮음 높음

不平等 高

犯罪

(7)

산점도 散点 scatter plot

• 키와 몸무게

키 몸무게

170 70

60 80

180 160

키 : 170 몸무게 : 65

身高

重量

(8)

• 키와 몸무게

키 몸무게

170 70

60 80

180 160

키가 크면

몸무게도 크다

양 (+) 의 상관

연관성의

(9)

연관성의

• 흡연량 吸烟量 과 기대수명 预 寿 期 命

흡연량 기대수명

20 60

50 70

30 10

흡연량이 많으면 기대수명이 적다

음 (-) 의

상관

(10)

연관성의

• IQ 와 통계학 점수

IQ 마조론

120 80

70 90

140 100

IQ 와 통계학

성적은 관계 없다

상관 무

(11)
(12)

• X 의 분산은 ?

• Y 의 분산은 ?

• X, Y 의 공분산은 ?

공분산 (Covariance)

方差

) 2

( )

( Y E Y

Y

Var   

) )(

( )

,

( X Y E X

X

Y

Y

COV     

)

2

( )

( X E X

X

Var   

(13)

공분산의 의미

X Y

170 70

60 80

180 160

(+) (+) (--) (--)

양의 상관

(+) × (+) = (+)

(-) × (-) = (+) 意味

) )(

(

X

X Y

Y

(14)

공분산의 의미

X Y

170 70

60 80

180 160

(+) (-) (-) (+)

음의 상관

(-) × (+) = (-)

(+) × (-) = (-)

) )(

(

X

X Y

Y

(15)

• 양의 상관이면 크다

• 음의 상관이면 작다

• 무상관이면 0 에 가깝다

공분산 (Covariance) 의 성질

• 단위 , 범위에 영향을 받는다

• 표준화 시켜줄 필요가 있다

(16)

상관계수

(Correlation Coefficient)

피어슨 (Pearson) 상관계수 ( 표본상관계수 )

• 공분산은 범위의 크기에 영향을 받으므로 표준 화해주기 위해 각변수의 표준편차로 나눠준다

• 모상관계수는 X, Y 의 공분산을 각각의 편차로 나누어 준다

�=���� (� , � )

=

��� ( � ,� )

 

� = Σ( − ´�)(� − ´� )

(

− ´�)2

(

− ´� )2

 

标准偏差

(17)

상관계수의 범위

• -1 에서 1 사이의 값

• 최대값은 X 와 X 의 상관계수

• 최소값은 X 와 -X 의 상관계수

范围

 

2

2 ( )

) (

) )(

(

Y Y

X X

Y Y

X r X

) 1 (

) (

) )(

(

2

2

 

  

X X

X X

X X

X r X

) 1 (

) (

) )(

(

2

2

 

X X

X X

X X

X r X

(18)

SPSS

Tutorial

(19)

상관분석에서 검정단계는

• 다음 가설을 세움

– 모상관계수가 0 이냐 아니냐 ? – 즉 상관관계가 있느냐 ? 없느냐 ?

• 검정통계량

• 유의확률의 계산

– P-value = Pr( result | H0 is True)

• If p-value< 0.05, we reject H0 (accept H1)

– 만약 유의확률이 0.04 이면 기각 , 두 변수 간에 상관관계가 있다

1 −�−2

2

� (�−2)

 

(20)

< 예제 > 영어점수와 수학점수

영어 수학

36 35

80 65

50 60

58 39

72 48

60 44

56 48

68 61

55 45

65 55

30 40 50 60 70 80 90

30 35 40 45 50 55 60 65 70

수학

영어

(21)
(22)

두 변수의 상관계수는 0.643 이고 유의확률은

0.045(<0.05) 이므로 두 변수 간에 유의한 상

관관계가 존재한다 .

(23)

상관계수의 한계

• 상관계수는 만능이 아니다

• 수학적 관계이지 속성의 관계는 아 니다

– 영어성적과 수학성적

• 선형관계의 측도이다

– 곡선관계는 찾아내지 못한다

• 자료분석의 초기단계

大能

局限性

线性关系

初始阶段

(24)

연습 练习

• “ 신문 TV 시간 . Sav” 에서 신문보는 시간과 TV 보는 시간과의 상관관계를 분석하시오 .

• Lecture_evalue.sav 에서 전반적인 강의평가와 가장 높

은 관계를 갖는 변수는 무엇인가 ?

(25)

참고 > 공분산 행렬 , 상관 행렬

참고 > 공분산 행렬 , 상관 행렬

�=

(

1

2 12 13

⋯ �

1

21 22 2 3

⋯ �

2

31 32 32

⋯ �

3

⋮⋮ ⋮ ⋱ ⋮

�1 � 2 � 3

⋯ �

2

)

 

�=

(

1

2 12 13

⋯ �

1

21 22 2 3

⋯ �

2

3132 32

⋯ �

3

⋮⋮ ⋮ ⋱ ⋮

� 1 � 2 � 3

⋯ �

2

)

 

�=

(

121� 131⋮ ⋮ ⋮⋱ ⋮11232� 212 3⋯ �13� 3⋯ �⋯ �⋯13 2�1

)

 

�=

(

121� 131⋮ ⋮⋮ ⋱ ⋮132�21212 3⋯ �13� 3⋯ �⋯ �⋯ 1321

)

 

(26)

Love data

(27)
(28)

학력 : 경제력 => 상관계수는 0.553

유의확률이 유의수준 1% 보다 작으므 로 귀무가설 (H0) 기각 .

즉 , 상관관계 있다

참조

관련 문서

또한 규제정보화시스템에 등록된 규제 간의 관계도 (關係圖) 역시 보다 체계화 시킬 필요가 있다. 단순히 주된 규제와 부수규제의 수준이 아니라 규제개

사회 건강 행복

이상으로 식민지 조선의 조선문 검열에 있어서 “염라대왕”과 같은 존 재였던 검열관 니시무라 신타로에 대해 살펴보았다.. 동시대를 살았던 피검열자의 회고에 따르면,

 산포도(散布度)가 작으면 자료들이 평균 주위에 모이기 때문에 평균을 신뢰할 수 있다.  자료의 특성을 이해하기

[r]

일제강점기 사용된 고급 제도용지로 쿠로스 (クロヌ, 壁紙)라 고도 하며 유사한 사례로 현재 많이 사용되고 있는 북바인딩 재료와 벽지에 ‘크로스지’라는 명칭이 사용되고

연령과 혈중 콜레스테롤 수치, 수축기 혈압, 체질량 지수가 어떤 상관관계를 갖는지 SPSS 프로그램을 이용 하여 실습해보도록 하자.. 보고자 하는 변수를

** 연속적인 측정치를 서열변인으로 변환할 때는 원래의 자료가 지니고 있는 정보를 상실하므로 등위차 상관계수가