상관분석
교재 pp.235~250
오늘 배울
내용은
• 두 변수의 연관성
– 두 변수 간에 관련이 있다 – 두 변수가 서로 독립이다
• 연관성의 측도는
– 공분산
– 상관계수
연관성의 예 1
• 키와 몸무게
키 몸무게
170 70
60 80
180 160
키 : 170 몸무게 :
65
산점도散點圖 scatter plot
• 키와 몸무게
키 몸무게
170 70
60 80
180 160
키가 크면
몸무게도 크다
양의 상관
연관성의
예 1
• 흡연량과 기대수명
흡연량 기대수명
20 60
50 70
30 10
흡연 : 20 기대수명 :
55
연관성 의
예 2
• 흡연량과 기대수명
흡연량 기대수명
20 60
50 70
30 10
흡연량이 많으면 기대수명이 적다
음의 상관
연관성 의
예 2
• IQ 와 통계학 점수
IQ 통계학
120 80
70 90
140 100
IQ 와 통계학
성적은 관계 없다
상관 무
연관성 의
예 3
정리하면
• 연관성은
• 양의 연관성
– 하나가 커지면 다른 하나도 커진다
– 하나가 작아지면 다른 하나도 작아진다
• 음의 연관성
– 하나가 작아지면 다른 하나는 커진다 – 하나가 커지면 다른 하나는 작아진다
• 무상관
연관성의 측도
공분산
(Covariance)
공분산 ? 공동 분산
?
• X 의 분산은 ?
• Y 의 분산은 ?
• X, Y 의 공분산은 ?
) 2
( )
( X E X X
Var
) 2
( )
( Y E Y Y Var
) )(
( )
,
( X Y E X X Y Y
COV
공분산의 의미
X Y
170 70
60 80
180 160
(+) (+) (--) (--)
양의 상관
(+) × (+) = (+)
(-) × (-) = (+)
) )(
( X X Y Y
X Y
170 70
60 80
180 160
양의 상관
의 값이 커진다
공분산의 의미
) )(
( X X Y Y
E
X Y
170 70
60 80
180 160
(+) (-) (-) (+)
음의 상관
(-) × (+) = (-)
(+) × (-) = (-)
공분산의 의미
) )(
( X X Y Y
X Y
170 70
60 80
180 160
음의 상관
의 값이 작아진다
공분산의 의미
) )(
( X X Y Y
E
공분산은
• 양의 상관이면 크고
• 음의 상관이면 작고
• 무상관이면 0 에 가깝다
• 크다 , 작다의 의미는 ??
?
무조건 공분산이 크다고 연관성이 높은가 ?
• 단위 , 범위에 영향을 받는다
• 표준화 시켜줄 필요
<그림 6-10> 연관성과 공분산의 크기
궁극적인
연관성의 측도
상관계수 相關係數
(Correlation Coefficient)
상관계수
• 모상관계수 : X, Y 의 공분산을 각각 의 편차로 나누어 준다
피어슨 상관계 수
• 표본상관계수
� − �� ¿2
¿
� − �� ¿2
�¿¿
� ¿
√¿
¿ � ( � − � �) (� −�� )
¿
�= ¿
� √ 1 − �−2 � 2 � (�−2)
Y X
Y X Y COV
X
Corr
) , ) (
,
(
2
2 ( )
) (
) )(
(
Y Y
X X
Y Y
X
r X
상관계수 의
범위
• -1 에서 1 사이의 값
• 최대값은 X 와 X 의 상관계수
• 최소값은 X 와 -X 의 상관계 수
X X
X -X
2
2
( )) (
) )(
(
Y Y
X X
Y Y
X r X
) 1 (
) (
) )(
(
2
2
X X
X X
X X
X r X
) 1 (
) (
) )(
(
2
2
X X
X X
X X
X
r X
예제 6.1 p.246
• 언어점수 (X) 와 수학점수 (Y)
• 8 명을 조사
• 표본상관계수를 구하시오
상관계수 의 한계
• 상관계수는 만능이 아니다
• 수학적 관계이지 속성의 관계는 아니다
– 언어성적과 수학성적 – 아이스크림과 범죄율
• 선형관계의 측도이다
– 곡선관계는 찾아내지 못한다
• 자료분석의 초기단계
Ice Cream 살인
X Y
참고 1
상위 20%
하위 20% 불평등도
소득 5 분위 배 율
참고 2
불평등도
사회 건강 행복 지수
좋음 나쁨
낮음 높음