Chapter 4. 상관과 회귀
4. 1 개 요
이변량 자료
(bivariate data) 한 개체에 대해 두 변수를 관찰한 자료
Ex) 이변량 자료의 예
• (1) 충남대 남학생의 키와 몸무게
• (2) 연간 강수량과 쌀 생산량
, ) 70 , 180 (
, ) 65 , 173 (
년 도 1980 1981
2009
강수량(mm)
1,600 1,800
2,200
쌀 생산량(만섬)
1,600 1,800
2,100
Honggie Kim
상관관계와 인과관계
상관관계와 인과관계
(Correlation and Causation) 강 수 량 쌀 생산량식 구 수 월 생활비
공부한시간 학 점
키 몸 무 게
독립변수 종속변수
(예측변수) (반응변수)
x y
상관관계 인과관계 모두 존재
아빠와 논 시간 IQ
뉴욕시 쥐 마리수 미국 주식 시세
상관관계는 있으나 인과관계는
상관관계가 있으면 예측 가능,
없다
조정(control)이 가능하려면 인과관계 필요
Chapter 4. 상관과 회귀
[머니투데이 윤장봉 대한비만체형학회 공보이사]
인간은 '진실'이 무엇이냐에 대해 끝없이 탐구해왔습니다.
하지만 '진실’에 약간의 '거짓'을 보탤 경우에 사람들의 마음을 더 잘 움직이는 것 같습니다.
의사들이 이런 것을 이용하곤 하죠.
‘담배를 끊으면 생명이 연장되고, 폐질환이 줄고, 폐암의 발병율이 낮아진다’는 이야기 보다,‘담배를 끊으면 성기능이 훨씬 좋아진다’는 이야기가 중년의
남성들에게는 더 잘 먹히죠.
물론 금연이 성기능을 향상시킨다는 연구는 많지만, 더 중요한 것은 생명과 폐암인데 말입니다.
소아비만의 경우, ‘아이가 뚱뚱해지면 성적이 떨어진다’고 하면 고개를 끄덕끄덕거립니다.
그리고는 의사가 시키는 대로 열심히 하십니다. 슬쩍 생각해 봐도, 왠지 그럴 것 같죠? 사실 비만 아동이 성적이 좀 낮다는 것은 분명한 사실입니다.
문제는 뚱뚱하기 때문에 성적이 낮은 것인지, 성적이 낮기 때문에 뚱뚱한 것인지, 아니면 다른 문제로 뚱뚱해지고 동시에 성적도 떨어지는 것인지는 명확하지 않다는 것입니다.
상관관계와 인과관계
[머니투데이 윤장봉 대한비만체형학회 공보이사]
최근 미국 뉴욕대학의 연구에 의하면 1990년대 출생한 4000명의 아이들을 대상으로 분석해본 결과,
다음과 같은 결과를 얻었다고 합니다.
1. 비만한 아이가 비만하지 않은 아이보다 학교 성적이 낮다.
2. 비만이 직접 아이들의 학업 성적을 낮추는 것은 아닌 것 같다.
3. 사회경제적 약자들에서 비만이 높고, 성적이 낮은 것으로 보인다.
그렇다면 사회경제적 빈곤 때문에 비만과 성적저하가 일어나는 것이지, 비만 자체가 성적을 낮추는 것으로 보기 어렵다는 이야기네요.
어쩌죠. 비만 아이를 데리고 오는 부모님들에게 ‘아이가 뚱뚱하면 공부를
못해요’라고 으름장 놓으면서 운동도 시키고, 집에서 먹는 식사도 건강식으로 바꾸도록 해왔는데, 이 사실이 널리 퍼지게 되면…
물론 얼마 안 있어서 뚱뚱한 것 자체가 성적 저하를 일으킨다는 반대 논문이 또 나올 가능성도 얼마든지 있습니다.
Honggie Kim
상관관계와 인과관계
Chapter 4. 상관과 회귀
4. 2 상관계수
(Correlation coefficient) Ex) 10마리의 새끼 돼지의 하루 평균 먹이량과 한달간의 체중 증가량
먹이량(kg) 2.0 1.7 2.2 1.6 2.4 2.0 1.8 2.1 2.3 1.9 20 2.0
체중증가량(kg) 18
16 15 15 20 19 18 20 22 17 180 18
xi yi
합 계
평 균 (x) ( y)
Honggie Kim
산점도
(scatter plot) Ex) 돼지 예의 산점도
먹이량이 증가할 수록 체중도 많이 증가
1 2 3
x
y
20
10
먹이량과 체중 증가 사이에 양의 상관관계 존재
Chapter 4. 상관과 회귀
상관관계
두 변수간의 상관의 정도를 나타내는 척도 필요
4. 2 상관계수
1 2 3
x y
20
10
x
y
ⓐ
ⓓ
ⓒ
ⓑ
: ) ( x
i x
: ) ( y
i y
편차 편차
18 ⓐ,ⓒ영역에서는
0 ) (
)
( x
i x y
i y
ⓑ,ⓓ영역에서는
0 ) (
)
( x
i x y
i y 0
) (
)
(
xi x y
i y
양의 상관관계
0 )
( )
(
xi x y
i y
무상관
0 )
( )
(
xi x y
i y
음의 상관관계
Honggie Kim
공분산과 상관계수
: ) (
) 1 (
x x y y
n
i i공분산
표본의 수가 많아 가
커지는 현상을 배제
(xi x)(yi y)변수와 변수의 표준편차로 나누어 줌으로써 측정단위의 영향 배제
x y
( ) ( )
1 x x y y
n
i i: 상관계수
) (
)
(
2 2n y y
n x x
r
i
i
Chapter 4. 상관과 회귀
상관계수 r의 다른공식들
4. 2 상관계수
2
2
( )
) (
) (
) (
y y
x x
y y
x r x
i i
i i
2 2 2 2
y n y
x n x
y x n y
x
i i
i i
) (
1
2 2
2
text book
n y x y
n x
y x y
n x
i i
i i
(기억 용이)
2 2 2 2
y y
x x
y x xy
( 값들이
간단할 때 계산하기 용이)
y y
x
x
i ,
i
Honggie Kim
상관계수 r의 다른공식들
) (
)
(xi x yi y
( xi y
i x
i y x y
i x y )
y x n y
x x
y y
x
i
i
i
i
y x n y
x n x
y n y
x
i
i
y x n y
x
i
i
: ) (
) 1 (
x x y y
n
i i공분산
) 1 (
book text
y x y
n x
i
i
Chapter 4. 상관과 회귀
상관계수 r의 계산
(돼지 Example)4. 2 상관계수
2.0 1.7 2.2 1.6 2.4 2.0 1.8 2.1 2.3 1.9 20 2.0
xi
18 16 15 15 20 19 18 20 22 17 180
18
yi
0 -0.3
0.2 -0.4
0.4 0 -0.2
0.1 0.3 -0.1
0
0 -2 -3 -3 2 1 0 2 4 -1
0
y yi x
xi
0 0.6 -0.6
1.2 0.8
0 0 0.2 1.2 0.1 3.5
0.35 (공분산)
) )(
(xi x yi y
0 0.09 0.04 0.16 0.16
0 0.04 0.01 0.09 0.01 0.60
0 4 9 9 4 1 0 4 16
1 48
)2
(xi x (yi y)2
합 계 평 균
Honggie Kim
상관계수 r의 계산
(돼지 Example)
2
2
( )
) (
) (
) (
y y
x x
y y
x r x
i i
i i
48 60
. 0
5 .
3
6522 .
0
Chapter 4. 상관과 회귀
상관계수 r의 성질
상관계수의 성질 (1)
(2) 자료에 상수를 더하거나 곱해도 불변 (3) r은 선형관계만을 나타내는 척도
4. 2 상관계수
1 1
r ( 은 완전 역상관 은 무상관
은 완전 정상관)
1 r
0 r
1 r
y
xy 0
0 )
( ) (
r
y y
x
xi i
그러나 2차 곡선 관계 존재
Honggie Kim
몇가지 산점도
Chapter 4. 상관과 회귀
4. 3 회귀분석
(Regression analysis) 높은 상관관계를 갖는 두 변수
Ex) 돼지 Example
x y
20
10
y x , :
bx a
y
선형관계x
y 2
715
(대략적으로
찾아본 관계식)
Honggie Kim
회귀분석
두 변량간의 관계식을 회귀식
두 변량간의 관계를 나타내는 선을 회귀선
(regression line)
두 변량간의 관계식을 구하는 분석을 회귀 분석
(1) 상관계수 r이 0에 가까우면 회귀분석 불필요 (2) 회귀식을 써서 예측 가능. 단, 조정(control)이
가능하려면 인과관계가 필요함.
회귀선은 회귀직선 회귀곡선
. Note
Ex)
y a bx
주식시세 쥐 마리수
(예측은 가능하나 조정은 불가)
Chapter 4. 상관과 회귀
회귀분석
가장 좋은 회귀식을 찾을 필요
4. 3 회귀분석
bx a
y
최소 자승 회귀선
(least squares regression line)
i
x
x
y
yi
yˆi
ˆ )
(
yi a bxiei
“직선과 관측점까지의 거리 제곱합을 최소”
Honggie Kim
회귀식 유도
i i
i
y y
e ˆ
2 2
)]
( [
) ,
( a b e
iy
ia b x
iQ
0 )
1 )(
( 2 )
,
( a b y
i a b x
i da Q
d
0 )
)(
( 2 )
,
( a b y
i a b x
i x
i db Q
d
)
(
ii
a b x
y
(관찰된 값
y
– 직선에 의해 계산된 값)y
) 1 (
0
yi n a b x
i
) 2 (
2
0
xi y
i a x
i b x
i
오차
잔차
(residual)
Chapter 4. 상관과 회귀
회귀식 유도
) ( 0
) (
) 1
( x y n a x b x
2a
x
i i
i i i
i
) ( 0
) 2
( n x y n a x n b x
2b
n i i i i )
i )
( )
( b a
xi yi xi yi nb xi2 b( xi )2n
2 2) (
) )(
(
i i
i i
i i
x x
n
y x
y x b n
)
2(
) )(
(
x x
y y
x x
i
i
i
1 ( )
i
i
b x
n y a
x b y
, ) 1 ( From
( 성립 Note . y a b x ( x , y ) 는 회귀직선위에 존재)
4. 3 회귀분석
Honggie Kim
돼지 example의 회귀식
833 .
60 5 . 0
5 . 3 )
(
) )(
(
2
x x
y y
x b x
i
i i
333 .
3 6 2 19
6
18 35
y b x a
먹이 1Kg당 늘어난 체중증가
의 의미 : 가 한단위 증가할때 의 증가량
b x y
그러므로 y x
6 35 3
ˆ 19 ( 와 비교) y x 2
5 15
회귀직선 사용시 유의할 점 : 실험한
x
범위 내에서만 유효)
( 7 . 6 589
) 3538 100
6 ( 35 3
ˆ 19
100 y kg
x
Chapter 4. 상관과 회귀
r과 b의 관계
)
2(
) )(
(
x x
y y
x b x
i
i
i
4. 3 회귀분석
1 )
(
1 )
( )
( )
(
) )(
(
2 2
2 2
n x
x
n y
y y
y x
x
y y
x x
i i
i i
i i
x r y
s r s
x
y
의 표준편차
의 표준편차 이 양수
r b
이 양수이 음수
r b
이 음수0
r b0
과 의 부호는 동일
r b
Honggie Kim
실생활에서의 회귀식
H H
W ( 100) 0.9 900.9
교수님 : W ( 174 100 ) 0 . 9 66 . 6
몸무게 키
키가 100cm인 유치원생 .
Note W 0 ( ? )
Chapter 4. 상관과 회귀
R²
(결정계수)의 계산
(교과서에는 없는 내용)SSR SSTO R
2
4. 3 회귀분석
2
2 , ( ˆ )
)
(y y SSR y y
SSTO
i
i SSE SSR
SSTO y
y
SSE (
i ˆ
i)
2,
Honggie Kim
돼지 example의 회귀식 :
돼지 example의 회귀식 계산
xi yi yˆi yˆi y (yˆi y)2 yi yˆi
2.0 1.7 2.2 1.6 2.4 2.0 1.8 2.1 2.3 1.9 20 2.0
18 16 15 15 20 19 18 20 22 17 180
18
18 16.25 19.166 15.666 20.333
18 16.833 18.583 19.75 17.416 합 계
평 균
0 -1.75 1.166 -2.334
2.333 0 -1.167
0.583 1.75 -0.583
0
0 3.0625
1.360 5.448 5.443
0 1.360 0.340 3.063 0.340 20.4165
0 -0.25 -4.166
0.666 0.333
1 1.167 1.417 2.25 -0.416
0
0 0.0625 17.361 0.443 0.111
1.0 1.362 2.008 5.063 0.1735 27.584
)2
(yi yˆi
i
i x
y 6
35 3
ˆ 19
Chapter 4. 상관과 회귀
돼지 example의 R²
(결정계수)의 계산
SSTO R
2 SSR
4. 3 회귀분석
4253 .
0
) (
6522 .
0 4253
.
0 r 상관계수
R