• 검색 결과가 없습니다.

Chapter 4. 상관과 회귀

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 4. 상관과 회귀"

Copied!
26
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)
(2)

Chapter 4. 상관과 회귀

4. 1 개 요

 이변량 자료

(bivariate data)

 한 개체에 대해 두 변수를 관찰한 자료

 Ex) 이변량 자료의 예

• (1) 충남대 남학생의 키와 몸무게

• (2) 연간 강수량과 쌀 생산량

 , ) 70 , 180 (

, ) 65 , 173 (

년 도 1980 1981

2009

강수량(mm)

1,600 1,800

2,200

쌀 생산량(만섬)

1,600 1,800

2,100

  

(3)

Honggie Kim

상관관계와 인과관계

 상관관계와 인과관계

(Correlation and Causation) 강 수 량 쌀 생산량

식 구 수 월 생활비

공부한시간 학 점

키 몸 무 게

독립변수 종속변수

(예측변수) (반응변수)

x y

상관관계 인과관계 모두 존재

아빠와 논 시간 IQ

뉴욕시 쥐 마리수 미국 주식 시세

상관관계는 있으나 인과관계는

상관관계가 있으면 예측 가능,

없다

조정(control)이 가능하려면 인과관계 필요

(4)

Chapter 4. 상관과 회귀

[머니투데이 윤장봉 대한비만체형학회 공보이사]

인간은 '진실'이 무엇이냐에 대해 끝없이 탐구해왔습니다.

하지만 '진실’에 약간의 '거짓'을 보탤 경우에 사람들의 마음을 더 잘 움직이는 것 같습니다.

의사들이 이런 것을 이용하곤 하죠.

‘담배를 끊으면 생명이 연장되고, 폐질환이 줄고, 폐암의 발병율이 낮아진다’는 이야기 보다,‘담배를 끊으면 성기능이 훨씬 좋아진다’는 이야기가 중년의

남성들에게는 더 잘 먹히죠.

물론 금연이 성기능을 향상시킨다는 연구는 많지만, 더 중요한 것은 생명과 폐암인데 말입니다.

소아비만의 경우, ‘아이가 뚱뚱해지면 성적이 떨어진다’고 하면 고개를 끄덕끄덕거립니다.

그리고는 의사가 시키는 대로 열심히 하십니다. 슬쩍 생각해 봐도, 왠지 그럴 것 같죠? 사실 비만 아동이 성적이 좀 낮다는 것은 분명한 사실입니다.

문제는 뚱뚱하기 때문에 성적이 낮은 것인지, 성적이 낮기 때문에 뚱뚱한 것인지, 아니면 다른 문제로 뚱뚱해지고 동시에 성적도 떨어지는 것인지는 명확하지 않다는 것입니다.

상관관계와 인과관계

(5)

[머니투데이 윤장봉 대한비만체형학회 공보이사]

최근 미국 뉴욕대학의 연구에 의하면 1990년대 출생한 4000명의 아이들을 대상으로 분석해본 결과,

다음과 같은 결과를 얻었다고 합니다.

1. 비만한 아이가 비만하지 않은 아이보다 학교 성적이 낮다.

2. 비만이 직접 아이들의 학업 성적을 낮추는 것은 아닌 것 같다.

3. 사회경제적 약자들에서 비만이 높고, 성적이 낮은 것으로 보인다.

그렇다면 사회경제적 빈곤 때문에 비만과 성적저하가 일어나는 것이지, 비만 자체가 성적을 낮추는 것으로 보기 어렵다는 이야기네요.

어쩌죠. 비만 아이를 데리고 오는 부모님들에게 ‘아이가 뚱뚱하면 공부를

못해요’라고 으름장 놓으면서 운동도 시키고, 집에서 먹는 식사도 건강식으로 바꾸도록 해왔는데, 이 사실이 널리 퍼지게 되면…

물론 얼마 안 있어서 뚱뚱한 것 자체가 성적 저하를 일으킨다는 반대 논문이 또 나올 가능성도 얼마든지 있습니다.

Honggie Kim

상관관계와 인과관계

(6)

Chapter 4. 상관과 회귀

4. 2 상관계수

(Correlation coefficient)

 Ex) 10마리의 새끼 돼지의 하루 평균 먹이량과 한달간의 체중 증가량

먹이량(kg) 2.0 1.7 2.2 1.6 2.4 2.0 1.8 2.1 2.3 1.9 20 2.0

체중증가량(kg) 18

16 15 15 20 19 18 20 22 17 180 18

xi yi

합 계

평 균 (x) ( y)

(7)

Honggie Kim

산점도

(scatter plot)

 Ex) 돼지 예의 산점도

먹이량이 증가할 수록 체중도 많이 증가

1 2 3

x

y

20

10

먹이량과 체중 증가 사이에 양의 상관관계 존재

(8)

Chapter 4. 상관과 회귀

상관관계

 두 변수간의 상관의 정도를 나타내는 척도 필요

4. 2 상관계수

1 2 3

x y

20

10

x

y

: ) ( x

i

x

: ) ( y

i

y

편차 편차

18 ⓐ,ⓒ영역에서는

0 ) (

)

( x

i

xy

i

y

ⓑ,ⓓ영역에서는

0 ) (

)

( x

i

xy

i

y  0

) (

)

(    

x

i

x y

i

y

양의 상관관계

0 )

( )

(    

x

i

x y

i

y

무상관

0 )

( )

(    

x

i

x y

i

y

음의 상관관계

(9)

Honggie Kim

공분산과 상관계수

: ) (

) 1 (

x x y y

n

i i

공분산

표본의 수가 많아 가

커지는 현상을 배제

(xi x)(yi y)

변수와 변수의 표준편차로 나누어 줌으로써 측정단위의 영향 배제

x y

( ) ( )

1 x x y y

n

i i

: 상관계수

) (

)

(

2 2

n y y

n x x

r

i

i

(10)

Chapter 4. 상관과 회귀

상관계수 r의 다른공식들

4. 2 상관계수

 

 

2

2

( )

) (

) (

) (

y y

x x

y y

x r x

i i

i i

 

2 2 2 2

y n y

x n x

y x n y

x

i i

i i

) (

1

2 2

2

text book

n y x y

n x

y x y

n x

i i

i i

 

(기억 용이)

2 2 2 2

y y

x x

y x xy

 

( 값들이

간단할 때 계산하기 용이)

y y

x

x

i

 ,

i

(11)

Honggie Kim

상관계수 r의 다른공식들

) (

)

(xixyiy

( x

i

y

i

x

i

y x y

i

x y )

y x n y

x x

y y

x

i

i

i

i

 

   

y x n y

x n x

y n y

x

i

i

     

 

y x n y

x

i

i

 

 

: ) (

) 1 (

x x y y

n

i i

공분산

) 1 (

book text

y x y

n x

i

i

 

 

(12)

Chapter 4. 상관과 회귀

상관계수 r의 계산

(돼지 Example)

4. 2 상관계수

2.0 1.7 2.2 1.6 2.4 2.0 1.8 2.1 2.3 1.9 20 2.0

xi

18 16 15 15 20 19 18 20 22 17 180

18

yi

0 -0.3

0.2 -0.4

0.4 0 -0.2

0.1 0.3 -0.1

0

0 -2 -3 -3 2 1 0 2 4 -1

0

y yix

xi

0 0.6 -0.6

1.2 0.8

0 0 0.2 1.2 0.1 3.5

0.35 (공분산)

) )(

(xix yiy

0 0.09 0.04 0.16 0.16

0 0.04 0.01 0.09 0.01 0.60

0 4 9 9 4 1 0 4 16

1 48

)2

(xix (yiy)2

합 계 평 균

(13)

Honggie Kim

상관계수 r의 계산

(돼지 Example)

 

 

2

2

( )

) (

) (

) (

y y

x x

y y

x r x

i i

i i

48 60

. 0

5 .

 3

6522 .

 0

(14)

Chapter 4. 상관과 회귀

상관계수 r의 성질

 상관계수의 성질 (1)

(2) 자료에 상수를 더하거나 곱해도 불변 (3) r은 선형관계만을 나타내는 척도

4. 2 상관계수

1 1  

r ( 은 완전 역상관 은 무상관

은 완전 정상관)

 1 r

 0 r

 1 r

y

x

y 0

0 )

( ) (

r

y y

x

xi i

그러나 2차 곡선 관계 존재

(15)

Honggie Kim

몇가지 산점도

(16)

Chapter 4. 상관과 회귀

4. 3 회귀분석

(Regression analysis)

 높은 상관관계를 갖는 두 변수

 Ex) 돼지 Example

x y

20

10

y x , :

bx a

y  

선형관계

x

y 2

715

(대략적으로

찾아본 관계식)

(17)

Honggie Kim

회귀분석

 두 변량간의 관계식을 회귀식

 두 변량간의 관계를 나타내는 선을 회귀선

(regression line)

 두 변량간의 관계식을 구하는 분석을 회귀 분석

(1) 상관계수 r이 0에 가까우면 회귀분석 불필요 (2) 회귀식을 써서 예측 가능. 단, 조정(control)이

가능하려면 인과관계가 필요함.

회귀선은 회귀직선 회귀곡선

. Note

Ex)

yabx

주식시세 쥐 마리수

(예측은 가능하나 조정은 불가)

(18)

Chapter 4. 상관과 회귀

회귀분석

 가장 좋은 회귀식을 찾을 필요

4. 3 회귀분석

bx a

y  

최소 자승 회귀선

(least squares regression line)

i

x

x

y

yi

i

ˆ )

(

yi a bxi

ei

“직선과 관측점까지의 거리 제곱합을 최소”

(19)

Honggie Kim

회귀식 유도

i i

i

y y

e   ˆ

2 2

)]

( [

) ,

( a b e

i

y

i

a b x

i

Q       

0 )

1 )(

( 2 )

,

( a b   y

i

abx

i

  da Q

d

0 )

)(

( 2 )

,

( a b   y

i

abx

i

x

i

db Q

d

)

(

i

i

a b x

y   

(관찰된 값

y

– 직선에 의해 계산된 값)

y

) 1 (

0   

 

y

i

n a b x

i

) 2 (

2

0

 

  

x

i

y

i

a x

i

b x

i

오차

잔차

(residual)

(20)

Chapter 4. 상관과 회귀

회귀식 유도

) ( 0

) (

) 1

( x y n a x b x

2

a

x

i

  

i

i

  

i

 

i

 

) ( 0

) 2

( n x y n a x n b x

2

b

n   

i i

  

i

  

i

  )

( )

( ba

xi yi xi yi nb xi2 b( xi )2

n

   

 

2 2

) (

) )(

(

i i

i i

i i

x x

n

y x

y x b n

)

2

(

) )(

(

x x

y y

x x

i

i

i

 

 1 ( )

i

i

b x

n y a

x b y  

, ) 1 ( From

( 성립 Note . y a b x ( x , y ) 는 회귀직선위에 존재)

4. 3 회귀분석

(21)

Honggie Kim

돼지 example의 회귀식

833 .

60 5 . 0

5 . 3 )

(

) )(

(

2

 

 

 

x x

y y

x b x

i

i i

333 .

3 6 2 19

6

18  35   

y b x a

먹이 1Kg당 늘어난 체중증가

의 의미 : 가 한단위 증가할때 의 증가량

b x y

그러므로 y x

6 35 3

ˆ  19  ( 와 비교) y x 2

5  15

회귀직선 사용시 유의할 점 : 실험한

x

범위 내에서만 유효

)

( 7 . 6 589

) 3538 100

6 ( 35 3

ˆ 19

100 y kg

x      

(22)

Chapter 4. 상관과 회귀

r과 b의 관계

)

2

(

) )(

(

x x

y y

x b x

i

i

i

 

4. 3 회귀분석

1 )

(

1 )

( )

( )

(

) )(

(

2 2

2 2

 

 

 

 

 

n x

x

n y

y y

y x

x

y y

x x

i i

i i

i i

x r y

s r s

x

y  

의 표준편차

의 표준편차 이 양수

r b

이 양수

이 음수

r b

이 음수

0

r b0

과 의 부호는 동일

r b

(23)

Honggie Kim

실생활에서의 회귀식

H H

W  (  100) 0.9  900.9

교수님 : W  ( 174  100 )  0 . 9  66 . 6

몸무게 키

키가 100cm인 유치원생 .

Note W  0 ( ? )

(24)

Chapter 4. 상관과 회귀

(결정계수)

의 계산

(교과서에는 없는 내용)

SSR SSTO R

2

4. 3 회귀분석

2

2 , ( ˆ )

)

(y y SSR y y

SSTO

i  

i

SSE SSR

SSTO y

y

SSE   (

i

ˆ

i

)

2

,  

(25)

Honggie Kim

 돼지 example의 회귀식 :

돼지 example의 회귀식 계산

xi yi i yˆiy (yˆiy)2 yiyˆi

2.0 1.7 2.2 1.6 2.4 2.0 1.8 2.1 2.3 1.9 20 2.0

18 16 15 15 20 19 18 20 22 17 180

18

18 16.25 19.166 15.666 20.333

18 16.833 18.583 19.75 17.416 합 계

평 균

0 -1.75 1.166 -2.334

2.333 0 -1.167

0.583 1.75 -0.583

0

0 3.0625

1.360 5.448 5.443

0 1.360 0.340 3.063 0.340 20.4165

0 -0.25 -4.166

0.666 0.333

1 1.167 1.417 2.25 -0.416

0

0 0.0625 17.361 0.443 0.111

1.0 1.362 2.008 5.063 0.1735 27.584

)2

(yiyˆi

i

i x

y 6

35 3

ˆ  19 

(26)

Chapter 4. 상관과 회귀

돼지 example의 R²

(결정계수)

의 계산

SSTO R

2

SSR

4. 3 회귀분석

4253 .

 0

) (

6522 .

0 4253

.

0 r 상관계수

R   

584 .

27 4165

. 20

4165 .

20

 

48 4165 .

 20

참조

관련 문서

심폐지구력/근력운동프로그램의 실제와 적용 Chapter 4. 유연성/이완 운동프로그램의 실제와 적용 Chapter 5. 영양과 체중조절 프로그램의 실제와 적용 Chapter

 합의에 의해 특정핚 글자나 소리의 조합이 우리에게 의미를 갖게 된 것이지 그 상징 자체가 본래부터 어떤 단어의 의미를 가지고 있었던 것은

영주(장원)제도;

먹는 것에 대한 유혹을 이겨냈을 때에는 자신에게 상 을 주십시오.. (먹는

비만과 사망률 Effects of obesity on mortality 체질량지수 혹은 체중 증가와 사망률 사이에는 밀접한 연 관성이 존재함은 잘 알려져 있다.. 체질량지수 증가는

For nongyroscopic conservative systems and for those of the purely and completely dissipative type, P 1 still marks the transition between the stable

5 Chapter 4: The Service Encounter Presentation / workshop 6 Chapter 5: Supporting Facility and Process Flows Presentation / workshop 7 Chapter 6: Service Quality

따라서, 삼각비의 값들은 모두 같아질 것이므로 위의 식들은 굳이 증명하거나 외울 필요가 없다... (p+q )는 제3 사분면에 위치하고 제4 사분면에서는