• 검색 결과가 없습니다.

Regression Analysis - 상관관계도 알고 예측도 하고

문서에서 연구 잘 하는 길 (페이지 169-178)

김영표 _ 국토연구원 선임연구위원

기법 탄생: 르장드르에서 싹터 갈톤에서 개화

통계학적 회귀분석(回歸分析, Regression Analysis)은 여러 변수들 사이의 상호관계를 계량적으 로 분석하는 기법이다. 이러한 회귀분석을 하는 목적은 크게 두 가지다. 하나는 추정과 예측 (prediction)을 하기 위해서고, 다른 하나는 세상이 작동하는 방식을 잘 이해할 수 있도록 변수들 사이의 상호관계(relationship)를 파악하기 위해서다.

회귀분석하는 과정의 첫 단계에서 수학적으로 최소자승법(Method of Least Squares)을 사용 하게 되는데, 그 개념의 기틀을 세운 학자들은 프랑스의 수학자 르장드르(Adrien-Marie Legendre, 1752~1833)와 독일의 과학자 가우스(Johann Carl Friedrich Gauss, 1777~1855)이다.

19세기 초엽에 르장드르(1805년)와 가우스(1809년)는 둘 다 천문관측을 하면서 행성들의 궤도 를 알아내는 데 최소자승법을 이용하였다. 특히 가우스는 1821년에 이르러 가우스-마코프 정리 (Gauss-Markov Theorem)를 포함한 훨씬 발전된 최소자승이론을 제시하였다.

그 후 회귀(回歸, regression)라는 용어를 처음 만들어 사용한 사람은 19세기 영국 빅토리아 시대 때 천재적 만물박사였던 프랜시스 갈톤(Francis Galton, 1822~1911)이다. 그는 인류학을 비롯하여 우생학, 지리학, 기상학, 유전학, 심리학, 통계학에 이르기까지 여러 분야에서 업적을 이루었고, 나아가 열대지역탐험가와 발명가로서도 발자취를 남겼다. 찰스 다윈(Charles

Darwin)의 사촌이기도 했던 갈톤은 생물학적 유전현상을 체계적으로 설명하기 위해 회귀라는 신조어를 만들었다. 본래 회귀란 옛날 상태로 되돌아가는 것을 뜻하는데, 갈톤은 다윈의 진화론 을 반증(反證)하기 위해 이 용어를 사용하였다. 그는 진화론적으로 키 큰 부모의 자식들은 키가 더욱 커질 것이고, 키 작은 부모의 자식들은 키가 더욱 작아질 것이므로, 세대가 거듭될수록 그 분산의 격차가 커질 것이라는 가설을 세웠다. 그런데 갈톤이 아버지의 키와 아들의 키 사이의 상관관계를 연구해보니, 대체로 키 큰 아버지의 아들은 평균 키보다는 커도 아버지보다 는 작고, 키 작은 아버지의 아들은 평균 키보다는 작으나 아버지보다는 커서, 종국적으로 아들들 의 키는 인류 전체의 평균 키로 되돌아가려는, 즉 회귀하려는 경향이 있다는 사실을 발견하였다.

갈톤은 그러한 현상을 분석하는 데 사용한 방법을 회귀분석이라고 명명하였다. 그 후 갈톤의 경험적 연구를 바탕으로 율(Udny Yule, 1871~1951)과 피어슨(Karl Pearson, 1857~1936)은 아버지와 아들의 키를 조사한 결과를 바탕으로 함수 관계를 도출하고 회귀분석과 관련된 수학 및 통계학적 논리를 보다 세련되게 확장 정립하였다. 특히 피어슨은 1,078군데 가정의 아버지와 아들의 키를 조사하여 그 자료를 바탕으로 <식 1>과 같은 아버지 키(X)와 아들 키(Y) 사이의 선형관계식을 도출하였다.

Y = 33.73 + 0.516X (단위: 인치) <식 1>

르장드르 가우스 갈톤

<그림 1> 초기 회귀분석방법론 개발과 개념정립에 기여한 인물들

단순선형회귀분석: 독립변수 하나를 가진 일차식의 경우

1. 단순회귀분석과 다중회귀분석

회귀분석을 할 때 우리가 추정하거나 예측하고자 하는 변수를 종속변수(Y)라 하고, 그 변수를 추정하거나 예측하는 데 영향을 미치는 관계변수를 독립변수(X)라고 한다. 독립변수는 상황에 따라 하나일 수도 있고 둘 이상 다수일 때도 있다. 만약 하나의 종속변수와 하나의 독립변수 사이의 관계를 분석할 경우 그러한 회귀분석을 단순회귀분석(單純回歸分析, Simple Regression Analysis)이라 하고, 하나의 종속변수와 둘 이상 여러 개의 독립변수들 사이의 관계를 파악하고 자 할 경우 그러한 회귀분석을 다중회귀분석(多重回歸分析, Multiple Regression Analysis)이라 한다.

2. 선형회귀분석과 비선형회귀분석

선형회귀분석(線形回歸分析, Linear Regression Analysis)이란 회귀모형(회귀식)의 변수들이 선 형관계에 있다는 의미가 아니라 그 파라미터(계수)들이 선형관계에 있도록 회귀식을 구성하고 분석하는 경우를 말한다. 반면 비선형회귀분석(非線形回歸分析, Nonlinear Regression Analysis)은 회귀모형(회귀식)의 파라미터(계수)들이 비선형의 형태로 이루어진 함수로 회귀분 석하는 경우를 말한다. 이 경우 선형회귀분석과는 달리 일반적으로 가장 적합한 계수를 찾는 정형화된 방식은 없다. 그러므로 수치해석학 상의 최적해를 찾는 알고리즘, 예를 들어, 가우스-뉴턴 방식(Gauss-Newton Method)의 알고리즘 등을 이용하여 가장 적합한 계수를 찾을 수 있다.

3. 횡단면자료와 시계열자료

회귀분석을 할 때 사용하는 자료는 크게 두 종류가 있다. 하나는 횡단면자료(橫斷面資料,

Cross-Sectional Data)이고, 다른 하나는 시계열자료(時系列資料, Time Series Data)이다. 횡단 면자료는 같은 시점을 기준으로 관측대상 주체(개인, 기업, 지역, 국가, 주택, 필지 등)별로 그들이 지닌 속성들(나이, 업종, 지역총생산, 재정규모, 방수, 지가 등)을 조사 또는 수집한 자료를 말한다.

시계열자료는 독립변수나 종속변수 모두 시간에 따라 주기적으로 측정된 자료를 말한다.

여기서 주기는 연, 월, 일, 시간 등 분석 필요에 따라 기간을 구분하면 된다. 시계열자료를 사용하면 독립변수들의 관측 또는 예측된 값이 주어졌을 때 종속변수의 미래값들을 예측할 수 있다.

이 밖에도 여러 시점에 걸쳐 관측된 다중적 현상을 조사한 값들로 구성된 자료의 집합, 즉 시계열적 횡단면자료의 묶음을 패널자료(Panel Data)라고 한다. 횡단면자료나 시계열자료가 모두 1차원적 자료인 데 비해, 패널자료는 2차원적 자료 형태를 갖추고 있다.

4. 산포도와 회귀선

우리가 수집한 자료를 이용하여 단순회귀분석을 하려고 할 때, 먼저 자료들을 X-Y 좌표축에 표시하여 산포도(scattergram)를 그려보면, 독립변수(X)와 종속변수(Y)의 관계를 알 수 있기 때문에 추정해야 할 회귀선(Regression Line)의 형태도 쉽게 파악할 수 있다.

양의 선형관계 [Y=a+bX]

음의 선형관계 [Y=a-bX]

상관관계 없음 양의 체증관계 [Y=a*exp(bX)]

<그림 2> 변수들 사이의 관계를 나타내는 산포도

<그림 3> 모집단 회귀선과 오차항 첫 번째 그림에서 X와 Y는 서로 양의 선형관계를 이루므로, 파라미터 a와 b가 둘 다 양이라고 할 때, 회귀선은 Y=a+bX 형태로 나타날 것이고, 두 번째 그림에서는 서로 음의 선형관계를 보이므로 회귀선은 Y=a-bX 형태로 추정될 것이다. 세 번째 그림에서는 독립변수와 종속변수 사이에 아무런 관계를 찾을 수 없으므로 특정한 회귀선을 구성할 수 없고, 네 번째 그림에서는 X가 커질 때 Y의 증가량이 체증하는 Y=a*exp(bX) 형태의 회귀선을 상정하는 것이 적합하다.

5. 모집단 회귀선과 오차

우리가 아파트전용면적(X)과 아파트가격 (Y)의 관계를 분석하려고 할 때, X의 어떤 값(30평)을 취한 다음 그 값에 대한 모집단 (서울시아파트)의 Y의 평균과 분산을 구할 수 있다. 그렇게 구한 평균과 분산은 μY|X

와 σ2Y|X 로 표기된다. 현실적으로 (X, Y) 좌표체계 상의 모든 점들이 하나의 직선상 에 위치할 수 없지만, 회귀모형에서는 모집 단의 평균값들 즉 μY|X 가 하나의 직선상에 존재한다고 가정한다. 바로 이 가상의 직선 을 모집단 회귀선(Population Regression

Line)이라고 부른다. 달리 표현하면, 모집단 회귀선은 (X, μY|X)로 표현되는 모든 점들로 구성되 는 직선을 말한다. 따라서 모집단 회귀선은 다음과 같은 수식으로 표현된다.

μY|X =   <식 2>

한편 현실적으로 표본의 (X, Y) 좌표값들이 모두 모집단 회귀선상에 놓여 있을 수는 없다.

특정한 X값이 주어졌을 때, 거기에 해당하는 Y값들 가운데 어떤 것은 모집단의 회귀선상에 위치할 수도 있지만, 다른 Y값들은 회귀선 위쪽 또는 아래쪽에 위치할 수도 있다. X값이 주어졌 을 때 해당하는 Y값과 μY|X값의 차이를 오차(error, ε)라 하고, 이들의 관계식을 정리하면 <식

3>과 같다. 그리고 이 식을 단일 관측점에 대한 회귀식이라 부른다.

Y =

μ

Y|X + ε

=    <식 3>

6. 최소자승법으로 회귀식 구하기

1) 모형의 가정

회귀분석을 위한 최소자승법을 적용하기에 앞서 회귀모형     에 대한 몇 가지 전제와 가정이 필요하다.

첫째, 모집단의 회귀선을 둘러싼 모든 오차항들의 평균은 0이다.

둘째, 오차항들은 독립변수 X의 각 값에 대하여 같은 분산 σe2

를 가진다.

셋째, 오차항들은 정규분포를 한다.

넷째, 오차항들은 확률적으로 서로 독립적이다.

즉 한 마디로 요약하면 오차항들은 독립적인 N(0,σe2

) 확률변수들이다. 회귀분석 과정 에서 이러한 가정들은 반드시 충족되어야 하는 전제조건들이다.

2) 추정회귀선과 잔차

앞의 <식 3>에서 모집단의 회귀파라미터(Regression Parameter) 을 추정하기 위해, 먼저 번째 관측값 즉 (,) 좌표에 대한 회귀식을 <식 4>와 같이 표기한다.

    <식 4>

여기서 오차항

는 관측값 에서 참회귀선(모집단회귀선)까지의 수직거리이다. 이

<그림 4> 참오차와 잔차의 차이점 것을 참오차(True Error)라고 한다.

일반적으로 우리가 을 알 수 없기 때문에,

의 값을 정확히 계산 할 수는 없으나, 통계학적으로 추정하 는 방법은 개발되어 있다.

의 추정값을 이라 하면, 추정회귀식은 <식 5>와 같다.

= + <식 5>

여기서 는 추정회귀식을 통해 구

의 추정값이다. 일반적으로 의 값은 같지 않다. 그 이유는 첫째 은 참회귀식이 아니라 추정회귀식으로 계산한 값이기 때문이고, 둘째 비록 참값 을 안다고 하더라도 오차항을 모르기 때문에 값을 확실히 추정할 수는 없다. 이 때 관측값 와 추정값 의 차이를 잔차(殘差, residual)라고 부르며, 로 표기한다.

 = - <식 6>

기하학적으로 잔차는 관측값과 추정회귀선 사이의 수직거리이다.

3) 최소자승법의 활용

우리가 수집한 표본자료를 이용하여 회귀선을 추정하고자 할 때, 잔차들이 작을수록 좋은 회귀 선이 될 것이다. 그런데 잔차는 양(+)의 값을 지니기도 하고 음(-)의 값을 지니기도 하므로, 잔차들을 단순히 합산하면, 전체 잔차들의 규모가 나타나는 것이 아니라 오히려 0에 가까운

우리가 수집한 표본자료를 이용하여 회귀선을 추정하고자 할 때, 잔차들이 작을수록 좋은 회귀 선이 될 것이다. 그런데 잔차는 양(+)의 값을 지니기도 하고 음(-)의 값을 지니기도 하므로, 잔차들을 단순히 합산하면, 전체 잔차들의 규모가 나타나는 것이 아니라 오히려 0에 가까운

문서에서 연구 잘 하는 길 (페이지 169-178)