알기 쉬운 연구방법론
패널모형:
시계열 분석과 횡단면 분석을 한번에
최충익|강원대학교 행정학과 교수
패널데이터 무엇이 좋은가
1. 패널데이터의 개념
패널모형이란 패널데이터를 이용한 계량경제분 석으로서 시계열 분석과 횡단면 분석을 동시에 수 행하는 분석모형을 의미한다. 패널데이터는 데이 터의 유형 중에서 가장 정보가 많고 유용하여 연 구자들이 가장 선호하는 데이터 형태라고 볼 수 있다. 시계열 자료의 정보와 횡단면 자료의 정보 를 모두 이용할 수 있기 때문에 연구자들이 실증 분석에 있어서 가장 선호하며 자주 사용하고 있 다. 패널데이터를 사용하기 위해서는 각별한 계량 경제학적 테크닉이 필요한데 시계열 자료와 횡단 면 자료의 장점을 극대화시키는 방법에 대한 연구 가 지금도 활발하게 이루어지고 있다.
패널데이터는 횡단면적인 데이터 정보뿐만 아
니라 시계열 데이터 정보를 보유하고 있어 시계열 분석 내지 횡단면 분석만으로 파악할 수 없는 추 가적 정보를 얻을 수 있는 정보의 보고라고 할 수 있다. 무엇보다 실증분석(empirical research)에 있어서 패널분석이 가장 효과적인 방법이 될 수 있음은 패널데이터만이 가지는 여러 가지 장점이 있기 때문인데 Hsiao(1985), Klevmarken(1989),
Solon(1989)는 패널데이터 분석에 대해 다음과
같은 장점을 들고 있다(Baltagi, 2001: 5-9에서 재 인용).첫째, 패널데이터는 개별적 특이성(individual
heterogeneity)을 통제할 수 있다는 것이다. 개별
적인 특이성을 통제하지 못할 경우 시계열분석이 나 횡단면분석은 왜곡된 결과를 얻을 위험이 커지 게 되는데, 패널데이터 분석은 시계열 분석이나 횡단면 분석에서는 불가능한 개별특성효과 (individual effect)와 시간특성효과(time effect)를모두 통제할 수 있는 장점이 있다. 둘째, 패널데이 터는 연구자에게 다양한 정보를 제공해주며 다중 공선성의 문제를 줄일 수 있다는 것이다. 게다가 보다 많은 자유도(degrees of freedom)와 가변성 (variability)를 제공해주어 분석을 용이하게 해준 다. 셋째, 패널데이터는 조정의 동태성(dynamics
of adjustment)을 가능하게 해준다는 것이다. 상대
적으로 안정된 횡단면 분포에서는 포착하기 힘든 다양한 변화를 포착하게 도와준다. 넷째, 패널데 이터는 순수한 횡단면이나 순수한 시계열데이터 에서 포착하기 힘든 효과를 보다 잘 측정해낼 수 있다는 것이다. 다섯째, 패널데이터는 횡단면자료 나 시계열자료에 비해서 복잡한 행태적 모형을 구 축 및 검증하게 해준다. Hsiao (1986)는 시차모형 (lag model)에 있어서도 패널데이터가 시계열자 료보다 자료에 대한 제약이 덜 가해지기 때문에 효과적이라고 하였다. 여섯째, 패널데이터는 개 인, 기업, 정부 등과 같이 미시적인 단위에서 수집 되는 데이터에서 발생하는 편이(bias)를 통제하게 해준다. 이것은 두 번째의 개별특성효과와 비슷한 것으로 개별 데이터 셋(set)에서 생길 수 있는 각패널모형은 시계열과정에서 발생 하는 추정오차와 지역별 단위의 자료에서 발생하는 추정오차를 통제할 수 있는 장점을 가지고 있 기 때문에 횡단면 또는 시계열자료에 비해 현실을 보다 제대로 분석할 수 있는 장점이 있다(Baltagi,
2001:5-9). 일반적으로 회귀방정식을 설정할 때
종속변수에 영향을 미치는 모든 변수를 포함할 수 는 없다. 설사 모든 변수를 포함시킨다고 하더라 도 그것이 가장 좋은 모형이라고 판단하기도 어렵 다. 하지만 중요한 것은 종속변수에 매우 중요한 영향을 미침에도 불구하고 독립변수로 포함되지 않은 요인들이 있을 경우 추정된 모형이 매우 위 험하게 된다. 패널모형은 이러한 누락된 변수 (omitted variable)에 대한 한계를 극복하는 데에 가장 큰 의의를 가지고 있다.패널모형은 어떠한 원리를 갖는가
패널모형은 패널데이터가 가지고 있는 다양하고 풍부한 정보들을 가장 효과적으로 추출해 내는 분 석기법으로서 계량경제학에서 가장 이상적인 분 석기법으로 간주된다. 횡단면분석이나 시계열분 석에서는 통제 불가능한 누락변수(unobservable
omitted variable)에 대한 처리를 해주기 때문에
Panel Data의 특징
복잡한 행태적 모형
구축가능 Data Bias 통제 추가적 정보유출
알기 쉬운 연구방법론
[20]
제반 변수들에 대한 통제가 불가능한 사회과학연 구에서는 매우 유용한 분석모형이다.
누락된 변수를 제어하기 위해서는 오차항에 대 해서 개인(individual) 간에는 다르나 시간변동이 없는 변수, 시간변화에 따라 변동하나 개인 간에 는 차이가 없는 변수, 개인 간에도 차이가 있고 시 간변화에 따라서도 변동하는 확률적 교란항으로 구분하여 다루게 된다. 이를 일반적인 선형모형으 로 표현하면 아래 식과 같다(Ashenfelter, et al.,
2002: pp268-269).
(단, , i(지역)= 1, 2...N, t(년 도)=1, 2...T)
= 관찰되지 않은 지역특성 효과(unobservable
individual effect)
= 관찰되지 않은 시간 효과(unobservable time
effect)
= 확 률 적 교 란 항 (remainder stochastic
disturbance term)
한편, 이러한 오차항의 형태에 따라 Random
Effect Model과 Fixed Effect Model로 나뉜다. 어
느 모형을 선택할 것인가는 연구자에게 매우 중요 한 문제가 된다. 이들 모형의 선택은 단순한 선택의 문제를 넘어서 계량경제학계에서도 최근 크게 부각되고 있다(Baltagi, 2001:20). 또한 이들 모형 은 오차항 고려방식에 따라 One-Way Error
Component Regression Model과 Two-Way Error Component Regression Model로 나누어지며 오차
항에 대한 가정에 따라서 Fixed Effect Model과Random Effect Model로 나뉜다.
One-Way Error Component Regression Model
은 시간의 흐름에 따라 변하지 않으며 관찰되지 않은 특정한 변수가 지역마다 잠재해 있다는 가정 을 하는 Fixed Effect Model과 시간에 따라 변한 다고 가정하는 Random Effect Model으로 나뉜다.반면 Two-Way Error Component Regression
Model은 시간의 흐름에 따라 변하지 않고
(invariant over time) 관찰되지 않는 특정한 변수 가 지역마다 잠재해 있고 시계열별 독특한 특성이 매 기간에 잠재해 있음을 가정하는 Fixed EffectModel과 지역마다 시간마다 모두 고정되지 않고
확률적(stochastic)으로 변화한다고 가정하는Random Effect Model으로 나뉜다.
어떤 상황에서 어떤 모형이 사용되는가
앞서 One-Way Error Component Regression
Model과 Two-Way Error Component Regression
구분 Fixed Effect Model Random Effect Model
One-Way Error Component Regression Model I II
Two-Way Error Component Regression Model III IV
<표 1> 패널데이터분석의 구분
바가 모두 다르나 일반적 내용에 대해서 설명하면 다음과 같다.
두 모형을 구분하는 가장 탁월한 방법은 시간 불변의 개별특성효과가 독립변수들과 관련이 되 어 있는가를 살펴보는 것이다. 관련이 있게 되면
Fixed Effect Model을 쓰게 되며 관련이 없을 경
우 Random Effect Model을 선택하게 된다 (Johnston, 1997: 403). 재미있는 것은 RandomEffect Model이 유효한 경우라도 Fixed Effect Model에 의해 산출된 계수 값은 여전히 일치추정
량(consistent estimates)을 제공한다는 것이다. 그 때문에 연구자들은 시간불변의 특정 요소가 독립 변수들과 관련되어 있는지에 대한 확실한 정보가 없을 경우 Random Effect Model보다 FixedEffect Model을 선호하는 경향이 있다(Johnston, 1997: 403).
Fixed Effect Model과 Random Effect Model
어느 쪽도 완벽한 모형은 되지 못한다(Johnston,1997: 403). 하지만 실증분석에 있어서 두 모형에
대한 합리적인 선택을 하기 위해서는 장단점을 살펴보는 것도 의미가 있다. Fixed Effect Model 의 가장 큰 장점은 개인마다 개별특성효과를 구 분하여 계수를 추정한다는 데에 있다. 하지만 개 별특성효과를 반영하는 더미변수를 생성하는 과 정에서 너무 많은 자유도를 소모하게 되어 결과 적으로 독립변수들에 대한 계수값 추정이 상대적가정이 따르는 것이 흠이다. 왜냐하면 개별특성 효과가 독립변수와 전혀 관계를 가지면 안되기 때문이다. 실제 분석에서 이를 충족시키기란 여 간 어려운 일이 아니기 때문이다(Ashenfelter, et
al., 2002: 272). 그렇게 되면 두 모형을 선택하게
해주는 어떠한 기준이 필요하게 된다. 실증분석 에 있어서 두 모형 중에 어느 것이 더욱 적합한지 에 대한 테스트가 바로 하우스만 검정(HausmanSpecification Test)이다.
패널모형 적용사례
1. 수해피해모형
수해피해 양상은 너무도 복잡하고 지역마다 시기 마다 다양한 원인에 의하여 피해가 발생하기 때문 에 이러한 특성을 모두 변수화시켜 분석하기란 거 의 불가능한 일이다. 더욱이 개별 사례지역을 실 증분석을 할 경우 서로 이질적인 지역들이 각기 다른 양상의 수해를 가지고 피해액을 발생시키기 때문에 이러한 지역적 특성을 감안한 분석모형이 필요하게 된다. 따라서 통제하지 못한 다양한 변 수들에 대해서 통계적으로 고려해주는 것이 불가 피하다(Hausman & Taylor, 1981: 1377). 이러한 의미에서 패널모형은 도시지역의 수해결정요인 을 실증분석 함에 있어서 가장 이상적인 분석 형
알기 쉬운 연구방법론
[20]
태라고 볼 수 있겠다. 또한 수해 피해의 경우에 있 어서도 모형에 반영한 변수들로는 설명이 되지 않 는 눈에 안 보이는 어떤 변수가 있다는 것을 고려 할 필요가 있다. 아무리 분석모형에 설명변수를 추가시키더라도 결국 설명하지 못하는 변수는 생 기기 마련이기 때문이다.
재해피해의 경우 지역적 차이와 정책적 요소에 의해서 매우 복잡한 메커니즘을 가지기 때문에 주 어진 독립변수들만으로 재해피해를 모두 설명할 수 없다. 패널데이터분석을 실시하는 가장 큰 이 유가 여기에 있다. 지역마다 재해피해 차이에 영 향을 주는 관찰되지 않은 중요한 요소(omitted
unobservable variable)가 누락되었을 가능성이 있
기 때문이다. 이러한 관찰되지 않은 누락된 변수 (omitted unobservable variable)에 대해서 계량경 제학적으로 적절히 처리하여 줌으로써 최적의 모 형결과가 나올 수 있도록 해 줄 필요가 있다. 패널 데이터가 가지는 풍부한 정보를 다양한 분석기법 을 통하여 추출해낼 수 있어 정책적 시사점을 도 출하기에도 적합하다.아울러 지역마다 각기 다른 수해피해양상을 가 지고 있음을 반영하여 분석할 수 있기 때문에 주 어진 자료에서 최대한의 정보를 얻을 수 있는 장 점이 있다.
사례 연구에서는 시간에 따르는 도시화 영향을 살피기 위해 Time-Series 자료가 활용되고 수해 피해에 영향을 주는 요소와 그 정도를 파악하기 위해 Cross-Section 자료가 활용된다. 도시지역에 서 수해를 결정하는 요인은 매우 다양하기 때문에 모든 요소를 파악하여 일일이 변수화하기란 거의
불가능하다. 그러므로 수해피해모형의 경우 관찰 되지 않아 모형에 반영되지 않은 누락 변수가 있 음을 고려할 필요가 있다. 아무리 분석모형에 설 명변수를 추가시키더라도 결국 설명하지 못하는 변수는 생기기 마련이기 때문이다. 이에 따라 몇 가지 중요한 변수를 설정하여 메커니즘을 개념적 으로 파악하고 관찰되지 않은 변수에 대해서는 합 리적으로 처리하는 것이 타당하다.
2. 모수 추정사례
<표 2>의 표는 적용된 모형에 따르는 분석결과를 비교해서 보여주고 있는데 각 모형에 따르는 특성 을 잘 나타내고 있다. 전체적인 계수값의 특징을 살펴보면 Pooled OLS, Pooled WLS의 계수값보 다는 One-Way Model과 Two-Way Model에 의한 계수값이 대체적으로 적은 값을 취하는 것을 확인 할 수 있다. 이는 Pooled OLS와 Pooled WLS가 상당부분 계수값을 과대 추정하였음을 짐작하게 해주는데 관찰되지 않은 누락변수(unobserved
omitted variable)를 고려하지 못했기 때문이다.
또한 전반적인 오차의 정도를 보여주는 상수항을 보면 Pooled OLS와 Pooled WLS가 -78.06과 -
42.52를 보여 매우 높은 절대 값을 보이고 있으나
패널분석을 할 경우 급격히 줄어드는 것을 확인할 수 있다. 특히 Two-Way Model의 Fixed EffectModel의 상수항의 절대값은 -3.06으로 나타나 오
차항에 의한 불확실성이 상당부분 해소되었음을 단적으로 보여주고 있다.Region / Variable
Pooled OLS
Pooled WLS
One-Way Model Two-Way Model
Fixed Effect Model
Random Effect Model
Fixed Effect Model
Random Effect Model
Intercept -78.069** -42.523** -33.619** -40.230** -3.0648 -12.264**
도시적토지이용 2.347** 1.780** 1.774** 1.971** -1.260* 0.562
하천면적 0.081 -0.113 0.577 -0.176 0.507 -0.254
제방면적 0.695** 0.268** 1.444** 0.494** 0.443* 0.457**
임야면적 -0.973** -0.293 -0.972 -0.466 1.363 -0.120
강수량 4.244** 2.545** 2.409** 2.558** 1.433** 1.648**
월강우집중도 2.002** 1.112** 1.038** 1.116** 2.875** 2.349**
하절기강우집중도 10.161** 5.587** 4.647** 5.275** -0.697 1.293
인구밀도 -0.812** -0.263 -0.174 -0.307 -0.331 -0.250
재정자립도 -0.315 -0.170 -1.666** -0.439 -2.069** -0.783*
<표 2> 모형별 추정결과
<표 3> 지역특성효과 추정계수 region Estimate Standard
Error DF t Value Pr > |t| region Estimate Standard
Error DF t Value Pr > |t|
안성 11.561 0.7711 521 14.99 <.0001 포천 13.638 1.6451 521 8.29 <.0001 안양 18.308 2.9349 521 6.24 <.0001 평택 10.586 0.9798 521 10.80 <.0001 부천 17.497 4.1982 521 4.17 <.0001 시흥 12.770 0.9342 521 13.67 <.0001 가평 13.308 1.8605 521 7.15 <.0001 성남 14.005 1.6782 521 8.35 <.0001 김포 10.098 1.2916 521 7.82 <.0001 수원 15.722 2.7601 521 5.70 <.0001 고양 12.036 1.1757 521 10.24 <.0001 의정부 15.818 2.4038 521 6.58 <.0001 광주 15.335 0.9891 521 15.50 <.0001 양주 12.768 1.6626 521 7.68 <.0001 화성 11.980 0.9732 521 12.31 <.0001 양평 13.780 1.8212 521 7.57 <.0001 인천 11.382 0.4928 521 23.10 <.0001 여주 12.161 1.0211 521 11.91 <.0001 파주 11.595 0.8522 521 13.61 <.0001 연천 15.375 1.1349 521 13.55 <.0001 용인 13.357 1.0052 521 13.29 <.0001
*유의수준 10%에서 유의함
**유의수준 5%에서 유의함
알기 쉬운 연구방법론
[20]
는 것이다. 이 수치가 크다는 것은 기존의 독립변수로서 해 당 지역의 수해 피해의 양상을 설명하지 못하는 부분이 많음 을 의미하며 수해에 대한 불확 실성이 그 만큼 커짐을 뜻한다.
안양과 부천의 경우 가장 높은 수치를 기록하고 있는데 이 두 지역의 경우 무엇인지는 알 수 없지만 수해피해를 증가시키게 했던 지역 고유의 특성이 타 지 역보다 강하게 작용했음을 보 여주고 있다. 추정치를 보면 계
수값이 모두 Positive(+)로 나타나 대부분의 지역 에서 관찰되지 않는 지역효과에 의해서 수해피해 가 증가된 것으로 분석되었다. 이는 지역마다 수 해에 대한 불확실성의 정도가 다름을 의미하며 이 는 지역특성에 기초한 수해관리정책의 필요성을 시사하는 것이다. 다음 표에서 지역마다 관찰되지 않는 고유한 특성이 있음이 통계적으로 유의하게 확인되는데, 이는 수해피해가 지역마다 각기 다른 양상과 패턴을 가지고 발생했음을 보여준다.
4. 시간특성효과 분석사례
<그림 3>을 보면 1970년대 이래로 시간특성효과 의 값이 커지고 있음을 확인할 수 있다. 이는 시간 의 흐름에 따라 관찰되지 않은 변수에 의해서 수 해피해가 증가하고 있음을 시사하고 있다. 독립변 수들만으로는 설명이 되지 않는 어떤 요인에 의해
21개 지역 모두에게 수해피해를 증가시키는 구조
적이고 체계적인 영향력이 작용했음을 보여준다.이러한 영향 요인으로서 급격한 기상변화를 예로 들 수 있다.
자연적 요소로서 연평균 강수량, 월강우집중 도, 하절기 강우집중도를 선정했지만 이들 변수만 으로 자연의 기상변화를 모두 설명하기에는 어려 움이 따랐음을 반증한다. 이는 기상현상이 복잡해 지고 있음을 단적으로 보여주고 있으며 이러한 시 간특성효과의 추세는 본 연구의 사례지역인 경기 도에만 국한되지 않을 수 있음을 시사한다. 기상 변화의 영향은 전국적일 수 있으며 나아가 전세계 적인 영향을 미칠 수 있기 때문이다.
산업화 도시화가 더욱 심화되는 가운데 이러한 시간특성효과에 따르는 이유를 알 수 없는 불확실 한 요소에 의한 수해의 증가는 합리적인 수해관리 체계가 시급히 이루어져야 함을 보여준다. 시간특
<그림 3> 패널모형에 의한 수해의 시간특성효과
맺음말
패널데이터는 위에서 열거한 여러 가지 장점을 가 지고 있지만 몇 가지 한계를 지니고 있다. 첫째, 데 이터를 수집하고 설계하는 데에 많은 시간과 노력 이 소모된다는 것이다. 횡단면 자료와 시계열 자료 모두를 구축해야 하기 때문에 자료의 형태가 보다 복잡해지면서 이를 구축하기가 어렵다. 둘째, 패널 데이터의 시계열이 단기간일 경우 문제가 된다. 개 별 관측치들의 시계열 자료가 짧아짐에 따라서 제 한된 자료를 가지고 패널 분석이 이루어짐에 따라 분석결과의 신뢰가 떨어질 수 있다.
한편, 시계열과 횡단면 자료를 모두 가지고 있 기에 오히려 그만큼 분석이 어렵다는 점도 있다.
때문에 패널모형에 대한 계량경제학자들의 연구 는 지금도 활발히 진행되고 있다. 사회과학연구 에서 패널모형이 활용된다면 동일 데이터에서 얻 어낼 수 있는 정보의 양을 극대화할 수 있어 관련 연구 활성화에도 긍정적 기여를 할 것으로 생각 한다.
참고문헌
최충익, 2008, 도시화와 자연재해, 서울: 부연사.
Ashenfelter, O., Levine B.P. and Zimmerman J.D. 2003. Statistics and Econometrics: Methods and Applications, John Wiley
& Sons, Inc.
Baltagi, B. 1995. Econometric Analysis of Panel Data, John Wiley
& Sons, Inc.
Hsiao, C, 2003. Analysis of Panel Data, Cambridge University Press.
Johnston, J. and DiNardo, ,J. 1997. Econometric Methods, Mcgraw-Hill International Editions,