제 7장 공간적 자기상관 / 제13장 공간계량모델

(1)

제 7장 공간적 자기상관 / 제13장 공간계량모델

제1절 공간계량모델의 개념과 특성

[1] 선형 회귀모델의 개념과 특성

Ÿ 회귀분석: 종속변수와 설명변수들 간의 관계를 결정짓는 가장 적합한 회귀식을 찾는 것 Ÿ 추정된 예측치와 실측치와의 차이인 잔차(  _



_)를 가장 작게 해주는 회귀선 Ÿ 회귀모델들이 지니고 있는 기본 가정 가운데 반드시 준수되어야 하는 가정들 1.오차의 정규성 2.독립성 3.등분산성 4.공간적 자기상관의 배제 5.공선성 배제

▶ 공간적 자기상관의 배제

Ÿ 주어진



_값에서 회귀식에 의해 설명되지 않고 남은 각각의 오차는 공간상에서 서로 상관 되어 있지 않아야 한다는 가정이다.



__  

[2] 공간계량모델의 개념과 특성

Q. 왜 공간적 자기상관의 배제가 필요한 것인가?

(1) 공간 데이터의 특성

Ÿ 도시 및 지역을 대상으로 연구하는 사회과학 분야, 특정한 현상에 대한 공간분포에 관심 Ÿ 공간패턴(spatial pattern)분석: 특정한 현상이 공간상에 분산, 집중되었는가를 파악 이러한 공간패턴을 형성하는데 영향을 미친 공간과정을 밝히는 것(요인이 무엇인지)

Ÿ Tobler(1970) 지리학 제1법칙 : ‘모든 것은 그 밖의 다른 모든 것과 관련되어 있지만, 서로 가까이 있는 것들이 멀리 있는 것들보다는 더 높은 관련성을 보인다.’ ▶가까이 있을수록 유사하다. 이를 공간적 자기상관 (ex. 아파트 가격 강남-잠실 vs 강남-노원)

Ÿ 공간패턴을 분석하기 위해 수집되는 데이터: 특정한 현상의 공간분포 패턴을 분석하기 위 해 대상지역에 대한 속성데이터를 수집하게 됨. 집합적인 공간단위이며, 특히 센서스 자료 의 경우, 행정구역을 단위로 속성 데이터가 집계

▶ 행정구역으로 수집된 데이터(인위적으로 나누어짐)는 공간적 자기상관성이 상당 (ex. 부동산 가격의 공간분포, 대학생 비율의 공간분포, 특정 정당에 대한 지지도 분포)

Ÿ 공간 데이터의 측정과정에서 발생하는 오차뿐 아니라 공간적 상호작용으로 인해 공간적 자 기상관성이 존재한다면 공간패턴에 영향을 미치는 요인을 설명하는데 있어서 공간을 설명 변수로 고려하여야 함.

▶ 공간 데이터가 가지고 있는 공간 효과 1. 공간적 의존성(자기상관)

2. 공간적 이질성

(2) 공간계량모델의 핵심 개념과 특성

Ÿ 위 1,2가 심각하게 발생시 선형 회귀모델(OLS)를 사용하게 되면 오류가 발생

OLS 회귀모델에서는 종속변수의 관측치가 서로 독립되었다고 가정. 오차값도 독립가정 회귀식에 의해 설명되지 않은 잔차는 공간상에서 서로 상관되어 있지 않다고 가정 ▶ 공간 데이터가 지닌 문제점을 해결하여야만 OLS 회귀모델 이용 가능

(2)

comment.

Y가 X에 영향 받는 게 아니라 Y스스로가 주변지역에 의해서 같이 있음으로 영향을 받음

→ Y의 공간적 특성을 하나의 변수로 넣어 주여야 함.

▶ 공간적 의존성 해결방법 1. 공간적 의존성

Ÿ 표본의 크기를 늘인다

Ÿ 통계모델에 공간 의존성을 변수로 투입 2. 공간적 이질성

Ÿ 지역이 가진 서로 다른 입지적 특성으로 인하여 공간상 차이를 보이는 것 (도시와 농촌) Ÿ 각 지역별 특성을 통제할 수 있는 매개변수나 구조적 변화 등을 고려한 회귀모델 구축

▶ 공간계량모델

Ÿ 공간 데이터가 갖고 있는 공간적 종속성과 이질성 문제를 해결하기위해 사용되는 모델 Ÿ 어떤 특정한 현상의 공간분포와 그러한 공간분포 패턴에 영향을 미치는 요인들을 분석하는

데 있어서 공간 데이터가 갖는 공간 효과를 통제

Ÿ 공간적 자기상관 통제: 공간회귀모델 (공간시차모델, 공간오차모델) 공간적 이질성 문제: 공간확장모델, 공간체제모델, 지리가중회귀모델

제2절 공간적 자기상관성 분석

[1] 공간가중행렬의 개념과 구축

Q. 공간적 자기상관을 어떻게 측정하느냐?

(

comment.

어떤 공간패턴이 우연적인 것인지 or 어떤 체계를 따라 비슷한 것끼리 같이 몰려 있는 것인지 파악해야한다. i, j지역이 공간적으로 인접한지부터 Check!)

(1) 공간가중행렬

Ÿ 연구대상지역 내 다수의 지점들이 서로 공간적으로 인접하고 있는가의 여부 파악할 수 있 도록 행렬로 나타낸 것

Ÿ 공간상에서의 이웃관계 파악 시 이용

Ÿ W(n n) n개 지역, 지역 간의 잠재적 상호작용의 강도를 말해줌 Ÿ 공간적 자기상관성이나 공간적 상관관계를 알려주는 중요한 요인 (2) 공간가중행렬 구하는 방법 (p595 그림 13-1)

Ÿ 인접성을 기준으로(Rook, Bishop, Queen 방식) / 공간 거리를 기준으로 Rook방식: 두 지역의 경계선(변)이 공유되는 경우

Bishop방식: 두 지역이 모서리를 공유하는 경우

Queen방식: 두 지역이 변 또는 모서리를 공유하는 경우 (p231 그림 7-7) Ÿ 가중치는 0,1로 나타나며, 각 지역마다 공간적으로 이웃하는 지역의 유무 보여줌

Ÿ 현실에서는 연구대상지역의 형상과 크기가 매우 불규칙, 인접성을 정의, 측정하기 어려움

→ 인접행렬을 어떻게 구축했느냐에 따라 결과는 상당히 달라짐 (p596 그림 13-2)

(3)

comment.

인접성을 어떻게 정의하고 측정하는 가에 따라 공간가중행렬의 결과는 상당히 다르다.

거리, 이웃 수 기준은 인위성이 많아 애매할 수 있으므로 일반적으로 Rook 방식을 사용

comment.

인접행렬을 통해 각 구역마다 인접하는 구역이 정의 → 공간가중행렬 구축 → 공간상에서 나타나고 있는 특정한 현상이 공간적 자기상관성을 갖고 있는 가에 대해 가설을 수립하고 통계정 검정을 실행 → 전역적 자기상관, 국지적 자기상관 측정 → 유의o → 공간계량모델 사용

(3) 히스토그램

Ÿ 각 셀들이 인접하는 셀의 수를 집계하여 히스토그램을 구축, Ÿ 분포유형 파악. 정규분ㅍ포 패턴을 보이는 것이 바람직

Ÿ 인접행렬 전체적으로 볼 때 ‘0’이 아닌 비율이 어느 정도인가, 또는 전혀 연결되지 않은 섬 들로 나타난 지역이 있는가 파악

[2] 공간적 자기상관성 측정

Ÿ 명목자료인 경우: 변수를 이원화하여 명목변수로 변환. 간편하지만 많은 정보 잃게 되는 경우 발생 (p232 그림 7-8) (ex. 선거지리학, 집권당과 그 외의 당)

→ Y의 변량을 명목척도화하지 않고 변량의 크기에 따라 순위화하거나 그 변량의 크기를 그대로 이용하여 측정하는 것이 정확

Ÿ 등간자료와 비율자료인 경우의 측정: 모란I지수, G지수

▶Moran I 지수

Ÿ 지역 간의 인접성을 타나내는 공간가중행렬과 인접하는 지역들 간의 속성 데이터의 유사성 을 측정하는 것

Ÿ 전역적 통계량: 연구대상지역 내에서 유사한 값들의 전반적인 군집경향을 지표로 요약 Ÿ 국지적 통계량: 군집경향이 있는 특정지역을 중심으로 주변에 유사한 값들이 보이는 공간

적 군집패턴을 세부적으로 나타내는 통계량

(1) 전역적 자기상관성 측정

Ÿ 공간적 자기상관성을 측정하기 위한 두 지표 1. 인접성 W(i,j)

2. 유사성 sim(i,j)

▶ 전역적 모란 I통계량 산출식



 





  



_



  







_



^

 

  





  



_



_ 







_ 





▶







_







^



^



^

N: 지역단위 수,



_: I지역이 속성,



_: j지역의 속성, 



^{: 평균값,}_: 가중치 Ÿ 산출된 I값이 얼마나 통계적으로 유의한지 Z검정

Ÿ -1~+1 사이의 값. 1: 완전한 양의 자기상관, -1: 완전한 음의 자기상관관계

(4)

comment.

전역적 자기상관성에서 공간적 자기 상관이 있다고 나타나면 그것이 세부적으로 어느지역에서 나타나는지 보는 것.

Ÿ 높은 유사한 값들을 갖고 있는 지역들이 공간적으로 인접:+1에 가까운 값 높은 값과 작은 값을 가지는 지역들이 규칙적으로 섞여서 분포:-1에 가까운 값

Ÿ 한계점: 큰 값들이 군집되어 있는 경우나 작은 값들이 군집되어 있는 경우를 구분하지 못 함. 인구가 큰 지역군집, 작은 지역군집 모두 동일하게 자기상관도가 크게 산출→ G지수 Ÿ ex. 우리나라의 시군구 간 총 이동량이 공간적 자기상관성을 갖고 있는 가

결과 모란 I값 0.4579로 매우 유의하게 나타남. 자기상관성 매우 강하게 존재

해석→인구이동량이 많은 지역 주변에 인구이동량이 많은 지역 존재, 인구이동량이 적은 지 역 주변에 역시 인구이동량이 적은 지역이 존재, 인접한 지역이 서로 유사한 값을 보임

▶ G지수

Ÿ 큰 값들의 공간적 군집도(G값 크게 산출)와 작은 값(작게 산출)들의 공간적군집도 구별가능 Ÿ 모란I값과 Gㄱ밧 상호 보완적으로 활용하는 것이 바람직

▶ 공간 시차변수와 산포도

Ÿ Y변수와 이웃하는 주변지역들의 값을 참조해서 추정된 공간 시차값. 이웃하는 주변지역들 에 대한 Y변수의 평균치를 산출한 것

Ÿ (p600 그림 13-6-나) 기존 42300값이 주변 값의 영향을 받아 48200으로 공간시차 (spatial lag) 값으로 산출가능.

Ÿ 이 값은 공간회귀모델에서 중요한 변수가 됨

(2) 국지적 자기상관성 측정

Ÿ 어떤 특정 지역들이 전체 지역의 공간적 자기상관성에 얼마나 영향을 미치고 있는지 파 Ÿ LISA지표(Local Indicator of Spatial Association)

Ÿ 전역적 모란 I지수의 차이를 통해 공간적 자기상관성의 차이를 개략적으로 파악할 수 있으 나, LISA 지표를 통해 국지적으로 공간적 연관성과 군집성을 보다 쉽게 파악. 산출된 각 지역의 LISA지표에 대한 통계적 유의성도 검정할 수 있음.

Ÿ 특정지역 갑과 인접 주변지역 값의 가중평균값이 유사: 정적인 자기상관 Ÿ 군집지역과 이례지역을 추출 할 수 있음

Ÿ 4가지 유형의 공간적 연관성 분포를 모란 산포도를 통해 나타냄

(HH(high-high)유형, LL유형; 공간적 군집/ HL유형, LH유형: 공간적 이례지역) 분포를 지도화하여 공간적 클러스터 패턴이 어떻게 나타나는가를 분석

(5)

≻ ≺ 

_

⋘ 

_

제3절 공간회귀모델의 특성과 활용

[1] 공간회귀모델의 유형화

Ÿ 특정 현상에 대한 공간패턴이 공간적 자기상관성을 갖고 있는가를 통계적으로 검정

Ÿ 지역 간에 분포패턴의 차이를 보이고 있는 Y현상이 각 지역 내의 다른 요인들에 영향을 받 을 뿐만 아니라 이웃하고 있는 다른 지역의 영향을 받고 있음

경우에 따라 Y현상 자체가 이웃하는 다른 지역의 Y현상과 X변수보다 상당히 연관되어 나타나는 경우도 있음

Ÿ 공간적 자기상관성을 갖고 있는 공간 데이터로 인해 야기되는 문제들을 해결하여 모델의 추정 결광에 대한 신뢰도를 높이려고 하는 모델: 공간회귀모델

▶ 공간시차모델과 공간오차모델

(1) 공간시차모델

Ÿ 한 지역의 관측치가 인접지역들의 관측치과 상관성이 있는 경구 통계모델에 공간적 의존성 을 변수로 투입시켜야 함

Ÿ 공간시차변수( )를 하나의 설명변수로 회귀모델에 삽입

ex. 주택가격= 주택면적 + 건축년도 + 가구주의 소득 + CBD로부터의 거리 + 오차 공간시차변수 추가(공간가중행렬W에 주택가격을 곱한 것)

▶ 주택가격=W*주택가격+주택면적 + 건축년도 + 가구주의 소득 + CBD로부터의 거리 + 오차

공간시차모델의 기본 식











  

(2) 공간오차모델

Ÿ Y가 아니라 오차에서 공간적 자기상관성을 갖고 있다면 이는 주로 설명변수를 고려하지 못하여 공간적 자기상관성을 갖고 있는 변수로 나타나는 파급효과

▶ 주택가격=주택가격+주택면적 + 건축년도 + 가구주의 소득 + CBD로부터의 거리 + 오차 (오차 = W*오차+



)

공간시차모델의 기본 식



 



_



  



  

(3) 라그랑지 승수검정(LM: Lagrange Multiplier)

Q. 공간적자기상관이 있다없다? Global/Local 측정. 공간회귀모델의 공속변수에서 공간적 자 기상관이 유의한지 오차에서 유의한지 어떻게 알 수 있나?

Ÿ OLS 회귀모델의 종속변수 또는 오차에서 공간적 자기상관이 실재하지 않는다는 귀무가설 에 대해 검정하는 것

Ÿ 최대우도추정을 통해 추정된 오차의 추정치에 대한 검증으로 산출

Ÿ OLS회귀모델에 비해 공간시차모델 or 공간오차모델을 사용하는 것이 보다 바람직하다 두 모델 중 어느 모델을 선택하는 것이 효과적이고 신뢰도가 높은 것인가 판정

(6)

(p610 그림 13-12)

Ÿ LM-Lag값이 유의적인 경우 공간시차모델 적용, LM-Error값이 유의적인 경우 공간오차 모델 적용

▶ 적합한 회귀모델선정

Ÿ LM이 유의하지 않을 경우 귀무가설 기각 하지 않음→ OLS 회귀모델사용

Ÿ LM이 유의할 경우 귀무가설 기각. 공간시차모델과 공간오차모델을 각각 추정하여 그 결과 를 비교 하여 산정.

Ÿ 공간회귀모델을 사용하는 경우 OLS회귀모델보다 로그우도는 증가하고 AIC와 SC는 감소 하게 되면서 모델의 적합도가 향상.

Ÿ 따라서 OLS회귀모델과 공간회귀모델중 로그우도값을 비교하여 더 많은 로그우도값이 줄 어든 모델이 더 적합

제4절 지리가중회귀모델의 특성과 활용

Ÿ 국지적 차원에서 회귀계수를 추정하는 것. 변수들 간의 관계를 추정하는 회귀계수가 지역 간에 서로 다르다는 것을 전제하여 지역별로 국지적 회귀모델을 추정하는 것

(p622그림 13-18)