공간자료분석의 개요 이민파｜국토연구원 연구원

(1)

K R I H S F O C U S

이상일 서울대학교 지리학과 교수 초청 특강

공간자료분석의 개요

이민파｜국토연구원 연구원

국토연구원에서는 지난 5월 23일, 5월 30일, 6월 7일 3회에 걸쳐 이상일 서울대학교 지리학과 교수를 초청하여‘SDA(Spatial Data Analysis)의 개념과 공간데이터의 본질’, ‘SDA(Spatial Data Analysis)의 통계학적 원리’, ‘SAM(Spatial Association Measures)과 공간적 회귀분석’을 주제로 특강을 개최하였 다. 이 글은 이날 발표된 내용을 요약, 정리하였다.

공간자료의 본질

일반적인 자료분석에서는 분석되는 관측단위가 연구지역 내에서 독립적으로 발생함을 가정하고 분석한 다. 하지만 시계열 자료가 자료간에 상관되어 있듯이, 공간자료도 공간적으로 서로 상관되어 있어 일반적 인 통계적 가정을 통해서는 잘못된 결과를 도출할 수 있다. 따라서 일반적인 통계적 가정이 공간과 지리 적으로 관계된 자료를 설명할 수 있도록 변경되어야 할 필요가 있다.

이때 공간자료를 이용한 분석에서는 자료의 공간적 배열, 자료간의 지리적인 거리나 시간, 상대적 위 치에 따른 연관관계 등을 고려해야 하는데, 이를 공간자료가 가지는 공간의 영향(spatial effect)이라고 한 다. 공간의 영향은 크게 공간의존성(spatial dependence), 공간이질성(spatial heterogeneity)으로 나눌 수 있고, 더 세분화해서 구분하면 공간규모(spatial scale)와 공간구조(spatial structure)를 포함할 수 있다. 이 네 가지 특성이 공간자료분석과 일반자료분석을 구분할 수 있는 공간자료의 본질이라고 할 수 있다.

다음은 공간자료의 네 가지 본질에 대한 기술이다.

(2)

이 다른 지점에서의 측정값과 서로 관련이 있을 때 나타난다. 공간의존성의 존재는 Tobler의 지리학 제1법칙(“모든 것은 다른 모든 것과 관련되어 있 다. 그러나 가까운 것은 먼 것보다 더욱 더 관련되 어 있다”)으로도 잘 설명된다.

이러한 공간의존성은 자료의 공간적 자기상관 을 의미하게 되고, 공간 데이터에 포함된 정보의 양과 질에 영향을 미치고 궁극적으로 데이터에 대 한 합당한 해석에 영향을 미친다. 또한 공간적 자 기상관의 분석은 지리적 경관과 프로세스에 대한 보다 깊은 이해를 제공해 주기 때문에 중요하다.

이는 공간적 자기상관이 존재할 경우 그 데이터 는 전통적인 검증 통계량의 이론적 표본분포를 따 르지 않으며, 특히 표준오차가 올바르지 않기 때문 에 가설검증에서 1종 오류와 2종 오류에 영향을 주 게 된다. 또한 모수 추정에 있어 최소자승법과 같 이 단순한 추정 방법은 추정 통계량의 편의성, 충 분성, 효율성, 일치성 등을 보장하지 못하므로 보 다 복잡한 추정절차로 바뀌어야 함을 의미한다.

이와 관련하여 Cressie는 정적인 상관관계를 가 지는 데이터에 대해 독립성을 가정하는 표준정규 분포의 신뢰구간 추정 방법을 그대로 사용할 경우 신뢰구간의 폭이 너무 좁게 설정된다는 것을 예를 들어 보여주었다. 공간의존성을 측정하는 방법으 로는 일반적으로 점형 자료는 K-fuction을 사용하 고, 면형 자료는 Moran’s I, Geary’s C, Lee’s S를 사용하며, 연속형 자료는 Variogram Cloud를 사용 할 수 있다.

stationarity)은 각 지점이나 지역에 내재된 고유성 에서 발생하게 되는 자료의 지리적 변이나 통계적 특성의 차이를 말한다. 또한 공간이질성은 연구지 역에 대한 변수들간의 공간적 의존성 효과의 공간 적 균등성이 부족하다고 볼 수 있다. 그리고 공간 의존성의 특수한 경우라고 할 수 있다.

이와 상반된 개념으로는 완전 공간적 안정성 (complete spatial stationarity)으로 하부지역에서 다 른 하부지역까지의 평균, 분산, 공분산, 그리고 다 변량 모수 등이 같음을 말할 수 있고, 이러한 완전 공간적 안정성은 실제 공간적 현상에서는 매우 드 문 경우라 할 수 있다.

공간이질성이 나타나는 이유는 공간현상이 모 든 지역에서 균등하게 나타나는 것이 아니라 지역 내 하부지역에 따라 각기 다른 특성을 나타내기 때 문이다. 중심지와 배후지역의 존재, 선도지역과 낙 후지역의 존재 등이 공간이질성의 대표적인 예라 고 할 수 있다.

3. 공간규모

공간규모(spatial scale)는 공간분석에 사용하는 자 료의 공간단위와 공간분석의 지역적 범위를 가리 키며, Openshaw는 공간분석결과가 그 현상을 측 정하는 공간범위(scale effect)와 공간단위의 집계 수준(aggregation effect)에 따라 달라지고 이러한 문제를 가변공간단위문제(MAUP: Modifiable Areal Unit Problem)라고 하여 공간분석과정에서 나타나는 일반적인 현상이라고 설명한다.

먼저 공간범위의 문제는 <그림 1>에서 보는 바

(3)

와 같이 분석 대상지역과 분석단위를 어떻게 설정 하느냐에 따라 그 결과가 달라질 수 있음을 나타내 는 개념이다. 그리고 집계의 문제는 비집계자료를 집계할 경우 집계하는 방법에 따라 공간적 배열이 달라질 수 있음을 나타내는 개념이다.

<그림 2>에서 보는 바와 같이, 비집계자료를 집 계할 경우 집계방식에 따라 그 배열이 다르게 나타 나고 있다. 따라서 공간분석과정에서는 이러한 두 가지 영향으로 인해 공간분석의 결과는 달라질 수 있음을 유의해야 하는데, 특히 행정구역 단위는 읍 면동, 시군구, 시도와 같이 그 크기가 다를 수 있을

뿐만 아니라, 비집계자료를 집계자료로 묶을 때 어 떤 공간적 배열을 갖는 범위로 묶느냐에 따라 집계 자료의 공간배열이 달라지며 이는 분석결과에도 영향을 미치게 된다.

가변공간단위의 발생 원인에 대해서 일반통계 학에서는 다음과 같은 관점에서 바라보고 있다. 먼 저 공간적 집계가 진행되면서‘smoothing effect’가 발생하게 되고, 따라서 각 지역(area)의 독자성과 각 지역(area)간의 비유사성(dissimilarity)이 줄어 들게 된다. 이어서 전체 연구지역의 분산이 줄어들 게 되고, 줄어든 분산은 상관관계와 회귀식의 적합 성을 증가시키게 된다. 따라서 일반통계학적 관점 에서는 가변공간단위 문제를 어쩔 수 없다고 본다 면, 공간통계학의 관점에서는 공간자료가 공간의 존성을 가지기 때문에 가변공간단위가 발생한다고 보고 있다.

따라서 공간통계적 방법은 공간의존성을 효과 적으로 다룰 수 있기 때문에 가변공간문제를 해결 할 수 있다. 이러한 이유에서 공간통계와 일반통계 의 차별성이 있다고 하겠다.

4. 공간구조

어떤 연구지역‘R’은 다른 공간 개체와 위상적으 로 연결된 공간 개체의 집합으로 볼 수 있다. 이러 한 연구지역에 있어서 관찰값들 사이의 위상적 관 계를 공간구조라 할 수 있다(Garell, 1983). 또한 공 간구조(spatial structure)는 서로 관련된 공간 개체 들 사이의 연계된 실체와 기능적 연결이며 공간구 조는 연구지역의 직교좌표 위에 정의된 다양한 형 태의 공간관계라고 정의할 수 있다.

이때 공간관계는 일반적으로 공간가중행렬

<그림 2> aggregation effect

<그림 1> Scale Effect

(4)

형 자료는 인접 또는 연결행렬의 형태로 공간가중 행렬을 구성할 수 있고, 점형자료는 거리행렬로 구 상할 수 있다.

공간적 연관의 분석

공간적 연관을 바탕으로 한 공간자료분석 기법으 로는 주로 면형 자료로 이산적 공간현상을 분석하 는 Moran’s I와 Geary’s C, 연속면 자료로 연속적 공간현상을 분석하는 베리오그램(variogram), 모 델링을 주로 다루는 공간계량경제학에서는 회귀방 정식의 공간적 자기상관 계수가 있다.

이들 중에서 Moran’s I와 Geary’s C로 대표되 는 이산적 공간현상을 분석하는 기법인 공간자기 상관(spatial autocorrelation)에 대해서 알아보고자 한다.

면형 자료의 이산적 공간형상에서 같은 평균과 분산을 가지지만, 공간적 배열이 다르기 때문에 다 른 공간적 패턴을 가질 수 있다. 예를 들면, 각기 다른 값을 가진 n개 지역의 숫자 백터로 n!개의 다 른 조합을 가진 지역의 패턴을 만들어낼 수 있다.

<그림 3>은 37개 6면체로 이루어진 가상공간 위에 숫자 벡터로부터 생성될 수 있는 세 가지 다른 공 간패턴의 예다.

따라서 공간을 고려할 때, 숫자 벡터의 다른 순 서화(공간적 배열의 다름)는 다른 공간적 패턴으 로 인식할 수 있는 방법이 필요하다. 위와 같이 숫 자 벡터가 같아 평균과 분산은 같지만, 공간적 의 존성이 달라서 다른 공간패턴을 구분할 수 있는 방

법이 전역적 단변량 공간자기상관(global univariate spatial autocorrelation) 분석이다.

그리고 전역적 공간자기상관을 이루는 각 하위 지역은 각 하위지역의 주위와 독특한 공간패턴을 이루게 되는데, 이를 국지적 공간자기상관이라고 한다. 다음은 전역적 공간자기상관(global spatial autocorrelation)과 국지적 공간자기상관(local spatial autocorrelation)에 대한 좀 더 상세한 기술 이다.

1. 전역적 공간자기상관

전역적이라 함은 하나의 분석으로부터 일련의 결 과들이 산출되고, 그 결과들은 연구지역 전체에 대 해 동일하게 적용되는 것으로 간주됨을 의미한다.

따라서 이러한 전역적 분석의 결과는 일종의 지역 적인‘평균’을 만들어 낼 수 있다. 그리고 공간적

B ^{n: 37}

Mean: 1,838 Variance: 0.514 Lee’s L:

0.335

Lee’s L:

0.208

Values 1 2 3

C

Moran’s I: 0.681

Moran’s I: 0.386 Moran’s I: -0.186

Lee’s L:

0.138

자료: Lee 2001, spatial association measures for an ESDA-GIS Framework:

developments, significance tests, and applications to spatial-temporal income dynamics of U.S. labor market areas, 1969-1999

(5)

자기상관은 한 지역이 가지는 속성값은 그 지역과 이웃하는 다른 지역간의 상호작용으로 인해 영향 을 받는다는 개념이다.

따라서 전역적 공간자기상관 지수는 연구지역 내 단위구역들(areal units)의 속성 값이 그 근린 (neighborhood)의 값들과 유사한 평균 정도를 일련 의 표준 수식에 의해 정량적으로 측정하는 것이다.

전역적 공간자기상관을 측정하는 대표적인 지수로 는 Moran의 I(Moran, 1948)와 Lee’s S가 있다.

Moran의 I 지수는 공분산 개념을 사용하여 속성값 사이의 유사성을 측정하며, 일반적으로 아래와 같 은 식을 통해 계산된다.

위 식에서 는 일반가중행렬 V의 한 요소다. 그

리고 Lee의 S는 다음과 같은 식을 통해서 계산된다.

Moran’s I와 Lee’s S의 관계는 S가 I보다 공간적 클러스터링에 대한 실제적 정보를 제공한다는 것과 I를 계산하는 데 S를 사용할 수 있다는 것이다.

2. 국지적 공간자기상관

국지적 공간분석에 대한 연구는 전역적 통계치를 국지적인 구성요소로 분해하고, 전역적인 규칙성 보다는 국지적인 변이에 관심을 가지며 지도화가 가능하도록 하는 것이다. 이를 위해서 공간연관 (spatial association)의 국지적 패턴(local pattern)과 전체 공간관계 속에서 국지적인 변화를 다룰 수 있 는 통계량(statistics)을 개발하려는 노력이 있어 왔

<그림 4> 서울의 고령인구를 원자료로 단계구분도 표현

<그림 5> 를 이용한 국지적 공간자기상관 측정에 의한 공간군집패턴 탐색

(6)

LISA의 장점은 개별 위치 주위에 존재하는 국 지적 공간 군집성을 평가할 수 있고, 그 범위를 정 할 수 있다는 데에 있다. 국지적 공간자기상관을 측정하는 대표적인 지수로는 Local Moran’s I와 Geary’s C, Getis and Ord’s G(d), Lee’s Local S가 있다. Loca Moran’s I는 이고, Geary’s

C는 ,

는 다.

위 식에서 n은 구역의 수, 는 지역에서 나 타나는 속성 값이다. 는 지역으로부터의 거리를 의미하는데 보통 일정 거리 안에 포함하는 지역을 가지고 지역과 지역 사이의 관계를 나 타내는 근린가중치인 를 구성한다. 각각의 에 서의 값은 전체 라는 속성 값의 합이 지 역을 중심으로 까지의 반경으로 봤을 때 어느 정도 공간적으로 집중하고 있는지를 나타내는 지 표라고 할 수 있다. 이를 통해 속성값의 국지적 군 집성과 국지적 범위를 알 수 있다.

이러한 LISA통계량을 이용한 분석을 통해서 획 득할 수 있는 정보의 종류는 아래의 지도를 통해서 살펴볼 수 있다. <그림 4>는 서울시 행정동 단위로 집계된 고령인구자료를 단계구분도로 나타낸 지 도다.

<그림 5>는 고령인구자료를 로 변환한 후 이를 단계구분도로 나타낸 그림이다. <그림 4>와 비교하여 <그림 5>를 살펴보면, 공간현상의 군집성

w_ij

참고문헌

Anselin L. 1988. Spatial Econometrics: Methods and Models.

Dordrecht: Kluwer Academic Publishers

Anselin L. 1995. “Local indicators of spatial association: LISA”. Geographical Analysis 27(2) : pp93-115

Bailey T.C. and Gatrell A.C. 1995. Interactive spatial data analysis.

New York: John Wiley & Sons

Cressie N. 1991. Statistics for Spatial Data. New York: John Wiley &

Sons. pp13-15

Lee. 2001. Spatial Association Measures for an ESDA-GIS Framework Developments Significance Tests and Applications to Spatio-Temporal Income Dynamics of US Labor Market Areas 1969-1999. Ph.D., Ohio State University