• 검색 결과가 없습니다.

Prediction of the land price based on deep learning and residual kriging

N/A
N/A
Protected

Academic year: 2021

Share "Prediction of the land price based on deep learning and residual kriging"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2021, 32

(

3)

,

475–485

딥러닝 기법과 잔차 크리깅을 이용한 지가 예측

최진호

1

· 김용구

2

1한국부동산원 ·2경북대학교 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2021ᄂ ᅧ ᆫ 3ᄋ ᅯ ᆯ 29ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 4ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 4ᄋ ᅯ ᆯ 19ᄋ ᅵ ᆯ

요 약

ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄌ ᅵᄀ ᅡ ᄋ ᅨᄎ ᅳ ᆨ ᄋ ᅴ ᄀ ᅩᄃ ᅩᄒ ᅪᄅ ᅳ ᆯ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄃ ᅵ ᆸᄅ ᅥᄂ ᅵ ᆼ ᄀ ᅵᄇ ᅥ ᆸᄀ ᅪ ᄌ ᅡ ᆫᄎ ᅡ ᄏ ᅳᄅ ᅵᄀ ᅵ ᆼᄋ ᅳ ᆯ ᄀ ᅧ ᆯᄒ ᅡ ᆸᄒ ᅡ ᆫ DNNRK ᄆ ᅩᄒ ᅧ ᆼ ᄋ

ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄀ ᅩ ᄀ ᅳ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄀ ᅥ ᆷᄌ ᅳ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄋ ᅧ ᆫᄀ ᅮᄌ ᅵᄋ ᅧ ᆨᄋ ᅳ ᆫ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄀ ᅡ ᆼᄂ ᅡ ᆷ 3ᄀ ᅮᄋ ᅵᄆ ᅧ ᄀ ᅡᄀ ᅧ ᆨᄌ ᅡᄅ ᅭᄂ ᅳ ᆫ ᄀ ᅡ ᆷᄌ ᅥ ᆼᄑ ᅧ ᆼᄀ ᅡᄉ ᅡᄀ ᅡ ᄑ ᅧ ᆼᄀ ᅡ ᄒ

ᅡ ᆫ ᄑ ᅭᄌ ᅮ ᆫ ᄌ ᅵ ᄀ ᅩ ᆼ ᄉ ᅵᄌ ᅵᄀ ᅡᄅ ᅳ ᆯ ᄀ ᅵᄇ ᅡ ᆫᄋ ᅳᄅ ᅩ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆫ ᄀ ᅥ ᆷᄌ ᅳ ᆼ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄉ ᅥ ᆫᄒ ᅧ ᆼᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼ, ᄒ ᅬ ᄀ

ᅱᄏ ᅳᄅ ᅵᄀ ᅵ ᆼ, ᄃ ᅵ ᆸᄅ ᅥᄂ ᅵ ᆼᄋ ᅴ ᄋ ᅨᄎ ᅳ ᆨᄀ ᅧ ᆯᄀ ᅪᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅥ ᆨ ᄌ ᅵᄑ ᅭ (MAE, RMSE, MAPE, COD) ᄇ ᅵᄀ ᅭᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄑ ᅧ ᆼᄀ ᅡᄒ ᅡᄋ ᅧ ᆻ ᄃ

ᅡ. ᄆ ᅩᄒ ᅧ ᆼ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄇ ᅵᄀ ᅭᄒ ᅡ ᆫ ᄀ ᅧ ᆯᄀ ᅪ, DNNRK ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄀ ᅡᄀ ᅧ ᆨ ᄋ ᅨᄎ ᅳ ᆨᄅ ᅧ ᆨᄋ ᅵ ᄃ ᅡᄅ ᅳ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄇ ᅵᄀ ᅭᄒ ᅡᄋ ᅧ ᄋ ᅮᄉ ᅮᄒ ᅡ ᆷᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫ ᄒ

ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄋ ᅥ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄌ ᅵᄀ ᅡᄀ ᅡ ᄆ ᅮ ᆯ ᄅ ᅵᄌ ᅥ ᆨ ᄉ ᅩ ᆨᄉ ᅥ ᆼ ᄌ ᅥ ᆼᄇ ᅩᄈ ᅮ ᆫ ᄆ ᅡ ᆫ ᄋ ᅡᄂ ᅵᄅ ᅡ ᄋ ᅱᄎ ᅵ ᄌ ᅥ ᆼᄇ ᅩᄋ ᅦ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄂ ᅳ ᆫ ᄃ ᅡᄂ ᅳ ᆫ ᄀ ᅢᄂ ᅧ ᆷ ᄋ

ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡᄋ ᅧ ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ DNNRK ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄃ ᅬᄋ ᅥ ᆻᄃ ᅡ. ᄄ ᅡᄅ ᅡᄉ ᅥ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄀ ᅧ ᆯᄀ ᅪᄂ ᅳ ᆫ ᄌ ᅵᄋ ᅧ ᆨ ᄋ ᅭᄋ ᅵ ᆫᄋ ᅳᄅ ᅩ ᄃ ᅢᄑ ᅭᄃ ᅬᄂ ᅳ ᆫ ᄀ ᅩ ᆼ ᄀ

ᅡ ᆫᄌ ᅥ ᆨ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅦ ᄐ ᅮᄋ ᅵ ᆸᄒ ᅡ ᆯ ᄀ ᅧ ᆼᄋ ᅮ ᄌ ᅵᄀ ᅡ ᄋ ᅨᄎ ᅳ ᆨᄅ ᅧ ᆨᄋ ᅴ ᄉ ᅡ ᆼᄉ ᅳ ᆼ ᄒ ᅭᄀ ᅪᄅ ᅳ ᆯ ᄀ ᅡᄌ ᅧᄋ ᅩ ᆫ ᄃ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄋ ᅴᄆ ᅵᄒ ᅡ ᆫᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄌ ᅥ ᆨ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄉ ᅥ ᆼ, ᄉ ᅵ ᆷᄎ ᅳ ᆼᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ, ᄌ ᅡ ᆫᄎ ᅡ ᄏ ᅳᄅ ᅵᄀ ᅵ ᆼ, ᄌ ᅵᄀ ᅡ.

1. 서론 ᄋ

ᅮ리나라 공시지가 산정은 일반최소제곱법 (ordinary least square, OLS)에 기초한 헤도닉 가격모형 (hedonic pricing model)을활용하고 있다. 헤도닉 가격모형은토지를구성하는지목, 면적, 형상, 고저 ᄎ

ᅡ이 등의 내재가치 (implicit value)를추정하여 합산하는방식으로 설명 변수의 독립성과 자료들의 정 ᄀ

ᅲ성, 반응변수와 설명 변수간의 선형성 등을가정 한다. 그러나 이러한 접근방식은토지의 가격과 특 서

ᆼ 변수간의관계를밝히거나 이론 및 가설을검증하는방식에서는적절하게활용될수 있지만, 토지가 겨

ᆨ과 특성간의관계가 매우 복잡한관계이거나 정규성을크게 벗어나는경우 모형의 설명력과 예측정확 ᄃ

ᅩ가 떨어진다 (Hastie 등, 2009; Gloudemans와 Almy, 2011).

ᅵ에 따라 부동산 가격 추정에서 보다 높은설명력과 예측정확도를얻기 위해 선형성 가정 등에서 비 ᄀ

ᅭ적 자유로운머신러닝 (machine learning)이활발하게활용되고 있다. 머신러닝을활용한 부동산 가 겨

ᆨ 예측은토지뿐만 아니라 단독주택, 공동주택, 비주거용건물까지 다양한 유형에 적용되고 있으며, 여 ᄀ

ᅵ에는트리기반 모형 (tree-based model), SVM (support vector machine) 뿐만 아니라 딥러닝 (deep learning)까지 확장되어 활용되고 있다 (Antipov와 Elena, 2012; Lee와 Park, 2016; Won 등, 2017;

Lee와 Kim, 2018; Bae와 Yu, 2018; Yilmazer와 Sultan, 2020). 그러나 머신러닝은 높은변수 설명 능 ᄅ

ᆨ을이용하여 상대적으로 정확한 예측치를만들어내지만 오차를포함하는과적합 (over fitting) 문제가 ᄌ

ᆼ종나타난다. 특히 토지 가격과 같이 공간적 의미를가진 데이터의 경우 학습데이터의 변수와 각 자 ᄅ

ᅭ들의 설명 능력이 충분하게 반영되지 못하는 국지적 공간 범위 (또는지역)가 발생하여 예측 능력의

1

(41068) ᄃ ᅢᄀ ᅮ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄃ ᅩ ᆼ ᄀ ᅮ ᄋ ᅵᄂ ᅩᄇ ᅢ ᆯᄅ ᅵᄅ ᅩ 291 ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄇ ᅮᄃ ᅩ ᆼ ᄉ ᅡ ᆫᄋ ᅯ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅢᄇ ᅡ ᆯᄉ ᅵ ᆯ, ᄇ ᅮᄋ ᅧ ᆫᄀ ᅮᄋ ᅱᄋ ᅯ ᆫ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (41566) ᄃ ᅢᄀ ᅮ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄇ ᅮ ᆨ ᄀ ᅮ ᄃ ᅢᄒ ᅡ ᆨᄅ ᅩ 80 ᄀ ᅧ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅮᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

저

ᆼ확도가 저하되기도 한다. 머신러닝 추정 결과에서 설명되지 않는성분인 잔차 (residual)는해당 공간 ᄋ

ᅴ 범위에서 모형과 자료의 설명력이 충분하지 않음을의미한다. 따라서 잔차가 토지 가격 추정 과정에 ᄌ

ᅢ반영될수 있다면 설명되지 않는부분이 보완되어 예측정확도를향상시킬 수 있을것이다. 이러한 방 시

ᆨ은 회귀분석의 잔차를크리깅하는 회귀크리깅 (regression kriging, RK)과 유사한 방식으로, 지리적 ᄋ

ᅱ치 (입지)에 따른가격 영향이큰부동산 자료의 특수성을반영할 수 있음과 동시에 나머지 미지의 영 ᄒ

ᅣᆼ력을반영할 수 있는방법이될수 있다.

ᅩ형에서 공간적 차이를반영하는방법은 여러 가지 방법이 있으나, 크리깅 (kriging) 기법은잔차의 ᄀ

ᆼ간적 상관성을 반영할 수 있는 가장 대표적인 방법이다 (Anselin와 Bera, 1998). 머신러닝에서 크 ᄅ

ᅵ깅을 적용한 연구는 아직 부동산 분야에서는 찾아볼 수 없으나, 환경, 기상 등의 분야에서는활발하 ᄀ

ᅦ 적용 되고 있다. 대표적으로 Demyanov 등 (1998)은 기후 자료의 예측을 위한 신경망 적용 결과 ᄋ

ᅴ 잔차에 대해 크리깅을결합한 공간모형을제시하였으며, Yeh 등 (2013)은강우 분포에 대한 모델링 으

ᆯ위해 RBFN (radial basis function network)과 다층퍼셉트론 (multi-layer perceptron)의 결합 모 혀

ᆼ을 제시하였다. Qian 등 (2020)은연안 해안 수심측량을위한 방법으로 딥러닝과 크리깅을 결합한 DNN-kriging이라는방법을제안하기도 하였다.

ᅵ에 본연구에서는토지가격 예측정확도 향상을 위한 방법으로 심층신경망과 잔차크리깅을결합한 DNNRK (deep neural network residual kriging)모형을제안하였다. 여기서 심층신경망은지가의 공 ᄀ

ᅡᆫ적 추세를 추정하고, 잔차크리깅은 지가추정결과의 잔차를모델링하기 위해 적용한다. 가격 예측은 ᄉ

ᅥ울시 강남구의 표준지 공시지가를 기반으로 모형을 구축하였으며, DNNRK의 분석결과를비교하기 ᄋ

ᅱ해 일반적인 가격 추정 방법론인 OLS와 딥러닝 모형인 DNN, 그리고 공간통계 모형인 RK와 비교하 ᄋ

ᅧᆻ다.

2. 자료 및 방법

2.1. 분석 자료 ᄌ

ᅵ가 예측을위한 모형 평가를위해 서울특별시 강남구, 서초구, 송파구 3개 지역을연구지역으로 선 저

ᆼ하였다. 분석 단위는시군구별이며 이는현 공시지가 산정의 기준작성 단위 (비준표)이자 부동산 평 ᄀ

ᅡ과정에서 분석 가능한 최대한의 범위로 인식되고 있다. 분석을 위한 가격자료는 실거래와 공시지가 ᄌ

ᅡ료를 활용할 수 있으나, 실거래가격 자료의 경우 공간적 분포나 유형에 따른 발생 편중이 크기 때문 ᄋ

ᅦ 감정평가사가 가격을감정평가한 결과인 표준지 공시지가를 활용하였다. 본 논문에서는 2020년 강 ᄂ

ᆷ3구 표준지 3523필지 (특수 및 공공용지 제외) 중 랜덤 샘플링을 통해 80% (2815필지)를 모형 적 ᄒ

ᅡᆸ을 위한 훈련 데이터로 활용하였고, 나머지 20% (708필지)는 모형 성능 검증 데이터로 활용하였다 (Table 2.1).

Table 2.1 Summary of training and test data Training (80%) Test (20%) Total (100%)

Seocho 1031 261 1292

Gangnam 989 247 1236

Songpa 795 200 995

Total 2815 708 3523

Figure 2.1은 표준지의 분포와 훈련데이터 및 검증데이터의 분포를 보여주는 것으로 전체 공간에서 후

ᆫ련 데이터와 검증데이터의 분포가 편중 없이 고르게 분포하고 있다. 지가 예측을위한 모형 구성에 ᄉ

ᅥ 설명 변수는 공시지가 산정 시 조사되는토지 특성 (고저, 형상, 용도지역, 면적 등)을 중심으로 하되,

(3)

ᅡ료의 설명력을 높이고자 선행 연구에서 추가 검토된자료를바탕으로활용하여 경사도, 지하철역과의 ᄀ

ᅥ리 등의 변수를추가 구축하였다 (Choi와 Kim, 2015; Choi 등, 2018). 또한 용도지역, 이용상황, 도 ᄅ

ᅩ접면 등범주형 변수의 경우 유의성을고려하여 유사한 항목으로 통합하였다. 반응변수와 설명변수의 겨

ᆼ우 설명력 향상을위해 로그변환을수행하였다.

Figure 2.1 Spatial distribution of training and test data

Table 2.2 Summary of explanatory variables Variable type (Name)

Zoning (zone) Residential Area (zone1), Commercial Area (zone2), Industrial Area (zone3) Green Area (zone4), Green Belt (zone5)

Land Use (use) Land for Residence (use100), Land for Commerce (use200), Land for Industry (use400), Land for Farming (use600), Land for Forest (use700),

Topography (topo) Low Land (topo1), Plat Land (topo2), Mild Slope (topo3), Steep Slope (topo4), High Land(topo5)

Parcel Shape (shp) Square (shp1), Rectangle (shp2), Trapezoid (shp3), Triangle (shp4), Irregular Field (shp5)

Road Width (wid) Wide (wid1), Middle (wid2), Small (wid3), Narrow 1 (wid4), Narrow 2 (wid5), No Road (wid6),

Others CrossroadYN (y=cr1, n=cr2), Elevation (ele), Slope (slo), Parcel Shape Index (sind), Distance to Major Road (road), Distance to Subway Station (subw), Distance to Unpleasant Facilities (ham),

Distance to Market Area (mark), Area (ar)

2.2. 분석 방법 ᄎ

ᅬ근예측과관련해서 각광받고 있는 심층신경망은기존 인공신경망 모형의 속도와 과적합 문제를상 ᄃ

ᅡᆼ 부분보완함과 동시에 기존 신경망 모형에 비해 높은예측력을보이는방법이다. 심층신경망은 입력 ᄎ

ᅳᆼ, 출력층 그리고 2개 이상의 은닉층을활용하여 더 깊은 학습이 이루어지도록 구성된가장 일반적인

(4)

디

ᆸ러닝 기법이다 (Figure 2.2). 심층신경망은다층퍼셉트론 (MLP)과 유사하지만 더 많은 은닉층과 뉴 ᄅ

ᅥᆫ으로 연결되어 있다는점에서 차이가 있다. 여기서 다수의 은닉층은 입력층과의 연결을 통해 입력된 ᄇ

ᅧᆫ수의 값들을조합하고 다시 가중치의 조정과정을반복하여 새로운값을만들어내며, 이 값은다시 출 ᄅ

ᆨ층으로 전달한다. 이러한 방식은개별적인 회귀 모형들의 다양한 조합으로 볼수 있으며, 특정 조건에 ᄄ

ᅡ라 로그 선형 모형으로 해석될수도 있어 더 유연한 결과를만들어 낸다 (Arno 등, 2015).

Figure 2.2 Concept of deep neural network

시

ᆷ층신경망은 순방향(feedforward) 신경망으로 설계되어 분류 (classification)와 회귀(regression) 문 ᄌ

ᅦ에 적용할 수 있으며 다음과 같은수식을적용한다.

ˆ

yj= β0+

L

X

i=1

βih(wi· xi+ bi), j = 1, 2, . . . , N, (2.1) ᄋ

ᅧ기서, xi와 yi는 입력층과 출력층, L 은 은닉층의 개수, h는활성화함수, wi는 은닉층가중치, βi는 출 ᄅ

ᆨ층가중치, bi는 은닉층편의, β0는 출력층편의, N는 훈련자료의 개수이다. 심층신경망은역전파 알 ᄀ

ᅩ리즘 (backpropagation algorithm)을 통해 지속적으로 층의 가중치를갱신하면서 목표값과 출력값을 ᄇ

ᅵ교하여 오차를 줄여나가는방향으로 가중치를조절한다 (Arno 등, 2015).

ᅳ리깅은 공간상에 분포하는자료의 위치 정보와 관측값에 대한 베리오그램 (variogram) 또는 공분 ᄉ

ᅡᆫ을 활용하여 가중선형회귀 (weighted linear regression) 방식으로 미지점의 값을예측하는보간 (in- terpolation)방법이다. 크리깅 기법은 공간적 상관관계를가지는확률변수의 가중치를선형조합을 통해 화

ᆨ률 함수 모형로 작성하며, 공간적 상관관계는 일정 수준의 거리만큼떨어진 자료들의 이질적인 관계 르

ᆯ내포하는베리오그램으로 모델링된다 (Choi와 Kim, 2015). 분리 거리가 h인 두 자료간의 베리오그 래

ᆷ γ(h)는거리에 따른자료 값의 공분산으로 자료의 쌍이 n개 존재하는경우 반베리오그램 (semivari- ogram)은다음과 같이 계산된다.

γ(h) = 1 2n

n

X

i=1

[z(xi) − z(xi+ h)]2, (2.2)

ᅧ기서, γ는반분산 (semivariance), h는 분리 거리, n은 분리 거리만큼의 떨어진 자료 쌍의 개수를의 ᄆ

ᅵ한다. 크리깅 예측을위해서는 자료의 공간적 상관성을구조화하여 공분산 형태로 모형에 반영하는 ᄃ

ᅦ 이를 베리오그램 모델링이라 한다. 베리오그램 모델링은 먼저 활용 자료로부터 경험적 베리오그램 으

ᆯ 계산하고 이후에 이론적 베리오그램으로 적합하는 과정을 거치게 된다. 이론적 베리오그램이란 자 ᄅ

ᅭ간의 거리와 베리오그램의관계를최적화하는수학적 모형을의미하며 가우시안 (Gaussian), 지수형 (exponential), 구형 (spherical), 마턴 (Mat´ern) 등이 있다. 크리깅은자료값의 전반적인 경향성을 추 저

ᆼ하는 전제 조건과 가중치 산출 방법에 따라 심플 크리깅 (SK, simple kriging), 정규 크리깅 (OK,

(5)

ordinary kiriging), 일반 크리깅 (UK, universal kriging)으로 구분한다. 회귀크리깅은 공간적 상관성 으

ᆯ가지고 있는자료들을전통적인 회귀모형으로 추정하는경우 모수 추정의 효율성이 떨어지는 문제를 ᄀ

ᅢ선하고자 회귀분석에서 사용된 설명변수로 설명되지 않은잔차를계산하고 이를크리깅으로 보간하여 ᄒ

ᅬ귀모형의 예측치와 합하는방식을말한다 (Hengl 등, 2007; Song 등, 2017; Choi 등, 2018).

DNNRK모형은 2단계로 구성될수 있다. 먼저 심층신경망을활용하여 공간추세를모델링하고, 다음 ᄋ

ᅳ로 크리깅으로 이용하여 잔차 (관측값과 DNN 추정값의 차이)에 대한 보간과정을거치게된다. 최종 ᄌ

ᅥᆨ으로는다음과 같이 DNN 추정치와 잔차에 대한 추정치를합하여 최종예측결과를도출한다.

ZDNNRK= ZDNN+ ZRK, (2.3)

ᅧ기서 ZDNNRK는 DNNRK의 추정치, ZDNN은 심층신경망에 의한 계산된추정값, ZRK는 DNN잔차 ᄋ

ᅦ 크리깅 추정치이다.

Figure 2.3 Deep neural network residual kriging

ᄀ ᅡ

ᆨ 지가추정모형의 성능비교 및 평가를위해 평균비율 (MR, mean ratio), 평균제곱근오차 (RMSE, root mean square error), 평균절대오차 (MAE, mean absolute error), 평균절대비율오차 (MAPE, mean absolute percentage error)와 함께 부동산 분야에서 모형의 성능과 균형성 지표로 주로활용되는 부

ᆫ산계수 (COD, coefficient of dispersion)를계산하였다.

M R = 1 N

N

X

i=1

(EPi/APi),

RM SE = (1

N

n

X

i=1

(EPi− APi)2 )0.5

,

M AE = 1 N

1

X

i=1

|EPi− APi| ,

M AP E = 1 N

N

X

i=1

|APi− EPi| APi

× 100,

COD =

1 N

PN i=1

(EPi/APi) − ^EP/AP EP/AP^

,

ᅧ기서, EPi는지가 예측치, APi는표준지 공시지가, ^EP/AP 는예측비율 (지가 예측치/표준지 공시지 ᄀ

ᅡ)의 중위수, N은관측값의 개수이다. RMSE, MAE, MAPE는작을수록예측성능이 상대적으로 우 ᄉ

ᅮ함을나타내며, COD는미국,캐나다 등 북미지역에서 부동산 가격 산정을위한 대량평가모형의 균형 서

ᆼ 판단지표로 통상 5-20 정도를기준으로 하고 있다 (Jun, 2017).

(6)

3. 실증 분석

3.1. 분석 ᄌ

ᅵ가 예측에활용한 설명변수는 Table 2.2와 같으며, 일반최소제곱법을반복수행하여 통계적으로 유 ᄋ

ᅴ성 (p-value)이 있는변수를선택하였다. 최종모형에 투입된 설명변수는 용도지역 (zoning), 이용상 화

ᆼ (land use), 도로접면 (road width), 각지여부 (cross road), 경사도 (slo), 형상지수 (sind), 지하철 ᄋ

ᅧᆨ과의 거리 (subw), 유해시설과의 거리 (ham), 상권과의 거리 (mark), 면적 (ar) 등 10가지이다. 주 ᄋ

ᅥ진 자료에 대한 OLS 분석 결과를살펴보면 주거지역 (zone1)이 상업지역 (zone2) 보다는상대적으로 ᄀ

ᅡ격이 낮게 형성되는반면, 공업지역 (zone4), 녹지지역 (zone5)에 비해서는 높게 형성되는 등대체로 ᄐ

ᆼ상적인 토지 가격 형성의관행과 유사한 형태로 나타났다 (Table 3.1). 또한 도로접면의 경우도광대 ᄅ

ᅩ (wid1)에서부터 세로 (wid6)까지 토지와 접한 토로의 너비의 폭변화에 따라 가격이 순차적으로 낮 ᄀ

ᅦ 형성되는것으로 나타났으며, 각지에 위치한 토지는각지가 아닌 일반적인 토지보다 가격이 높게 형 서

ᆼ되는것으로 나타나 일반적인 상식 수준을벗어나지 않는결과가 도출되었다. OLS에서 선택된 변수 느

ᆫ모두 유의한 것으로 나타났으며, Adj-R2가 0.9117으로 설명력이 매우 높았다.

Table 3.1 OLS fitting result

Explanatory variable Estimate Std.Error t-value p-value Reference

Intercept 2.E+01 0.08 206.24 0.000***

Zoning zone2 7.E-01 0.02 31.83 0.000*** Residential Areal

zone4 -3.E-01 0.06 -4.90 0.000***

zone5 -5.E-01 0.05 -9.74 0.000***

Land Use use200 2.E-01 0.02 14.28 0.000*** Land for Residence

use400 -4.E-01 0.16 -2.66 0.008**

use600 -1.E+00 0.06 -21.93 0.000***

use700 -3.E+00 0.07 -40.60 0.000***

Road Width wid2 -3.E-01 0.02 -13.18 0.000*** Wide

wid3 -5.E-01 0.02 -25.29 0.000***

wid4 -6.E-01 0.02 -27.36 0.000***

wid5 -7.E-01 0.05 -14.15 0.000***

wid6 -8.E-01 0.06 -13.95 0.000***

Cross Road cr2 -8.E-02 0.01 -6.20 0.000*** Yes

slo 2.E-03 0.00 3.55 0.000***

sind 2.E-01 0.08 3.15 0.002**

road -4.E-04 0.00 -5.31 0.000***

subw -9.E-05 0.00 -4.49 0.000***

ham 6.E-05 0.00 6.32 0.000***

mark -3.E-04 0.00 -26.65 0.000***

ar 2.E-06 0.00 3.04 0.002***

Signif. codes: *** 0.001, ** 0.01, * 0.05 Multiple R-squared = 0.9123 Adjusted R-squared = 0.9117

RK에서는앞의 OLS에서 구한 잔차를 바탕으로 크리깅을적용하여 검증데이터 (test data)의 잔차 ᄀ

ᆹ을 추정하고 이를다시 OLS의 예측값과 합하여 RK를 바탕으로 추정된 지가를산출하였다. OLS에 ᄉ

ᅥ 산출된 잔차를기준으로 크리깅을적용하기 위해서는잔차값들의 공간의존성을 공분산 행렬로 모형 ᄋ

ᅦ 적합하여야 한다. Figure 3.1은 OLS의 잔차에 대한 베리오그램으로 partial sill의 값은 0.06784, range는 0.01485초 (약 45m 내외)로 나타났다. 크리깅 적용에서 적용된이론적 베리오그램은 Figure 3.1과 같이 실선으로 구현된마턴 (Mat´ern)을사용하였다. 최근크리깅관련 연구를살펴보면 마턴 베 ᄅ

ᅵ오그램의활용도가 높으며 이는지수형이나 구형 베리오그램에 비해 보편적인 경향면을생성하기 때 무

ᆫ에 지가 함수를설명하기 적합하다고 판단하였다.

(7)

Figure 3.1 Variogram of residuals from OLS

DNN을 통해 지가를 예측하는 과정에서 입력된 자료가 출력층까지의 전달이 온전하게 이루어질 수 이

ᆻ도록 RELU (rectified linear unit)함수를활용하였다. 모형의 최적화 과정에서 너무 많은 은닉층과 ᄋ

ᅳᆫ닉노드로 인한 과적합 발생의 최소화를위해 정규화와 dropout을 적용하였다. 정규화에는 L2 경사 ᄀ

ᅵ울기가 가중치에 의해 갱신되는 과정에서 과대로 적용되지 않도록 제한도 (λ)를 0.01으로 설정하였 ᄀ

ᅩ, dropout에는 각 은닉층에서 일정 비율로 노드를 제외한 나머지 노드로만 모형화를 진행할 수 있 ᄃ

ᅩ록 함으로써 훈련데이터에 대해 과도한 적합이 이루어지지 않게 하였다. 모형 적합을 위한 반복횟수 (epoch)는 연산 시간과 과적합 문제를고려하여 10만회로 제한하였고, 은닉층과 은닉마디의 경우 너무 ᄇ

ᆨ잡한 연산을지양하고자 3개의 은닉층과 500개의 은닉 마디로 구성하였다.

Figure 3.2 Variogram of residuals from DNN

DNNRK에서는 앞의 DNN에서 도출된 잔차에 크리깅 기법을 적용하여 검증 데이터의 잔차값을 ᄎ

ᅮ정하고, 이를 다시 DNN의 추정 지가와 더하여 DNNRK를 바탕으로 추정된 지가를 산출하였다.

DNNRK 역시 RK에서의 과정과 마찬가지로 잔차값들의 공간의존성을 공분산 행렬로 모형에 반영해야 ᄒ

ᅡ며, 이 과정은 Figure 3.2과 같이 마턴 베리오그램을 통해 적합하였다. DNN 예측결과의 잔차에 대한 ᄇ

ᅦ리오그램에서 partial sill의 값은 0.01340, range는 0.00316초 (약 10m 내외)으로 나타났다.

(8)

3.2. 성능평가

Table 3.2 Performance of evaluation models

OLS RK DNN DNNRK

MR 1.04 1.03 1.02 1.01

RMSE 4524707 2847747 3724880 2241353 MAE 2190021 1465545 1603141 1134073

MAPE 21.21 14.92 15.62 11.42

COD 21.14 14.97 15.40 11.39

Figure 3.3 Scatter plots of estimates vs. observations (clockwise from top left: OLS, RK, DNNRK, DNN)

Table 3.2는 각 모형에 대한 성능지표이다. 각각의 모형 중 DNNRK의 RMSE와 MAE가 가장 낮 ᄋ

ᆫ 값을 가지며 상대적으로 예측력이 우수한 것으로 나타났다. 반면 기존 모형인 OLS의 경우, 높은 MAE와 RMSE를보이며 상대적인 예측력이 떨어지는것으로 나타났다. 예측력의 비교에서 RK의 성 ᄂ

ᆼ이 DNN과 비교하여 상대적으로 우수하게 나타났으며, 일반적인 모수 추정 방식 (OLS와 DNN) 보 ᄃ

ᅡ 공간적 구조를 반영한 RK와 DNNRK가 우수한 결과를 보여주었다. 이는 잔차 크리깅을 통해 공 ᄀ

ᅡᆫ적 상관성을예측과정에 반영하는것이 지가 예측에 보다 효과적임을 보여준다. 정확도를나타나는 MAPE의 경우 평균적인 오차 수준이 DNNRK가 11.42%로 가장 낮으며, OLS가 21.21%으로 가장 높 ᄋ

ᆻ다. RK와 DNN은유사한 수준이나 RK의 경우, 약 0.7% 낮은것으로 나타나고 있다. MR의 경우, OLS 등 4가지 모형 모두 1.00 가깝게 나타났다. 이는잔차의 합이 평균적으로 0에 가까운것과 유사한

(9)

거

ᆺ이기 때문에큰유의미성이 없다고 할 수 있다. COD의 경우 OLS (21.21)를제외하고 모두 20 이하 ᄋ

ᅴ 값이 나타났는데, DNNRK의 COD는 공동주택과 같이 표준화된부동산이 아닌 경우 나타나기 어려 ᄋ

ᅮᆫ수치임에도 매우 우수한 수준으로 나타나 지가 예측을위한 머신러닝과 잔차 크리깅의 결합이 매우 ᄒ

ᅭ과적임을알 수 있다. Figure 3.3은표준지 지가와 각 모형에서 추정한 지가의 산점도를나타낸다. 산 ᄌ

ᅥᆷ도에서 각 점들이 붉은색의 1:1 경사 직선과 가깝게 위치할수록예측성능의 우수함을나타낸다. 산점 ᄃ

ᅩ에서 볼수 있듯이 OLS, RK, DNN에 비해 DNNRK의 경우가 경사 직선을 중심으로 그려진 분포가 ᄇ

ᅩ다 가깝고 밀도 있게 위치함을알 수 있다. 이러한 결과는확실히 DNNRK 모형이 지가 추정에 보다 ᄒ

ᅭ과적임을나타낸다.

4. 결론 보

ᆫ연구는지가 예측정확도 향상을 목적으로 딥러닝 기법과 잔차 크리깅을결합한 지가 추정 모형을 ᄌ

ᅦ안하였다. 그동안 딥러닝을활용하여 지가를예측하는연구의 대부분은기본적으로 고저, 형상, 용도 ᄌ

ᅵ역 등 물리적 속성 정보만을 고려하여 딥러닝 자체의 비모수적 해석에 따른 높은예측력에 주목했을 뿌

ᆫ,지가의 형성과정에서 나타나는 공간적 상관성을반영하는연구는없었다. 본연구는이러한 한계점 으

ᆯ 인식하고 공간적 효과를고려하기 위해 딥러닝 예측결과와 예측결과부터 산출된잔차에 대해 크리깅 ᄋ

ᅳᆯ적용하여 합산하는 DNNRK모형을제시하였다. 이 과정은표준지 공시지가를기준으로 OLS, RK, DNN, DNNRK모형을적용하여 가격을추정하고 각각의 모형의 성능을비교하여 분석하였다. 모형의 서

ᆼ능비교 결과, DNNRK 모형이 기존 OLS모형에 비해 정확성 및 균형성 측면에서 우수한 결과를보 ᄋ

ᅧ주었고, 비교 대상인 RK와 DNN에 비해서도 상대적으로 우수한 예측결과가 도출되었다. 이러한 결 ᄀ

ᅪ는최신의 예측모형을 통해 지가를추정하더라도 모형만으로 설명할 수 없는잔차 성분 (공간적관계 ᄄ

ᅩ는지역 요인 등으로 설명 가능)을보완할 수 과정이 필요함을의미한다. 그러나 이번 연구는 특정지 ᄋ

ᅧᆨ (서울)을대상으로 한 결과이기 때문에 모든지역에서 DNNRK의 예측성능이 좋다고 단정할 수 없 ᄃ

ᅡ. 특히 서울의 경우, 용도 지역상 비도시지역에 해당하는관리지역, 농림지역 등이 부재하기 때문에 ᄇ

ᅵ도시지역에서의 적용가능성 여부는한 번 더 고려되어야 할 것이다. 이번 연구는지가 예측의 고도화 르

ᆯ 목적으로 적용하였지만, 향후 토지 외 공동주택, 단독주택 등다른유형의 부동산에도 방법론적 적용 ᄋ

ᅵ 가능하다.

References

Anselin, L and Bera, A. (1998). Spatial Dependence in linear regression models with an introduction to spatial econometrics, Marcel Dekker, New York.

Antipov, E. A. and Elena, B. P. (2012) Mass appraisal of residential apartments: An application of ran- dom forest for valuation and a CART based approach for model diagnostics. Expert Systems with Applications, 39, 1772-1778. DOI: https://doi.org/10.1016/j.eswa.2011.08.077

Arno, C., Jessica, L., Erin, L., Viraj, P. and Anisha, A. (2015). Deep learning with H2O, H2O.ai.inc, Califonia.

Bae, S. and Yu, J. (2018). Estimation of the apartment housing price using the machine learning methods:

The case of Gangnam-gu, Seoul. Journal of the Korea Real Estate Analysts Association, 24, 69-85.

DOI: https://doi.org/10.19172/KREAA.24.1.5

Choi, J., Jin, H. G. and Kim, Y. (2018) Spatial analysis for a real transaction price of land. The Korean Journal of applied Statistics, 31, 217-228. DOI: https://doi.org/10.5351/KJAS.2018.31.2.217 Choi, J. H. and Kim, B. J. (2015). A Study for applicability of cokriging techniques for estimating the

real transaction price of land. Journal of the Korean Society for Geospatial Information Science, 23,

55-63. DOI: https://doi.org/10.7319/kogsis.2015.23.1.055

(10)

Demyanov, V., Kanevski, M., Chernov, S., Savelieva, E and Timonin, V. (1998). Neural network residual kriging application for climate data. Journal of Geographic Information and Decision Analysis, /bf 2, 215-232.

Gloudemans, R. and Almy, R. (2011). Fundamentals of mass appraisal, IAAO, Kansas City.

Hastie, T., Friedman, J. and Tibshirani, R. (2009). The elements of statistical learning, Springer, New York.

Hengl, T., Heuvelink, G. B. and Rossiter, I. D. G. (2007). About regression kriging: From equations to case studies. Computer and Geosciences, 33, 1301-1315. DOI: https://doi.org/10.1016/j.cageo.

2007.05.001

Jun, B. W. (2017). Evaluating the accuracy of spatial interpolators for estimating land price. Journal of the Korean Association of Geographic Information Studies, 20, 125-140. DOI: https://doi.org/10.

11108/kagis.2017.20.3.125

Lee, C. and Park, K. H. (2016). Application of machine learning models for estimating house price. Journal of the Korean Geographical Society, 51, 219-233.

Lee, C. and Kim, S. H. (2018) The deep learning approach to property valuation: An application of a multilayer neural net model for estimating house prices. Journal of The Korean Regional Development Association, 30, 179-201.

Quin, Y., Forghani. M., Lee, J., Farthing, M., Hesser, T., Kitanids, P. K. and Darve, E. F. (2020).

Application of deep learning-based interpolation methods to nearshore Bathymetry. arXiv, 2011.09707.

Seckin, Y and Sultan, K. (2020). A mass appraisal assessment study using machine learning based on multiple regression and random forest. Land Use Policy, 99, 104889. DOI: https://doi.org/10.

1016/j.landusepol.2020.104889

Seo, Y. M., Lee, B. J. and Choi, Y. Y. (2020). Estimating the spatial distribution of groundwater level using the cnjunction models of artificial neural network and kriging. Journal of the Korean Society for Environmental Technology, 21, 90-100. DOI: https://doi.org/10.26511/JKSET.21.1.12

Song, S. R., Park, J. and Kim, Y. (2017). Hierarchical Bayesian analysis for a forest stand volume. Journal of the Korean Data & Information Science Society, 28, 29-37. DOI: https://doi.org/10.7465/jkdi.

2017.28.1.29

Won, S. H., Lee, C. G. and Park, J. (2017). A study on the prediction of land price with machine learning technique. The Geographical Journal of Korea, 51, 347-355.

Yeh, I. C., Huang, K. C. and Kuo, Y. H. (2013). Spatial Interpolation using MLP-RBFN hybrid networks.

International Journal of Geographical Information Science, 27, 1884-190. DOI: https://doi.org/10.

1080/13658816.2013.769050

(11)

2021, 32

(

3)

,

475–485

Prediction of the land price based on deep learning and residual kriging

Jinho Choi

1

· Yongku Kim

2

1Korea Real Estate Board

2Department of Statistics, Kyungpook National University

Received 29 March 2021, revised 15 April 2021, accepted 19 April 2021

Abstract

This study is propose the conjunction models of deep neural network and residual kriging (DNNRK) for advancement of land price estimation and validate its perfor- mance. Seoul (Gangnam 3 District) was chosen as a study area and we collected land prices of standard lots estimated by appraiser. When inspecting the model performance based on the test data, we confirmed that the land price accuracy form the DNNRK model was improved substantially compared with that of the OLS, DNN and RK.

Therefore, these results indicate that introducing spatial autocorrelation as a location factor to models can improve the performance of land price prediction significantly.

Furthermore, DNNRK model coupling DNN and residual kriging can be an effective alternative for estimating the land price accurately.

Keywords: Deep neural network, land price, residual kriging, spatial autocorrelation.

1

Research fellow, Korea Real Estate Board, Daegu 41068, Korea.

2

Corresponding author: Associate professor, Department of Statistics, Kyungpook National University,

Daegu 41566, Korea. E-mail: [email protected]

수치

Table 2.1 Summary of training and test data Training (80%) Test (20%) Total (100%)
Figure 2.1 Spatial distribution of training and test data
Figure 2.2 Concept of deep neural network
Figure 2.3 Deep neural network residual kriging
+4

참조

관련 문서