• 검색 결과가 없습니다.

4차 산업혁명 시대에서의 인공지능 주택 추정 가격의 의의

N/A
N/A
Protected

Academic year: 2022

Share "4차 산업혁명 시대에서의 인공지능 주택 추정 가격의 의의"

Copied!
14
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

본연구는4차산업혁명시대를맞아인공지능을활용하여주택가격을추정하는것이목적이다.현재

빅데이터와인공지능이다양한분야에접목되어활용되고있으며대표적으로바둑(알파고),음성인식(인 공지능비서),개인화서비스(제품추천),이미지분류(구글이미지검색)등이있다.인공지능은알파고의

사례와같이인간을뛰어넘는성과를보이고있기때문에이를주택가격과접목했을때충분한성능을

기대해볼수있다.또한,주택과관련된빅데이터가다양하게공개되고있기에시도해볼만한가치가높 다.본연구에서사용된데이터는국토교통부에서제공하는실거래가데이터를기반으로다양한추가변 수(건축물대장,토지대장,개별가격공시가,환경정보등)를접목하여사용한다.추정알고리즘은자유도및

성능이가장좋아각광받고있는인공신경망기법을기반으로하며,은닉층을여러개쌓아복잡하고비 선형적인학습이가능한심층신경망DNN을이용한다.추정알고리즘의특징으로는거래량의지역편차가

있어가격추정이어려웠다는점을극복했다는것이다.또한,변동성이내재된분포형태의추정가격이

제시된다는것이다.마지막으로추정알고리즘의성능결과와함께활용방안을제시한다.

※본고의내용은필자의개인의견으로한국주택금융공사의공식적인견해와다를수있습니다.

※본조사결과는「통계법」제3조제1호및「동법시행령」제2조제5호에해당하는수량적정보로서,통계법적용대상이아님을알려드립니다.

*(주)케이플러스빅데이터연구소연구원(pyh9163@gmail.com)

4차 산업혁명 시대에서의

인공지능 주택 추정 가격의 의의

Ⅰ. 서론

Ⅱ. 이론적 배경

Ⅲ. 자료의 특성

Ⅳ. 추정 알고리즘

Ⅴ. 알고리즘 결과

Ⅵ. 결론

Survey and Research

박 영 철*

(주)케이플러스 연구원

(2)

조사

·

연구시장분석주요일지

Ⅰ. 서론

주택법에서의 주택의 의미는 “가구의 세대원이 장기간 독립된 주택생활을 영위할 수 있는 구조로 된 건축물의 전부 또는 일부 및 그 부속 토지”를 말한다. 하지만 현재 주택은 거주 공간 이상의 투자 가치가 있는 재산으로 여 겨진다. 재산으로서의 가치 때문에 다양한 금융상품이 출시되고, 투자의 목적으로 활용되기도 한다. 또한, 세금 을 부과하기 위한 기준으로 사용되기도 한다. 이렇게 주택이 활용되려면 가장 우선적으로 실제 가치와 근접하도 록 평가되어야 한다.

가장 정확한 주택 가치는 시장에 형성되어있는 실거래가를 이용하는 것이다. 하지만 이 정보는 주택 구분별 지 역별 거래량 편차가 매우 크다. 규모가 큰 아파트 단지의 경우 실거래 정보를 참고해 어려움 없이 가치를 알 수 있 다. 하지만 작은 아파트 단지 및 소규모 주택의 경우 참고할 거래 정보가 부족해 정확한 가치 평가가 어렵다. 그 렇기 때문에 이를 보완해 주택의 가치를 추정하는 방법들이 존재한다. 첫 번째, 감정평가사가 주택의 특징을 파 악한 후 평가하는 것이다. 이 방법은 정확한 주택 가치를 평가할 수 있는 장점이 있지만 비용 및 시간이 부과되 고 실시간 평가가 어렵다는 단점이 있다. 두 번째, 호가 정보를 이용하는 것이다. 가장 최근의 시세 정보를 확인 할 수 있지만 공급자에 의해 시세가 정해지기 때문에 시장 가치와는 이질감이 있다는 것이 가장 큰 단점이다. 세 번째, 전통적인 통계모형을 이용해 주택 가치를 추정하는 것이다. 가장 객관적으로 평가할 수 있지만, 데이터의 확보 및 많은 변수를 사용할 수 없는 등의 문제가 있다. 이로 인해 신뢰도가 부족하다는 것이 가장 큰 한계점이다.

위의 방법들은 장단점이 다를 뿐 그 목적은 부족한 실거래가 정보를 보완해 주택의 가치를 평가하기 위함인 것은 분명하다. 하지만 명확한 한계점을 가지고 있다. 따라서 무엇보다 정확한 가치의 평가가 중요한 시점에서 전 통적인 방법만을 고수해서는 앞으로 나아가기 어려운 것이 현실이다. 본 연구에서는 4차 산업혁명 시대를 맞아 주목받고 있는 인공신경망을 이용한 주택 가치 추정 모형을 제시한다. 인공신경망 기술은 이미지 분류, 인공지능 비서, 제품 추천 등 다양한 분야에서 우수한 성능을 나타내고 있는데, 그중 알파고(AlphaGO)가 대표적이다. 인 공신경망이 주목을 받을 수 있었던 이유는 전통적인 통계 모형에서 해결하기 어려운 비선형적인 관계 및 다량의 변수를 학습하는 것이 가능하기 때문이다. 따라서 본 연구에서는 다양한 데이터를 이용해 주택 시장의 복잡한 관계를 학습할 수 있는 인공신경망 기술을 통해 객관적이고 정확한 주택의 가치를 산출할 수 있을 것으로 예상 한다.

본 연구의 구성은 다음과 같다. 2장에서 인공신경망의 이론적 배경을 알아본다. 3장에서는 주택 데이터의 특 성을 4장에서는 추정 알고리즘의 특징을 기술한다. 5장에서는 알고리즘의 성능 및 결과에 대해 분석하고 활용 방안을 제시한다. 6장에서 연구 결과를 요약하고 결론을 도출한다.

(3)

Ⅱ. 이론적 배경

인공신경망은 뇌에 있는 생물학적 뉴런의 네트워크에서 영감을 받은 머신 러닝 모델이다. 인공신경망은 본 연 구에 사용되는 심층 신경망(Deep neural network)의 핵심으로 자유도가 높고 강력하기 때문에 수백만 개의 이미지를 분류하거나, 음성 인식 서비스의 성능을 높이거나, 사용자에게 적합한 영상 및 제품을 추천하거나, 바 둑 기보를 익히는 등 복잡한 대규모 머신 러닝 문제를 다룰 때 적합하다.

인공신경망을 구성하는 가장 작은 단위를 인공 뉴런이라고 한다. 인공 뉴런을 이해하기 위해선 우선 생물학적 뉴런을 살펴볼 필요가 있다. 생물학적 뉴런[그림 1]은 충분한 양의 신호를 전달받았을 때 자체적인 신호를 발생 시키며 다른 뉴런에게 그 신호를 전달하는 단순한 동작을 한다. 보통 수십억 개의 뉴런이 거대한 네트워크[그림 2]를 이루고 있기 때문에 매우 복잡한 계산을 수행할 수 있다. 여기에서 착안한 것이 인공 신경망이다.

[그림 1] 생물학적 뉴런

[그림 2] 뉴런 네트워크

자표출처:Hands-OnMachineLearningwithScikit-Learn,Keras&ensorFlow2nd

[그림 3]은 가장 간단한 형태의 인공 뉴런이다. 생물학적 뉴런과 마찬가지로 어떤 값이 입력되면 이 값이 계산 된 후 특정 조건을 만족하면 다음 뉴런에 전달한다. 기술적으로 말하자면 입력의 가중치 합을 계산한 뒤 활성함 수(activation function)을 적용하여 결과를 출력하는 것이다.

(4)

조사

·

연구시장분석주요일지

[그림 3] 인공 뉴런

[식 1] 활성 함수

활성 함수로 [식 1]을 사용한 인공 뉴런은 입력된 가중치의 합이 함수를 통해 0 이상값을 가지면 1을 다음 뉴 런에 전달해 주고, 0 미만값을 가지면 0을 전달해 주는 형태로 작동한다. 입력값(x₁, x₂, x₃)에 각각의 가중치 (w₁, w₂, w₃)가 가중치 합(z)으로 계산되고, 이 값이 활성 함수의 조건인 0 이상일 경우 다음 뉴런에 신호(1)를 전달하는 것이다. 이렇게 활성 함수를 거치면 신호가 그대로 출력이 되지 않고 비선형적으로 변형을 거쳐 출력된 다. 이처럼 생물학적 뉴런과 유사한 형태의 인공 뉴런이 무수히 쌓이게 되면 이를 인공신경망이라 한다.

인공신경망은 입력층(Input layer), 은닉층(Hidden layer), 출력층(Output layer)로 구성된다. 은닉층을 여 러 개 쌓아 올린 인공신경망을 심층 신경망(Deep neural network) 또는 딥러닝(Deep learning)이라 한다.

이 형태는 바로 생물학적 뉴런 네트워크와 유사하게 이루어져있으며, 마찬가지로 매우 복잡한 계산을 수행할 수 있는 것이다.

[그림 4] 인공신경망

xxx

(5)

인공신경망은 다양한 분야에서 뛰어난 성과를 내고 있지만 그중 ILSVRC¹⁾에서 사람을 뛰어넘을 수 있다는 것이 증명되었다. 2014년까지 인공신경망 알고리즘의 인식 오류율은 사람수준인 5%를 넘지 못하였지만, 2015 년 ResNet²⁾이라는 알고리즘이 3.6%라는 성과로 사람을 뛰어넘는 인식 오류율을 보였다. 그 후로 알고리즘이 개선되며 2017년에는 SEnet(Squeeze-and-excitation networks)이 사람 인식 오류율의 절반도 안 되는 2.3%를 달성하였다.

[그림 5] ILSVRC 알고리즘 인식 오류율

Ⅲ. 자료의 특성

본 연구의 주택가격 분석기간은 2015년 1월부터 2019년 6월까지이며 이 기간을 기준으로 국토교통부 실거 래가 자료 제공서비스에서 아파트, 연립/다세대, 단독/다가구, 오피스텔 4가지 구분의 전국 월별 실거래가 데이터 를 사용한다. 분석을 위한 추가 정보는 건축물대장, 토지대장, 개별가격정보, 환경정보로 구분하여 사용하였다.

건축물대장은 국토교통부에서 제공되는 건축물이 가지고 있는 특성 정보로 주택 가격 추정 시 가장 기본이 되는 정보이다. 건축 특성에 따라 같은 지역 내에서도 거래금액이 다르게 형성되기 때문이다. 토지대장은 국토교 통부에서 제공되는 토지 특성 정보이다. 공시지가 및 해당 주택 위치의 토지 형태 등이 사용된다. 토지대장의 개 별 공시지가는 토지가 위치한 곳이 중심지에 가까울수록 또는 용도 지역의 개발 자유도가 높을수록 금액이 높 아지는 경향이 있다. 이로 인해 주택 가격에 주는 영향이 크기 때문에 추가 변수로 사용한다. 주택개별가격정보 는 국토교통부에서 발표되는 정보이다. 주택 공시가격은 재산세, 종합부동산세 등을 부과하기 위해 실거래의 금 액을 기준으로 산정하기 때문에 주택 가격을 추정하는 데 높은 상관관계를 보이는 변수이다. 환경정보는 학교, 교통, 편의시설 정보들이 사용된다. 각 시설이 근접거리에 얼마나 분포하는지에 대한 정보가 변수로 사용된다.

본 연구에서 사용되는 각 변수의 특성 및 수치형 변수의 통계량은 [표 1]을 통해 정리한다.

1) ILSVRC는매년1억4천만개의이미지에대해2만2천개의범주를갖는데이터를분류하는알고리즘을경합하는대회.

2)ResNet은 마이크로소프트에서 개발한 이미지 분류 알고리즘.

(6)

조사

·

연구시장분석주요일지

구분 이름 자료형 정의 최솟값 평균값 최댓값

실거래가

실거래 가격 연속형 만원 단위의 금액 5.20 352.48 5,946.21

전용면적 연속형 m²단위의 면적 6.59 81.78 4,237.10

대지면적 연속형 m²단위의 면적 3.30 1,567.59 84,655

이산형 현재 층 -2 7.54 70

건축년도 이산형 건축년도 1,900 1,999.19 2,019

개별가격 개별가격 연속형 만원단위의 금액 0 214.31 2,268.80

건축물 특성

총 층수 이산형 최고 층 0 13.07 150

세대수 이산형 총 세대수 0 597.33 11,380

가구수 이산형 총 가구수 0 18.30 66,824

건물수 이산형 총 건물수 0 9.29 134

주거용 면적 연속형 m²단위의 면적 0 44,989.82 836,408.43

상업용 면적 연속형 m²단위의 면적 0 879.99 194,344.52

재건축 범주형 재건축 여부

주차장 범주형 주차공간 유무

건축물 구조 범주형 건축 구조

엘리베이터 범주형 엘리베이터 유무

난방방식 범주형 개별, 중앙, 지역

난방연료 범주형 도시가스, 열병합

현관구조 범주형 계단, 복도, 타워

아파트 이름 범주형 아파트 이름

건설사 이름 범주형 건설사 이름

토지 특성

토지 공시지가 연속형 만원단위의 금액 0 184.41 6,100

용도지역 범주형 토지 용도지역

지형고저 범주형 토지 지형고저

지형형상 범주형 토지 지형형상

도로접면 범주형 토지 도로접면

지역 특성 법정동 구분 범주형 법정동

환경 특성

유치원 이산형 인근 유치치원 수 0 0.29 5

초등학교 이산형 인근 초등학교 수 0 1.91 11

중학교 이산형 인근 중학교 수 0 1.09 5

고등학교 이산형 인근 고등학교 수 0 0.59 5

대학교 이산형 인근 대학교 수 0 0.41 7

지하철 이산형 인근 지하철 수 0 0.05 17

[표 1] 변수 특성 및 통계량

(7)

표를 통해 다량의 수치형 및 범주형 변수가 있는 것을 볼 수 있다. 만약 알고리즘을 전통적인 통계 모형으로 설 계한다면, 수집한 변수를 모두 사용하는 것은 매우 어렵기 때문에 다중공선성³⁾을 고려한 주요 변수 선택이 이루 어져야 한다. 인공신경망 기법에서는 은닉층이 깊은(규모가 큰) 네트워크를 통해 전통적인 통계모형이 갖는 문제 점을 해결할 수 있다. 인공신경망은 다량의 변수를 이용해 변수 각각의 특성 및 변수 간의 관계를 학습해 최적의 결과를 만들어낸다. 또한, 두 변수가 상관관계가 높더라도 동시에 사용하는 것도 가능하다. 인공신경망이 변수 를 학습하는 동안 네트워크 안에서 변수의 의미를 재해석하는 과정이 이루어지기 때문이다. 결과적으로 세세한 특성까지도 학습할 수 있어서 인공신경망 알고리즘이 다양한 분야에서 우수한 효과를 보일 수 있었던 것이다.

Ⅳ. 추정 알고리즘

앞서 수집한 변수는 주택 실거래 가격과 비선형적인 관계를 보인다. 일반적인 통계 모형은 비선형적인 관계를 표현하기가 매우 어렵다는 한계가 있다. 하지만 심층 신경망(Deep Neural Network)은 은닉층이 여러 개 쌓인 거대한 네트워크로 이루어져 있기 때문에 비선형적인 관계를 학습하고 표현하는 것이 가능하다. 또한 많은 비선 형 관계의 변수가 투입되어도 변수들을 재해석하면서 학습이 이루어지기 때문에 주택 시장과 같이 복잡한 문제 를 다루기 적합하다. 따라서 본 연구에서는 심층 신경망을 기반으로 주택 추정 알고리즘을 개발하였다.

[그림 6] 심층 신경망 비선형성 학습 개념도

실거래가의 가장 큰 문제점은 지역에 따른 거래량 편차가 크다는 것이다. 거래량이 많은 지역의 경우 주택 가 격은 쉽게 추정해 볼 수 있지만, 거래량이 부족한 지역은 참고할 정보가 부족해 추정하기 어렵기 때문이다. 이에 본 연구에서는 거래량의 지역 편차로 인한 어려움을 인공신경망 기법을 통해 개선하고자 하였다. 데이터를 학습 하는 과정에서 지역 환경 및 특성의 유사성이 추정 알고리즘에 반영된다. 따라서 거래량이 적은 지역의 주택이라 하더라도 유사성이 있는 근접한 지역 및 특성 정보를 참고해 안정적인 추정치를 산출할 수 있다. [그림 7]은 알고 리즘이 파악한 서울시 구 지역 및 동 지역 환경의 유사성을 지도상으로 표현한 것이다.

3)독립변수들간에강한상관관계가나타나면,모형에부정적인영향을끼칠수있음.

(8)

조사

·

연구시장분석주요일지

[그림 7] 지역 환경의 유사성 구분 예시

심층 신경망 기법의 활용이 대용량 데이터 학습 및 복잡한 문제에 대한 정확도 향상 등의 성과를 이루어 냈지 만, 일반적인 신경망 알고리즘은 전통적인 통계모형처럼 한 가지 답을 제시하는 것에 그친다. 입력한 값이 데이터 패턴에 크게 벗어나 있거나 잘못된 값이 존재하는 경우에도 알고리즘은 추정값 하나만을 제시하는 것이다. 만약 알고리즘이 추정한 주택 가격이 실제 가치와 크게 벗어나는 경우가 있다면 이용자에게 즉각적인 금전적 피해로 직결될 것이다. 따라서 성능이 우수한 알고리즘이더라도 추정 결과에 대한 위험성을 인지하고 사용하는 것이 중 요하다. 본 알고리즘은 이런 취약점을 개선하기 위해 변동성이 내재된 분포 형태의 추정 가격을 제시한다. 이는 이용자가 추정 가격의 변동성을 참고해 사후적인 판단이 가능하도록 하여 위험성을 낮추는 효과를 보인다.

알고리즘이 주택 가격을 추정하는 방법은 [그림 8]과 같은 과정으로 진행된다. 먼저 조회하고 싶은 주택의 특 징을 인공지능의 입력층(Input layer)에 입력한다. 입력된 정보의 특징 및 데이터 패턴의 비선형적인 계산이 은 닉층(Hidden layer)에서 이루어진다. 계산이 완료되면 출력층(Output layer)를 통해 결과값이 산출된다. 이 과정을 통해 분포 형태의 추정 가격이 산출된다.

[그림 8] 인공신경망 주택 추정 방법

알고리즘의 안정성 및 성능을 최대화하기 위해 시계열 학습 방법론이 적용되었다. 이로 인해 알고리즘은 다양 한 데이터의 패턴을 학습하게 되어 점진적으로 성능 및 안정성이 높아진다. 일반적인 시계열 알고리즘은 매 시점

(9)

즘은 데이터의 변화에 유연하게 대처할 수 있게 설계하였다. 학습 중간에 데이터의 구성 변화 및 추가 변수가 있 더라도 이를 반영해 시계열 학습이 끊기지 않는 것이다. 알고리즘이 데이터의 변화를 감지하고 학습에 최적화된 형태로 재구성하기 때문이다.

Ⅴ. 알고리즘 결과

알고리즘의 성능은 종속변수인 실거래가와 알고리즘에서 추정된 가격의 차이를 오차율로 계산해 평가한다. 오 차율을 성능의 지표로 사용하는 이유는 시점이 변화함에 따라 주택 가격이 지속적으로 상승해 가격의 크기가 달라지기 때문이다.

[식 2] 알고리즘 오차율 식

[그림 9] 주요 지역(서울, 대전) 알고리즘 오차율

알고리즘 성능의 주요 지역 오차율 추세[그림 9]를 보면 시계열 학습 방법론의 특징이 잘 나타난다. 주택 거래 량이 많은 서울특별시의 경우 초기 학습 알고리즘의 성능이 우수함을 볼 수 있는데 이는 데이터의 패턴을 충분 히 학습할 수 있었기 때문이라 본다. 대전광역시의 경우 거래량이 충분치 않아 학습 초기 알고리즘의 오차율이 높은 것을 볼 수 있다. 하지만 학습이 지속되면서 점차 다양한 패턴을 학습하므로 알고리즘의 성능이 좋아지는 것을 볼 수 있다.

본 연구에서는 4가지 구분의 주택 추정 알고리즘을 학습시켰다. 서울시 기준으로 아파트 가격 추정 알고리즘 의 경우 5% 내외의 오차율을 보이며 성능이 우수하게 나타났다. 그 이유로는 알고리즘이 학습에 사용할 데이터 가 풍부해 패턴을 충분히 학습할 수 있기 때문이다. 오피스텔 구분의 경우 거래량이 적음에도 불구하고 학습 알 고리즘의 오차율이 8% 내외로 성능이 우수한 편으로 나타났다. 주택의 다양성이 비교적 적어 데이터의 패턴을

대전 지역 오차율(%)

201506 201508 201510 201512 201602 201604 201606 201608 201610 201612 201702 201704 201706 201708 201710 201712 201802 201804 201806 201808 201810 201812 201902 201904 201906

아파트 연립 단독 오피스텔

24

19

14

9

4 서울 지역 오차율(%)

201506 201508 201510 201512 201602 201604 201606 201608 201610 201612 201702 201704 201706 201708 201710 201712 201802 201804 201806 201808 201810 201812 201902 201904 201906

아파트 연립 단독 오피스텔

18 16 14 12 10 8 6 4 2 0

(10)

조사

·

연구시장분석주요일지

학습하기 용이했다고 생각된다. 연립/다세대 주택은 오차율이 10% 내외에서 머물러 있다. 연립 주택의 특성을 고려하면 추정 오차율은 지역별 편차가 있지만, 사용 가능한 수준으로 머물고 있기 때문에 참고 자료로 활용 가 능성이 높다. 단독 주택은 오차율이 13% 내외로 나타났다. 비교적 오차율이 높게 나타났는데 이유로는 데이터 의 패턴이 상대적으로 복잡하기 때문이라 생각된다. 본 연구에서는 이를 시계열 기반의 알고리즘으로 데이터의 패턴을 누적하며 학습시키는 방법을 통해 점진적으로 성능을 높이고자 하였다. 앞으로 실거래 데이터가 계속 생 산되기에 이를 학습 알고리즘에 적용시킴으로 성능 개선의 가능성이 높을 것으로 예상된다.

추정 알고리즘이 시점별 최적의 주택 추정 가격을 산출할 수 있기에 시계열 자료로써 활용할 수 있다. [그림 10]은 한 아파트 단지의 실거래 흐름과 추정가를 비교한 것이다. 이 그래프를 통해 실거래 가격 추세와 알고리즘 추정 가격을 한눈에 비교해 보는 것이 가능하다. 검은색 점은 분석기간 동안 해당 아파트 단지의 평방미터당 실 거래 가격을 월 단위로 나타낸 것이다. 거래가 빈번하게 일어나지는 않지만 전체적인 실거래 가격 추세가 상승하 고 있음을 볼 수 있다. 파란색 선은 알고리즘의 추정 가격을 나타내며 거래가 없는 월에 대해서도 가격을 산출할 수 있기 때문에 끊기지 않는 정보를 표현할 수 있다. 실거래가와 추정가를 비교해 보면 비슷한 추세로 나아가는 것을 볼 수 있다. 따라서 추정 알고리즘이 평가한 주택 가격이 시장에서 평가되는 주택 가격과 유사하게 흘러가 는 것을 확인할 수 있다.

**아파트 거래 추이

900

800

700

600

500

400

201510 201605 201611 201706 201712 201807 201902 추정가

실거래 내역

[그림 10] 서울시 소재 아파트 단지 실거래, 추정 시세 추이

알고리즘은 거래량이 부족한 지역에 대한 가격 추정에서 강점을 보인다. [그림 11]은 규모가 큰 아파트 단지와 작은 아파트 단지에 대해 시세를 비교한 자료이다. 초록색 선은 월별 실거래 평균 가격을 나타내고 빨간색 선은 알고리즘의 추정 가격을 나타낸다. 규모가 큰 아파트 단지는 실거래 시세와 추정 시세가 유사한 형태로 흘러가는 것을 볼 수 있다. 하지만 작은 아파트 단지의 경우 거래량이 적어 거래가 발생했을 때만 실거래 시세가 변화하는 것을 볼 수 있다. 그렇기 때문에 정확한 시세의 흐름을 알기 어렵다. 이때 추정 알고리즘을 사용한다면 거래가 없더라도 각 시점에서 최적의 가격 추정이 가능하기 때문에 시세 추이 변화를 알 수 있는 것이다.

(11)

[그림 11] 단지 규모에 따른 시세 추이 비교

알고리즘 가격 추정을 통해 모든 지역에 대한 시세 정보가 생성되므로 시세 추이 변화율을 비교할 수 있다.

[그림 12]는 서울시 소재의 아파트를 대상으로 지역 구분별 시세 추이와 상관관계를 나타낸 것이다. 왼쪽 그래프 를 통해 해당 아파트 단지 시계열 시세 추이와 지역별 시계열 시세 추이를 보며 흐름을 비교할 수 있다. 다음으로 오른쪽 그래프를 통해 해당 아파트 단지의 시세 추이가 어느 지역 시세 추이와 높은 상관관계를 보이는지 알 수 있다. 이를 통해 해당 아파트 단지의 시세 추이 흐름을 알 수 있고 어느 지역의 영향을 많이 받는지 찾을 수 있 다. 해당 아파트 단지는 전반적으로 구 지역의 시세 추이와 흡사하게 흘러가는 것을 알 수 있다.

[그림 12] 서울시 소재 아파트의 지역별 시세 추이 및 상관관계

시세 추이 정보로 주택 시장의 전반적인 시세 추이 및 변화량을 비교하며 탐색하는 것이 가능하고 나아가 미 래의 예상 시세를 예측하는 데 활용할 수 있다. [그림 13]은 서울시 소재의 아파트 단지에 대한 시점별 추정 가 격 그래프이다. 알고리즘 추정 가격은 분포 형태를 띄고 있으므로 최소, 평균, 최대 추정 가격을 시계열로 표현할 수 있다. 따라서 과거부터의 시세 추이와 추정 가격 범위를 참고해 미래의 시세 추이를 예측해 볼 수 있다.

**아파트 1000세대 이상

( 단위 : 만원 ) 180,000

160,000 140,000 120,000 100,000 80,000 60,000 40,000 20,000 0 201601

201603 201605

201607 201609

201611 201701

201703 201705

201707 201709

201711 20180

1 20180

3 201805

20180 7 20180

9 201811

20190 1 20190

3 201905 추정가 실거래가 평균 20평형 대

30평형 대 40평형 대

**아파트 50세대 미만

추정가 실거래가 평균 50,000

45,000 40,000 35,000 30,000 25,000 20,000 15,000 10,000 5,000 0

201601 201603

201605 201607

201609 201611

201701 201703

201705 201709

201711 20180

1 20180

3 201805

20180 7 20180

9 201811

20190 1 20190

3 201905 30평형 대

20평형 대

( 단위 : 만원 )

지역 시세 추이

1100 1000 900 800 700 600 500 400

201601 201603

201605 201607

201609 201611

201701 201703

201705 201709

201711 20180

1 20180

3 201805

20180 7 20180

9 201811

20190 1 20190

3 201905

아파트 단지 서울시 **구 **동

지역 상관관계

0.945 0.960 0.975 0.990

아파트 단지서울시**구**동

아파트 단지 서울시 **구 **동

1.00 0.93 0.95 0.94

0.93 1.00 1.00 0.98

0.95 1.00 1.00 0.98

0.94 0.98 0.98 1.00

(12)

조사

·

연구시장분석주요일지

미래 시세 예측 1000

900 800 700 600 500 400 300

201601 201603

201605 201607

201609 201611

201701 201703

201705 201707

201709 201711

20180 1 20180

3 201805

20180 7 20180

9 201811

20190 1 20190

3 201905

20190 7 20190

9 201911

최솟값 평균값 최댓값 선형(평균값)

[그림 13] 미래 가치 예상

지금까지 알고리즘의 성능 및 활용 방안에 대해 분석하였다. 본 연구의 의도는 인공신경망에 기반하여 우수한 성능의 가격 추정 알고리즘을 만드는 것이다. 나아가 지역에 따른 거래량 편차에 의존하지 않고 모든 지역에 대 해서 안정적인 알고리즘의 성능을 내고자 하였다. 결과 분석을 통해 개발 의도에 부합하는 추정 알고리즘이 설 계 되었음을 확인하였다. 거래량이 부족한 지역에 대해서도 안정적인 가격 추정 및 시세 추이 정보가 산출되었기 때문이다. 나아가 모든 지역에 대한 시세 산출이 가능하기 때문에 새로운 통계 지표로서 활용 가능성이 높다고 사료된다.

Ⅵ. 결론

본 연구에서는 인공신경망 기법을 기반으로 주택 가격 추정 알고리즘을 개발하고 활용 가능성을 제고하는 것 을 목적으로 한다. 복잡한 데이터 패턴을 학습할 수 있는 인공신경망 기법으로 주택의 비선형적 관계를 알고리 즘에 학습시키기에 적합했다. 분포 형태의 가격 추정을 제시함으로써 이용자가 가격의 변동성을 인식하고 사후 적인 판단이 가능하도록 하였다.

연구 결과 거래량이 많은 아파트 알고리즘은 5% 내외로 낮은 오차율을 보였으며, 오피스텔 알고리즘의 경우 거래량이 많지 않음에도 8% 내외 오차율의 좋은 성능을 보였다. 연립 주택의 경우 10% 내외의 오차율을 보이 며 추정 가격이 실거래가에 비교적 근접하게 나타났다. 단독 주택의 경우 오차율 13% 내외로 나타났다. 시계열 학습으로 지역에 따른 충분하지 않은 데이터의 한계를 극복해 알고리즘을 설계하였기에 학습이 진행될수록 성 능이 높아짐을 확인하였다. 앞으로 계속해서 학습이 진행되면 알고리즘의 성능 및 안정성이 더욱 높아지리라 예 상된다. 나아가 단독 주택은 특징이 다양하게 나타난다는 점을 고려해 연관이 있는 추가 변수를 수집 및 분석한 후 알고리즘에 적용하면 성능이 개선될 여지가 있음은 분명하다. 이는 추후 연구 과제로 남겨둔다.

추정 알고리즘을 활용하면 정확한 추정 주택 가격을 실시간으로 산출해 낼 수 있었다. 실거래가의 경우 지역 에 따른 거래량 편차로 인해 활용하기 어려운 불완전한 정보였지만, 이를 인공신경망에 접목해 모든 지역에 대해

(13)

시의적절한 평가가 어렵고 대량의 주택 가격을 신속하게 평가하기 불가능했지만, 추정 알고리즘은 실시간으로 정 확한 가격 및 대량의 주택 가격을 추정하는 것이 가능했다. 또한 호가 정보의 경우 공급자에 의해 정해지는 가치 이기 때문에 시장에서의 가치와 이질감이 있었다. 하지만 추정 알고리즘은 그 무엇보다 객관적으로 가치를 추정 하기 때문에 시장의 가치와 근접하게 평가할 수 있다. 결과적으로 인공신경망 추정 알고리즘은 기존의 가격 평가 방법론의 한계점을 극복할 수 있다고 판단된다.

나아가 인공신경망을 활용하면 기존의 실거래 정보 및 통계 자료로는 도출하기 어려운 정보를 추출해낼 수 있 다는 것이 본 연구를 통해 확인되었다. 알고리즘은 전국 지역에 대해 안정적인 추정치가 산출되기 때문에 전국 시도 단위, 시군구 단위, 읍면동 단위, 아파트의 경우 단지 및 평형별 시세를 산출할 수 있었다. 이 시세 정보는 시계열 자료로서 활용이 가능하다. 시세 추이 정보를 주택 가격의 트렌드 및 미래 가치의 흐름을 예상하는데 참 고 지표로 활용하는 것이다.

4차 산업혁명 시대를 맞아 축적된 주택 빅데이터 정보를 활용하여 의미있는 새로운 정보를 도출하는 것은 인 공신경망 기법이 있기에 가능한 부분이라 생각된다. 본 연구에서는 주택과 관련된 빅데이터 중 일부분을 사용해 서 추정 알고리즘 및 새로운 정보를 추출하였을 뿐이다. 점차 다양하고 품질이 높은 데이터가 공개되고 있기에 이를 인공신경망에 결합해 활용하면 새로운 시각에서 정보를 얻을 수 있을 것이라 기대한다.

참고문헌

• “

UncertaintyinDeepLearning”, YarinGal (2016)

BayesianUncertaintyEstimationforBatchNormalizedDeepNetworks, Anonymous (2018)

• “

EntityEmbeddingsofCategoricalVariables”, ChengGuo, FelixBerkhahn, Arxiv (2016)

• “

TensorFlow: ASystemforLarge-ScaleMachineLearning”, MartínAbadi, PaulBarham, JianminChen, ZhifengChen, AndyDavis, JeffreyDean, MatthieuDevin, SanjayGhemawat, GeoffreyIrving, MichaelIsard, ManjunathKudlur, JoshLevenberg, RajatMonga, SherryMoore, DerekG. Murray, BenoitSteiner, PaulTucker, VijayVasudevan, PeteWarden, MartinWicke, YuanYu, andXiaoqiang Zheng, GoogleBrain, usenix (2016)

• “

TensorFlowDistributions”, JoshuaV. Dillon, IanLangmore, DustinTran, EugeneBrevdo, SrinivasVasudevan, DaveMoore, Brian Patton, AlexAlemi, MattHoffman, RifA. Saurous, Arxiv (2017)

Multi-TaskDeepNeuralNetworksforNaturalLanguageUnderstanding, XiaodongLiu, PengchengHe, WeizhuChen, JianfengGao, Arxiv (2019)

AurelienGeron, Hands-OnMachineLearningwithScikit-Learn, Keras & TensorFlow2nd, 2020(한국어판, 박해선 옮김)

ProbabilisticModelingwithTensorflowProbability (TutorialbyMinchulKim) , https://bit.ly/2x0ZBVb

FrançoisChollet, DeepLearningwithPython, 2018(한국어판, 박해선 옮김)

Tensorflowprobability, https://www.tensorflow.org/probability

• 딥러닝 라이브러리,

https://keras.io

ILSVRC, http://www.image-net.org/challenges/LSVRC/

• 국토교통부 실거래가 제공 서비스 ,

https://rt.molit.go.kr/

(14)

조사

·

연구시장분석주요일지

참조

관련 문서

동일한 이유로 금융부채의 경우도 K-GAAP기준보다 높게 나타날 수 있음.. 금융부채는 자산에 차입금의존도를 곱하여 산출함. KISLINE에서 총차입금은 단기차입금,

따라서 본 연구에서는 예술치료사의 고유한 전문성 발달을 측정할 수 있는 예 술치료사 발달평가척도(the Creative Arts Therapist Developmental

4차 산업혁명, 통일한국, 새만금 시대를

이를 감안할 때 초기자금을 줄일 수 있고 투자가치 확실한 곳으로의 접근 방안으로 청약 시도가 바람직한 것으로 분석되며 경쟁력 있는 청약저축 통장을 보유자라면 기존 주택

나누는

여러 인쇄 방식 중에서 특히 잉크젯 기술이 주목 받는 이유는 비접촉식으로 복잡한 공정 없이 화면에 보이는 도안을 그대로 구현할 수 있다는 데 있다.. 본 연구에서는 잉크젯 기술을

본 연구에서는 스택에 팬이 연결된 스택을 이용해 SU/SD 내구평가를 진행하고, 셀 내 MEA의 성능 및 열화 정도를 비교하고자 한다.. 본 연구에서는 7cm 2 13 cell 스택을

It is known that a much better reconstruction can be achieved by using a local flap of tissue from the non- weight-bearing portion of the sole or a free flap that