• 검색 결과가 없습니다.

Trend Analysis of Apartments Demand based on Big Data

N/A
N/A
Protected

Academic year: 2021

Share "Trend Analysis of Apartments Demand based on Big Data"

Copied!
13
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

1. 서론

1.1 연구의 배경 및 목적

2015년 11월 현재, 우리나라 전체 주택은 약 1,600만 호 로 그 중 아파트는 59.9%의 비중을 차지하며 매년 계속 증가 하는 추세인 우리나라의 대표적인 주거 형태이다(Statistics Korea, 2016). 아파트는 일반 국민에게 주거용뿐만 아니라 수익 상품으로서의 가치를 지니며, 건설기업에게는 주요 상 품, 정부에게는 공공 복지를 위한 중요한 수단 중 하나이다 (Kim & Kim, 2016). 따라서 아파트의 수요 트렌드를 이해하 고 분석하는 것은 고객의 요구 가치에 대응하는 아파트를 개 발하는 것과 주거문제를 해소할 수 있는 부동산 정책 수립을 위해 중요한 의의를 지닌다.

그러나 이러한 중요성에도 불구하고 선행 연구를 검토한 결과, 아파트 트렌드 분석은 주로 지엽적인 주제를 다루거나 설문, 통계자료 등의 정형 데이터를 기반으로 하는 경향이 있 었기 때문에 아파트 수요 트렌트라는 정성적인 주제를 분석

하기에는 한계가 있었다. 이러한 한계를 극복하기 위해 빅데 이터 분석은 유용하게 활용될 수 있다. 최근 빅데이터 분석의 발달에 따라 주요 국가와 산업계에서는 문제 해결과 이슈 대 응, 그에 따른 의사결정의 도구로 활용하는 것이 증가 추세이 며(NIA, 2015), 빅데이터 분석을 통해 패턴이나 연관성을 찾 아 통찰(Insight)을 얻는다면 미래 경쟁의 핵심 자산으로 활 용할 수 있다(Kang, 2013; Kang et al., 2014).

패션, IT 등 소비자의 수요에 빠르게 대응해야 하는 산업 분야에서는 마케팅 및 트렌드 분석에 빅데이터를 활용하는 것이 증가하고 있다(Lee et al., 2014; Jeong, 2013). 이를 아 파트 수요 분석에 활용하면 비정형 데이터와 같은 다양한 형 태의 데이터를 포괄하여 트렌드를 파악 할 수 있는 장점이 있 다. 따라서 기존의 정량적 데이터를 활용한 트렌드 분석에 그 치지 않고, 다양한 데이터를 통해 통찰을 얻을 수 있는 빅데 이터 분석은 매우 유용하게 활용 될 수 있다.

본 연구의 목적은 주요 일간지의 뉴스기사를 빅데이터 소 스(Source)로 설정하고 텍스트 마이닝(Text Mining) 기법 을 활용하여 아파트 수요 트렌드를 분석하고 주요 특징을 도 출하는 데 있다. 본 연구에서는 텍스트 마이닝을 위해 TF- IDF(Term Frequency-Inverse Document Frequency) 가중 치와 LDA (Latent Dirichlet Allocation) 토픽 모델링 기법을 활용하였다.

* Corresponding author: Kim, Han Soo, Department of Architecture, Sejong University, Seoul 05006, Korea

E-mail: [email protected]

Received June 30, 2017: revised August 16, 2017 accepted August 24, 2017

빅데이터 기반의 아파트 수요 트렌드 분석에 관한 연구

김태경1·김한수*

1

세종대학교 건축학과

Trend Analysis of Apartments Demand based on Big Data

Kim, Tae-Kyeong

1

, Kim, Han Soo

*

1

Department of Architecture, Sejong University

Abstract :

Apartments are a major type of residence and their number has continuously increased. Apartments have multiple meanings in that for public they are not only for residence purpose but for investment, a major commodity for construction firms and a critical policy measure of public well-fare for the government. Therefore, it is critical to understand and analyze trends in apartments demand for pro-active actions. The objective of the study is to analyze and identify key trends in apartments demand based on big data drawn from articles of major daily newspapers. The study identifies 17 major trends from seven themes including development, trade, sale in lots, location requirements, policy, residential environment, and investment and profit. The research methods in the study can be usefully applied to further studies for various issues in relation to the construction industry.

Keywords :

Big Data, Text Mining, Apartments Demand, Trend

(2)

아파트 수요 트렌드에 대한 이해는 건설기업 입장에서는 새로운 상품을 준비하기 위한 참고자료로써 의미가 있고, 정 부 입장에서는 주택부동산정책에 대한 의사결정의 참고자료 로 유용하게 활용될 수 있다.

1.2 연구 범위 및 방법

본 연구에서는 아파트를 중심으로 수요 트렌드를 분석하는 것을 연구 범위로 설정하였다. 이를 위해 다양한 데이터 중 뉴스기사 데이터를 정보원(Data Source)으로 하였으며, 동 아일보, 중앙일보, 매일경제, 한국경제 등 4개 주요 일간지를 대상으로 2012년~2016년을 수집 범위로 하였다.

본 연구는 5단계에 걸쳐 수행되었으며 Fig. 1에 제시된 바 와 같다.

Fig. 1. Trend analysis process

2. 선행연구 및 관련 이론 분석

빅데이터를 활용하여 아파트 수요 트렌드를 분석하기 위하 여 트렌드 분석, 텍스트 마이닝, TF-IDF, LDA 토픽모델링 등 연구 방법과 관련 선행연구에 대해 분석하였다.

2.1 아파트 수요 트렌드 분석 관련 연구

트렌드의 사전적 의미는 경향, 추세, 동향 등을 나타내며 트렌드 분석을 하는 이유는 과거의 관련된 사실이나 데이터, 문서화된 정보 등으로 현재 트렌트를 파악하고 시간의 흐름 에 따른 분석을 통해 미래를 예측하기 위함이다(Pillkahn, 2008). 아파트 트렌드 관련 선행 연구를 분석한 결과, 아파트 디자인 개발을 위한 소비자 트렌드 분석(Park et al., 2003), 건설사별 모델하우스 분석을 통한 국내 중소형 아파트 실내 디자인 트렌드 분석(Oh, 2014), “자연”이라는 트렌드 키워드 중심의 아파트 마감재 적용 연구(Seo & Lee, 2012) 등 아파 트 디자인과 마감재에 관한 주제가 주로 연구된 것으로 파악 되었다. 또한 기존 연구는 사례조사, 설문조사 등을 바탕으로

트렌드를 분석하여 데이터 범위의 한계를 지니는 것으로 나 타났다.

본 연구는 뉴스기사로부터 아파트 수요 트렌드와 그에 따 른 특징을 도출하기 위해 트렌드 분석을 활용하였다. 본 연구 는 아파트 수요를 중심으로 트렌드 분석을 진행하였다는 점 과 뉴스기사라는 비정형 데이터 및 빅데이터 분석기법을 활 용하였다는 측면에서 기존 연구와 차별성을 지니고 있다.

2.2 빅데이터

빅데이터는 기존에 활용하던 관리 및 분석 방법으로는 처 리하기 어려운 막대한 양의 데이터를 말하며, 정형 데이터와 비정형 데이터의 집합을 의미한다(TTA, 2017).

정형 데이터는 데이터베이스에 형식이 정해져 입력된 데 이터로, 고정된 컬럼에 저장되는 데이터 및 파일과 같은 관계 형 데이터베이스 시스템 테이블, 행과 열 등으로 데이터 속성 이 구별되는 스프레드시트 등을 예로 들 수 있다(DBGuide.

net, 2017). 반면 비정형 데이터는 형식이 정해져 있지 않은 데이터로, 페이스북 및 트위터와 같은 소셜 네트워킹 서비 스(SNS), 웹 문서, 이메일, 뉴스기사 등을 예로 들 수 있다 (TTA, 2017).

본 연구에서는 빅데이터 중 비정형 데이터에 해당하는 뉴 스기사를 기반으로 아파트 수요 트렌드를 분석하였다.

2.3 텍스트 마이닝

본 연구에서는 텍스트 마이닝 기법을 중심으로 트렌드를 분석하였다. 텍스트 마이닝은 다량의 문서에서 의미 있는 정 보를 추출하는 것으로, 패턴 분석, 트렌드 분석, 감성 분석, 문서 요약, 정보 검색 등 다양한 분석에 쓰이고 있다(Shin, 2016). 텍스트 마이닝은 형태가 일정하지 않고 다루기 어려 운 비정형 데이터를 분석 대상으로 하므로 컴퓨터로 인간 의 언어를 처리하는 자연어 처리 방법과 관련이 깊다(Jeong, 2013). 텍스트 마이닝의 방법은 분석 대상과 관점에 따라 다 양하며 본 연구에서는 뉴스기사의 토픽을 도출하기 위한 목 적으로 텍스트 마이닝을 활용하였다.

텍스트 마이닝을 활용하기에 앞서 관련 선행 연구 분석 결 과 텍스트 마이닝을 활용한 건설분야 주요 기술 트렌드 도출 (Jeong & Kim, 2012), 항공산업 관련 미래 유망분야 선정을 위한 트렌드 분석(Kim et al., 2015), 철강산업의 트렌드 분석 에 텍스트 마이닝을 도입하기 위한 연구(Min et al., 2014) 등 으로 트렌드 분석에 대해 텍스트 마이닝을 활용하는 다양한 연구들이 이루어진 것으로 파악되었다. 본 연구에서는 뉴스 기사를 분석하여 트렌드를 도출하기 위해 텍스트 마이닝 기 법 중 TF-IDF 가중치와 LDA 토픽모델링을 활용하였다.

2.4 TF-IDF 가중치

텍스트 마이닝의 과정 중 하나라고 할 수 있는 TF-IDF는

(3)

Term Frequency-Inverse Document Frequency(단어 빈 도-역문서 빈도)의 약자로 TF-IDF 가중치는 여러 문서로 구 성된 문서 집합에서 특정 문서 내 특정 단어의 중요도를 나타 내며, 문서에서 주요 키워드 도출, 정보 검색 값의 순위 결정, 문서 간 유사도 측정 등으로 활용된다.

TF-IDF 중 TF는 특정 단어가 전체 문서에서 출현하는 빈 도를 나타내는 값이며, IDF는 전체 문서 중 특정 단어를 포함 하는 문서의 빈도를 나타내는 DF의 역수에 로그를 취한 값이 다. TF-IDF 가중치는 단어 빈도(TF)와 역문서 빈도(IDF)의 곱으로 계산한 가중치이다. TF-IDF값이 높을수록 적은 양의 문서에서 높은 단어 출현 빈도를 보인다는 것이며 중요한 단 어라는 의미이다(Manning et al., 2009).

관련 선행 연구 분석 결과, TF-IDF에 대한 고찰과 변형을 통한 뉴스기사에서의 키워드 추출(Lee and Kim, 2009), 소 설 텍스트의 주제어 추출(You et al., 2015), 주택 시장의 키 워드 도출 및 변화 특성 분석(Park and Suh, 2015) 등으로 주로 주제어, 키워드 도출을 위해 연구된 것으로 파악되었다.

본 연구에서는 LDA 토픽 모델링에 사용할 주요 단어를 선별 하기 위한 기준으로 TF-IDF 가중치를 활용하였다.

2.5 LDA 토픽 모델링

토픽 모델링은 구조화되지 않은 문서 집단에서 주제 (Topic)를 찾기 위한 알고리즘으로 전체 문서에서 일정한 패 턴을 발견하는 텍스트 마이닝의 한 형태이다(Shin, 2016). 트 렌드 분석을 위해 토픽 모델링이 필요한 이유는 군집분석이 나 단어 빈도 분석 등 보편적이고 간편한 기법으로도 토픽을 도출할 수 있으나 문서 내의 의미 있는 단어들을 조합하여 내 용을 파악할 수 있는 토픽을 도출하는 데는 한계가 있기 때문 이다.

본 연구에서 활용한 LDA 토픽 모델링은 토픽 모델링 방법 론 중 대표적인 방법이다. LDA는 Latent Dirichlet Allocation 의 약자로 잠재 디리클레 할당 이라고도 하며 문서의 내용을 구성하는 단어들이 문서의 특정 토픽을 구성하는 단어로 포함 될 확률을 계산하여 문서 내에 숨겨진 주제 즉, 토픽을 찾아내 는 알고리즘이다(Blei et al., 2003; Blei, 2012).

관련 선행 연구 분석 결과 토픽 모델링을 통한 사회 문제 이 슈 도출(Jeong et al., 2013), LDA를 활용하여 국내 논문을 대 상으로 문헌정보학 연구동향 분석(Park and Song, 2013), 트 위터를 대상으로 이슈 도출 및 트래킹 시스템 구축(Bae et al., 2014) 등 LDA 토픽 모델링은 주로 이슈와 그 키워드를 도출 하기 위해 연구된 것으로 파악되었다.

본 연구에서는 아파트 수요 트렌드를 분석하기 위한 토픽을 도출하기 위해 LDA 토픽 모델링을 활용하였으며, 그 중 토픽 모델링의 샘플 추출에 보편적으로 사용되는 깁스 샘플링 기반 의 LDA 오픈소스 패키지(Chang, 2015)를 활용하였다.

3. 데이터 소스 및 분석 과정

3.1 데이터 소스

데이터 소스(Data Source)는 분석에 사용하는 데이터의 출 처를 의미하며 본 연구의 데이터 소스는 주요 일간지들의 뉴 스기사이다. 뉴스기사는 시간에 따라 지속적으로 생산되어 축적되는 비정형 빅데이터(Park, 2017)로써 다양한 사회 이 슈를 기술하고 있기 때문에 이를 트렌드 분석의 대상으로 선 택하였다.

본 연구에서는 아파트 수요 트렌드 분석에 필요한 뉴스기 사를 수집하기 위해 국내 주요 일간지인 조선일보, 동아일보, 중앙일보 및 대표 경제신문인 매일경제, 한국경제 등 총 5개 일간지를 수집 대상으로 초기 분석을 하였다. 그러나 조선일 보는 본 연구에서 활용한 분석도구인 Python을 통해 직접 코 딩하여 실제 크롤링(Crawling, 수집)이 불가능했기 때문에 동아일보, 중앙일보, 매일경제, 한국경제 등 총 4개 일간지를 최종 대상으로 선정하였다.

3.2 아파트 수요 관련 뉴스기사 수집: 1단계 아파트 수요와 관련된 뉴스기사 수집에 필요한 검색어 선 정과 크롤링을 위한 과정으로 검색어 선정, 뉴스기사 검색, 크롤러 구성, 뉴스기사 크롤링 등 4단계의 세부 단계에 걸쳐 진행하였다. 크롤링이란 무수히 많은 컴퓨터에 분산 저장되 어 있는 문서를 수집하여 검색 대상의 색인으로 포함하는 기 술을 말한다(TTA, 2017). 분석 도구는 크롬 인터넷 브라우저, Python 3.6 및 관련 패키지 BeautifulSoup, urllib 등의 오픈 소스를 활용하였다.

(1) 검색어 선정: 아파트 수요에 관련된 뉴스기사를 수집하 기 위해 아파트 수요 관련 검색어를 선정하였다. 이를 위해 부동산 관련 뉴스기사 검색을 통해 수요가 집중되고 있다는 내용을 담은 기사에 주로 사용되는 단어로 인기, 주목 등이 있다는 것을 파악하였다. 또한 관심이 집중되는 것을 파악하 기 위해 이슈라는 키워드를 추가로 검색하였다.

이에 따라 아파트, 아파트 수요, 아파트 인기, 아파트 주목, 아파트 이슈 등 수요와 관련된 키워드로 검색 샘플링 테스트 를 진행하였으며 그 결과 아파트, 아파트 이슈, 아파트 주목 등의 검색어는 아파트 수요 및 아파트 인기와 상당수의 중복 기사가 검색되는 것을 확인하였다. 따라서 크롤링을 하기 위 한 뉴스기사 검색 시 중복 기사를 최대한 줄이기 위해 아파트 수요, 아파트 인기 등 두 가지의 검색어를 최종으로 선정하였 다.

(2) 뉴스기사 검색: 아파트 수요, 아파트 인기 등의 검색어 로 어떤 뉴스기사들이 검색되는지 확인하기 위해 사전 검색 및 확인을 진행한 결과, 대부분 경제 및 부동산 관련 카테고 리에 집중 되어있는 경향이 나타났다. 따라서 경제 및 부동산

(4)

카테고리의 뉴스기사를 수집 범위로 하였다.

(3) 크롤러 구성: 뉴스기사를 크롤링 할 크롤러를 구성하기 위해 각각 구성이 다른 뉴스기사 웹페이지 주소와 html 태 그를 분석하였다. 그 후 각 일간지 별로 html 태그 중 뉴스기 사 원문이 담긴 태그만을 선택 및 분류하는데 보편적으로 사 용되는 BeautifulSoup를 활용하였으며, 각 페이지별 주소와 html 태그를 분석하고 그에 따라 각 일간지 웹페이지에 적합 한 코드를 작성하여 뉴스기사 수집을 위한 크롤러를 구성하 였다.

(4) 뉴스기사 크롤링: 실제로 뉴스기사 원문을 수집하기 위 해 구성 및 작성된 크롤러를 실행하였다. 이를 위해 동아일 보, 중앙일보, 매일경제, 한국경제를 데이터 소스로 활용하 였으며, 아파트 수요, 아파트 인기 등의 키워드로 검색하고 2012년부터 2016년 총 5개년의 뉴스기사를 월별 및 년도별로 크롤링하여 종합하였다. 그 결과 5년간 검색되는 총 44,462 개의 뉴스기사 중 39,072개의 뉴스기사가 크롤링 되었으며 년도별 세부 크롤링 내역은 다음과 같다.

• 2012년 검색된 6,152개 기사 중 5,790개

• 2013년 검색된 7,856개 기사 중 6,674개

• 2014년 검색된 9,430개 기사 중 7,390개

• 2015년 검색된 11,697개 기사 중 10,610개

• 2016년 검색된 9,327개 기사 중 8,608개

상기 크롤링 결과인 뉴스기사는 이후 2단계~4단계에 걸쳐 분석되는 아파트 수요 트렌드 분석에 활용되었다.

3.3 수집 뉴스기사 전처리: 2단계

수집 뉴스기사 전(前)처리는 뉴스기사 중 분석의 목적과는 부합하지 않거나 불필요한 내용을 걸러내는 과정으로 분석에 불필요한 문자 및 단어를 제거하고 분석에 용이한 형태로 데 이터를 정제하는 과정을 통칭한다. 본 단계는 아파트 수요 관 련 키워드를 추출하기 위해 필요한 과정이며 불용어 처리, 형 태소 분석, 체언(명사, 수사) 및 어근 추출 등 3단계의 세부 단계에 걸쳐 진행되었다. 분석 도구는 Python 3.6 및 관련 패 키지 re, KoNLPy (Park & Cho, 2014), 꼬꼬마 한국어 형태 소 분석기(Lee et al., 2010), R 3.3 및 관련 패키지 KoNLP (Jeoun, 2016), tm, stringr 등의 오픈소스를 활용하였다.

(1) 불용어 처리: 불용어 처리는 뉴스기사 분석에 앞서 분석 에 쓰이지 않을 문자 및 단어를 제거해 주는 단계로 본 연구 의 불용어 처리에서는 분석에 불필요한 영어, 숫자, 특수문자 등의 문자 및 단어를 제거해주는 단계이다.

크롤링된 뉴스기사 데이터에는 html 태그, 특수문자, 영 어, 숫자 등 다양한 문자들이 포함된 기사 원문이 담겨있다.

영어와 숫자의 경우 기사의 핵심 내용을 표현하는 단어로 보 기 어렵다고 판단하였다. 또한 영어의 경우 한글 단어를 함께 사용하기 때문에 본 연구에서는 분석의 용이함을 위해 영어,

숫자, 특수문자로 구성된 html 태그와 각종 영어 약어, 기자 의 이메일 주소 등을 나타내는 영어와 각종 면적, 가격, 년도, 일자 등을 나타내는 숫자를 불용어로 정의하여 제거하고 한 글만을 남겨 형태소 분석에 사용하였다.

(2) 형태소 분석: 토픽 모델링 분석에 필요한 단어를 추출 하기 위한 전(前)단계이며 불용어 처리된 뉴스기사 원문의 단 어를 품사별로 분류하려는 목적으로 한글 형태소 분석을 진 행하였다. 앞선 과정에서 불용어 처리된 뉴스기사 원문은 아 파트 수요와 관련된 키워드를 도출하기에 적합한 단어의 형 태로 정제되어 있지 않다. 또한 한글 단어는 사용하기에 따라 단어의 기본형으로 사용되기도 하고 같은 의미를 지닌 단어 라도 다양한 어미가 붙어서 표현되기도 한다.

예를 들면 “상승”은 그 자체로는 명사이지만 “하다”라는 동 사형 접미가 붙을 경우 “상승하다”라는 동사가 된다. 또한

“아파트가”, “아파트의”, “아파트는” 과 같이 “가”, “의”, “는”

등의 조사가 붙어 구성되기도 한다. 따라서 토픽 모델링을 위 한 키워드를 도출하기 전에 적합한 명사를 추출해주어야 하 며 이를 위해 한글 형태소 분석 과정을 거쳐 불필요한 품사의 단어는 제거해 주었다.

(3) 체언(명사, 수사) 및 어근 추출: 아파트 수요에 관련된 키워드의 범위를 확정하기 위해 토픽 모델링에 사용할 키워 드를 체언과 어근 두 가지로 제한하기로 하였다. 이를 위해 꼬꼬마 한글 형태소 분석기의 품사 태그 표를 참고하여 체언 과 어근에 해당하는 품사를 확인하고 해당 품사의 단어를 추 출하였다.

이 단계에서 전처리 되어 추출된 체언 및 어근과 같은 단어 들은 다음 단계의 아파트 수요 관련 키워드를 도출하기 위한 데이터로 활용되었다.

3.4 아파트 수요 관련 키워드 도출: 3단계 아파트 수요 관련 키워드 도출은 LDA 토픽 모델링을 진행 하기에 앞서 단어를 선별하기 위한 과정이며 이 단계에서는 단어 및 문서 빈도 분석, TF-IDF 가중치 도출, 최종 키워드 선정 등 3단계의 세부 단계에 걸쳐 분석에 불필요한 단어를 제거하였다. 분석 도구는 R 3.3 및 관련 패키지 KoNLP, tm, stringr 등 오픈소스를 활용하였다.

(1) 단어 및 문서 빈도 분석: 단어 및 문서 빈도 분석은 수집 된 각 뉴스기사 별로 내용을 구성하는 단어가 몇 개의 기사에 출현하였는지 그 빈도(횟수)를 측정하고, 출현빈도가 낮은 단 어는 제거해 주기 위해 실행하는 단계이며 여기서 말하는 문 서는 각 기사를 의미한다. 본 연구에서는 각 년도별 총 기사 개수의 하위 3%에 해당하는 기사에 출현하는 단어는 토픽을 나타내는 비중이 낮다고 판단하여 제거하였다.

예를 들어, 2012년의 총 기사 수 5,790개 중 3%는 173.7개 이다. 이에 따라 한 단어가 쓰인 기사의 수가 174개 이하인

(5)

경우는 토픽과는 관련이 적은 단어라고 판단하여 제거해 주 었다. 본 연구에서는 단어 및 문서 빈도 분석을 통해 출현 빈 도가 낮은 단어를 제거해주었으며 남은 단어들은 이어서 진 행된 TF-IDF 가중치 도출에 활용되었다.

(2) TF-IDF 가중치 도출: 단어에 가중치를 부여하고 중요 도를 파악하여 중요도가 낮은 단어를 제거해주기 위한 방법 으로 TF-IDF 가중치 기법과 R의 tm 패키지를 활용하여 분 석을 진행하였다. 또한 단어별로 도출된 가중치의 합을 단어 가 출현한 문서의 빈도수로 나누어준 평균값을 본 연구의 단 어별 TF-IDF 가중치로 사용하였다.

단어 및 문서 빈도 분석을 거치지 않고 전체 단어의 가중 치를 도출한다면 단어 빈도만 낮고 분석 상 의미 없는 다수의 단어가 중요성이 높은 단어로 도출된다. 이러한 오류를 줄이 기 위해 단어 및 문서 빈도 분석을 통해 토픽 관련도가 낮은 단어를 제거한 뒤, 남은 단어들 간의 중요도를 측정하고 중요 도가 낮은 단어들을 제거하는 기준을 정하기 위해 TF-IDF 기법을 활용하였다. TF-IDF 가중치가 도출된 단어들은 가중 치 별 내림차순으로 정리하여 최종 키워드 선정에 활용되었 다.

(3) 최종 키워드 선정: 토픽 모델링에 사용할 단어를 선정 하기 위해 TF-IDF 가중치를 도출하여 단어별 가중치별로 순위를 나열하고 년도별로 최종 키워드를 선정하였다. 상기

‘(1)’, ‘(2)’단계에 걸쳐 2012년은 20,964 단어 중 1,024 단어, 2013년은 22,466단어 중 1,032단어, 2014년은 22,588단어 중 1,067단어, 2015년은 22,980단어 중 1,087단어, 2016년은 22,945단어 중 1,047단어가 도출되었다.

토픽 모델링에 사용할 단어가 너무 적을 경우 단편적인 토 픽이 도출되고 너무 많을 경우 연관성이 떨어지는 토픽이 다 수 도출되었기 때문에, 각 년도별 기사 수가 다르지만 분석 과정의 일관성을 위해 단어의 수를 1,000개로 제한하고 년도 별로 토픽 모델링에 사용할 최종 단어 리스트를 선정하였다.

년도별로 선정된 1,000개의 단어 중 2016년 대하여 빈도별 상위로 나타나는 단어의 예시와 TF-IDF 가중치의 상위로 나 타는 단어의 예시는 Table 1에 제시된 바와 같다.

Table 1. Term frequency and TF-IDF keyword examples (2016)

Keyword Frequency Keyword Weight

household 58538 last week 0.103148

district 24996 Cheonan 0.093595

construction 24974 Songdo 0.085494

new town 19620 stay 0.082244

development 19502 Dasna 0.077758

application 19164 Jeonju 0.076928

Gangnam 18644 US army 0.075594

city 18442 Jeju 0.07353

shopping area 18188 lease ratio 0.072131

price 18016 Ulsan 0.070159

investment 16514 lease deposit 0.069914

이 단계에서 최종으로 선정된 년도별 1,000개의 단어는 다 음 단계에서 문서의 주제를 나타내는 토픽 도출에 활용되었 다.

3.5 아파트 수요 관련 토픽 도출 및 테마 분류:

4단계

앞서 도출된 년도별 1,000개의 키워드를 바탕으로 토픽을 도출하고 유사 토픽들을 테마로 분류하였다. 토픽은 뉴스기 사의 중심내용 즉 주제를 의미하며, 테마는 관련 토픽들의 집 합을 의미한다. 유사 토픽들을 테마별로 분류한 이유는 상호 밀접한 토픽을 하나의 연관성 있는 주제로 묶어 분석하기 위 함이었다. 분석 도구는 R 3.3 및 관련 패키지인 LDA(Chang, 2015), LDAvis(Shirley and Sievert, 2016) 등의 오픈소스를 활용하였다.

(1) LDA 토픽 모델링 테스트: LDA 토픽 모델링 테스트는 LDA 토픽 모델링에 입력하기 위한 파라미터(Parameter) 값 을 찾기 위한 과정이다. 이때 파라미터란 토픽 모델링의 설 정 변수들을 의미하며, 입력한 임의 값에 따라 도출되는 토 픽에 차이가 발생하기 때문에 사전 테스트를 통하여 파라미 터 값을 결정하였다. 입력해야 하는 파라미터에는 추출하고 자 하는 토픽의 개수 K, 토픽 모델링 샘플링 횟수 Iteration, 토픽 모델링 샘플링에 대한 검사 횟수 Burnin, 문서 내에 토 픽이 존재할 확률 분포 Alpha, 토픽 내에 단어들이 존재할 확 률 분포 Beta 등이 있다(Chang, 2015). 반복 테스트를 통해 K=20, Iteration=1,000회, Burnin=800, Alpha=기사 수에 따라 0.16∼0.02, Beta=0.02 등의 파라미터 값이 도출되었 으며, 이 값들은 수집한 뉴스기사의 토픽을 도출할 목적으로 LDA 토픽 모델링에서 사용되었다.

(2) LDA 토픽 모델링: LDA 토픽 모델링은 실제 토픽을 도 출하기 위한 단계로 상기 테스트에 따라 도출된 파라미터 값 을 입력하여 분석을 실시하였으며 시간의 개념을 내포하고 있는 트렌드를 도출하기 위해 2012년~2016년까지 각 년도별 로 토픽 모델링을 적용하여 해당 년도의 토픽 상위 20개와 토 픽이 월별로 전체 토픽에서 차지하는 비율을 도출하였다.

년도별로 도출된 토픽 중 2016년에 해당하는 상위 토픽 20 개와 각 토픽을 구성하는 단어 상위 10개, 2016년의 전체 뉴 스기사 내용에 대해 각 토픽이 월별로 차지하는 비율을 나타 낸 예시는 Table 2에 제시된 바와 같다. Table 2에 제시된 내 용 중 1~10의 숫자는 각 토픽을 구성하는 주요 단어를 의미 하며 그 아래 있는 백분율 숫자들은 해당 연도의 분기별로 각 토픽이 차지한 비율의 누적 백분율을 의미한다.

이 과정에서 도출된 토픽 단어의 순위와 토픽의 비율은 토 픽간의 연관성을 파악하기 위한 토픽 시각화에 사용되었다.

(3) 토픽 시각화: 토픽을 테마별로 분류하기 전 도출된 토 픽간의 연관성을 파악하기 위해 LDA 값을 시각화 해주는

(6)

Fig. 2. Distance between each topic (2016)

LDAvis 패키지를 활용하여 시각화 하였다.

LDAvis를 통해 도출된 결과물은 다차원 척도법이 적용 되어 사분면으로 구성된 공간상에 원형으로 표현된다. PC (Principal component)1은 X축 PC2는 Y축을 의미한다. 또 한 원의 크기는 해당 토픽이 차지하는 비율 즉 토픽의 강도를

나타내고, 원 사이의 거리는 비슷한 단어를 포함하는 토픽들 간의 연관성을 나타낸다. 년도별 토픽 간의 거리 시각화 중 2016년 토픽에 대한 거리를 나타낸 예시는 Fig. 2에 제시된 바와 같다.

각 토픽이 분포되어 있는 사분면을 살펴보면 제 1사분면은 역세권, 상가, 인프라, 지역 등 아파트의 입지에 대한 토픽이 주를 이루고 가장 많은 토픽이 분포되어 있는 것을 볼 수 있 다. 이를 통해 2016년 아파트 수요와 관련하여 가장 두드러지 는 토픽은 아파트의 입지와 관련된 것들이라 해석된다.

다음으로 제 2사분면은 전세, 매매 등 거래와 관련된 토픽 과 재개발과 같은 토픽이 분포되어 있으며 제 3사분면의 토 픽은 청약, 분양, 정책 등으로 상대적으로 제 2사분면의 토픽 과 거리가 가까운 모습을 보이고 있다. 이는 아파트 수요와 관련하여 거래, 개발, 정책 등의 토픽이 서로 관련성이 있다 는 것을 의미한다.

마지막으로 제 4사분면은 다른 토픽들과 상대적으로 거리 가 멀고 3위와 8위를 차지한 공간, 설계, 시스템 등의 토픽이 확인되는데 이는 다른 토픽과 달리 아파트 주거환경 관련된 토픽이 떠오르고 있다는 것을 의미한다.

Table 2. Topic with topic words and proportion examples (2016)

Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 Topic 7 Topic 8 Topic 9 Topic 10

1 site household system lease loan hotel be opened space household shopping area

2 park construction space price interest rate service district household subway line commerce

3 environment district design sale regulation firm Gangnam design town business

district 4 education block community rise government business highway terrace district store 5 household new town household last year countermeasure domestic Panhyo house subway street 6 convenience supply resident average middle

payment construction Yongin apply park population 7 mart economy park whole country guarantee representative development bay general rear

8 outstanding city apply capital area bank brand Gyeonggi-do plan lotte floating

9 infra housing site environment this year finance costumer Bundang kitchen park Gwangmyeong 10 neighboring construction

firm center rise reinforcement enterprise favorable

factor living room station area investment

2016/1 26.0% 21.3% 17.4% 27.0% 17.0% 16.1% 14.4% 13.9% 15.0% 14.9%

2016/2 29.9% 23.0% 18.9% 24.3% 12.6% 13.9% 15.2% 15.4% 18.3% 15.0%

2016/3 26.8% 21.0% 17.8% 23.3% 17.3% 15.1% 15.2% 16.0% 15.1% 17.2%

2016/4 26.9% 22.1% 20.0% 22.8% 18.3% 15.9% 15.1% 17.8% 13.4% 10.2%

Topic 11 Topic 12 Topic 13 Topic 14 Topic 15 Topic 16 Topic 17 Topic 18 Topic 19 Topic 20

1 application single lease construction city new town business officetel transaction industry 2 competitive

rate people deposit Gangnam city Misa lease investment price Cheonan

3 rank investment building general Incheon Han river city lental sale development

4 average price site Banpo international district development profit purchase right US army

5 household need building business park Ganbyeon real estate small licensed city

6 contract degree profit Jugong Songdp Dasan stay profit rate lease district

7 Busan think total floor area household complex Wirye public investor for sale Pyeongtaek

8 Sejong cost shopping area price development city union product premium Samsung

9 deadline reason Gangnam investment lotte subway line construction one-room rise population 10 application time new building district larg park district station area brokerage Goduk

2016/1 14.8% 10.8% 11.0% 11.7% 13.0% 10.7% 12.2% 9.3% 13.4% 10.2%

2016/2 14.8% 11.8% 8.0% 11.1% 12.7% 13.3% 11.6% 11.5% 8.7% 10.1%

2016/3 17.5% 12.4% 8.3% 13.0% 9.8% 9.8% 11.6% 11.4% 10.1% 11.1%

2016/4 19.6% 14.4% 9.6% 12.3% 11.1% 8.9% 13.1% 9.6% 10.7% 8.3%

(7)

토픽 시각화를 통해 확인된 토픽의 연관성은 토픽을 같은 테마별로 분류해주기 위한 기준으로 활용되었다.

(4) 토픽 분류: 시간의 흐름에 따라 관련이 있는 토픽끼 리 분류하여 트렌드를 분석하기 위해 상기 단계에서 도출된 다차원 척도 사분면상의 연관성을 참고하였다. 이어서 “(2) LDA 토픽 모델링”단계에서 도출된 토픽을 특징별 테마에 따 라 분류하고 해당하는 주요 토픽 키워드를 도출하였다.

먼저 아파트 수요와 관련하여 최근의 주택 및 부동산의 트렌드 분석과 전망에 대한 분석 자료(Kang & Suh, 2016;

KBA, 2016; Kim & Kim, 2016; Suh, 2017)에서 제목, 소제 목에 주로 사용되는 단어를 종합하여 개발, 거래, 분양, 입지, 정책, 주거환경, 투자ㆍ수익 등 7개의 테마를 도출하였다.

이들 7개 테마는 유사 토픽들을 분류하는데 활용되었으며 각 년도별로 세부 토픽에는 약간의 차이가 있지만 2016년도 를 예시로 제시하면 다음과 같다.

● 개발(Development) (테마 1): Topic 14 ; 건축, 사업, 주 공, 투자, 지구, 재개발, 물량, 강남, 반포, 서초구, 고덕, 서초

● 거래(Transaction) (테마 2): Topic 4, Topic 19 ; 거래, 가격, 매매, 분양권, 전세, 매물, 웃돈, 상승, 시세, 증가, 물 량, 거래량, 상승률, 대비, 월세, 하락, 기준, 신도시, 경기, 위 례, 전국, 수도권, 지방

● 분양(Sale in lots) (테마 3): Topic 11 ; 청약, 경쟁률, 순 위, 가구, 계약, 부산, 세종

● 입지(Location requirements) (테마 4): Topic 7, Topic 9, Topic 10, Topic 15, Topic 16 ; 지하철, 공원, 역세권, 도심, 병원, 고속도로, 신분당선, 접근, 주상복합, 쇼핑몰, 공항, 문 화, 한강, 조망, 상권, 인구, 유동, 위치, 강남, 판교, 용인, 경 기도, 분당, 수도권, 수원, 신도시, 광명, 강변, 일산, 잠실, 남 양주, 위례, 인천, 송도

● 정책(Policy) (테마 5): Topic 5, Topic 17 ; 대출, 금리, 규제, 정부, 대책, 보증, 은행, 금융, 강화, 가계, 담보, 부채, 집단, 제한, 심사, 사업, 임대, 도시, 개발, 토지, 공공, 지구, 가구, 행복, 국토, 혁신, 관리, 민간, 추진

● 주거환경(Residential environment) (테마 6): Topic 1, Topic 3, Topic 8 ; 위치, 공원, 환경, 교육, 편리, 마트, 우수, 인프라, 인접, 쾌적, 중소형, 학교, 거리, 도보, 학군, 시스템, 공간, 설계, 커뮤니티, 입주민, 센터, 실내, 에너지, 안전, 주 차장, 주차, 테라스, 베이, 평면, 주방, 거실, 구조, 타입, 판 상, 배치, 활용, 수납, 발코니

● 투자·수익(InvestmentㆍReturn) (테마 7): Topic 13, Topic 18 ; 오피스텔, 투자, 임대, 수익, 소형, 수익률, 투자 자, 상품, 원룸, 역세권, 월세, 전세, 위치, 금리, 임대료, 보증 금, 건물, 대지, 빌딩, 연면적, 상가, 신축, 코너, 융자, 대로 변, 가구, 강남

상기 과정에서 도출된 토픽의 비율과 분류된 테마 및 토픽 키워드는 다음 단계에서 트렌드 분석 및 특징 도출에 활용되 었다.

4. 아파트 수요 트렌드 분석: 5단계

2012년부터 2016년까지 5년간을 년도별로 4분기로 구분하 여 아파트 수요 트렌드를 분석하고 그에 따른 주요 특징을 도 출하였다. 먼저 종합적 관점에서 분석하였으며 3.5절에서 도 출한 7개의 테마별로 해당하는 토픽들의 비율을 종합한 트렌 드 그래프 중심의 분석과 테마별 주요 토픽 키워드에 따른 분 석을 진행하였다.

토픽 키워드에 따른 분석 시 매년 등장하는 키워드는 주된 관심사를 의미한다. 트렌드 분석을 위해 작성한 그래프에서 세로축은 사회적 관심의 정도를 파악하기 위해 테마를 구성 하는 토픽의 비율에 대한 분기별 누적 백분율로 표현하였으 며, 가로축은 분기별 시점을 나타낸다.

4.1 아파트 수요 종합 트렌드

2012년부터 2016년까지 분기별로 5년간의 아파트 수요 관 련 트렌드를 종합한 것은 Fig. 3에 제시된 바와 같다. 종합적 인 관점에서 아파트 수요 관련 트렌드의 주요 특징은 세 가지

Fig. 3. Trend of Apartment demand

(8)

로 나타났다. 첫째, 아파트 수요 트렌드를 가늠하는 데 있어 서 입지, 정책, 주거환경 등 세 가지 조건에 대한 관심이 상 향 추세를 보이고 있으며 개발, 거래, 분양, 투자·수익 등 네 가지 조건에 대한 관심은 하향 추세를 보이고 있다(트렌 트 1). 각 테마에 따른 등락을 살펴보면 분기별 비율의 누적치 가 10%에서 최대 80%까지 나타나고 있다. 또한 개발, 거래, 분양, 투자·수익 등 네 가지 테마의 수치는 갈수록 줄어들어 하향추세를 보이고 있으나 아파트 수요와 관련하여 입지, 정 책, 주거환경 등은 상향 추세를 보이며 중요성이 지속적으로 증가 중인 것으로 나타났다.

둘째, 아파트 수요 중 입지에 대한 관심이 지속적으로 가장 높은 수치를 유지하는 경향을 보이고 있다(트렌드 2). 3.5절 에서 도출한 7가지의 테마 중 입지(Location requirement)를 살펴보면 꾸준히 높은 수치를 나타내고 있으며 이는 입지에 대한 사회적 관심이 높다는 것을 의미한다.

또한 테마의 토픽 간 연관성을 살펴봤을 때 입지와 투자·

수익에 함께 사용되는 단어가 다수 발견되었으나 상대적으로 투자·수익의 비중은 낮게 나타났으며, 두 테마가 연관성이 있을지라도 관심의 정도가 비례하지 않는 것으로 나타났다.

셋째, 아파트를 구성하는 조건 중 주거환경에 대한 관심 이 지속적으로 높아지고 있으며 앞으로 수요를 충족시키는 데 중요한 요소로서 그 관심이 대폭 상승하고 있다(트렌드 3). 7개의 테마 중 가장 뚜렷한 변화를 보이는 것은 주거환경 (Residential environment)이다. 주거환경 수치는 지속적으 로 큰 상승을 보이고 있으며 향후 아파트 수요를 충족시키는 데 있어서 매우 중요한 요소임을 의미한다.

상기 종합 분석에서 나타난 바와 같이 아파트 수요 트렌드 는 테마별로 상이하며 변동성을 보이고 있기 때문에 향후 이 를 지속적으로 주시하고 대응할 필요가 있다. 상기 분석은 종 합적인 관점에서 아파트 수요 트렌드를 분석한 것이며 7개 테마별 트렌드의 분석 결과는 다음과 같다.

4.2 개발 트렌드: 테마 1

테마 1은 개발 트렌드를 관한 것이며 주로 재개발, 리모델 링, 정비 등의 토픽에 대한 변화를 의미하고 그 트렌드는 Fig.

4에 제시된 바와 같다.

4.2 개발 트렌드: 테마 1

테마 1은 개발 트렌드를 관한 것이며 주로 재개발, 리모델 링, 정비 등의 토픽에 대한 변화를 의미하고 그 트렌드는 Fig.

4에 제시된 바와 같다.

Fig. 4. Development Trend

Fig. 4에 따르면 아파트 수요와 관련하여 개발에 대한 관 심은 분기 별로 등락이 있으나 전체적으로 완만한 하향 추세 를 보이고 있으며 관심의 정도가 낮은 경향을 보이고 있다(트 렌드 4). 추세를 살펴보면 분기별로 다양한 변동 폭을 보이고 있으나 분기별 누적치가 10%~30% 사이를 오가며 전체적으 로 완만한 하향 추세를 그리고 있다. 이에 따라 관련 토픽이 부각되는 시기를 제외하고는 거시적으로 보았을 때 개발에 대한 관심이 높지 않으며 줄어들고 있다는 것을 의미한다.

개발 테마의 주요 토픽 키워드를 중심으로 트렌드를 분석 한 결과, 재개발에 대한 관심도가 지속적으로 높은 것으로 나 타났으며 서울 강남권 지역이 가장 많이 언급되는 경향을 보 이고 있다(트렌드 5). 3.5절에서 도출한 5년간의 개발에 대한 토픽 키워드를 살펴보면 2013년을 제외한 4개년에 “재개발”

이 주요 키워드로 자리 잡고 있다. 이는 4년간 재개발에 지속 적인 관심이 있었다는 것으로 해석된다. 또한 “강남”은 매년 등장하고 있고 2013년부터 “서초”, “주공”이 매년 등장하고 있으며, 2014년부터 “반포”가 등장하고 있다. 이는 70~80년 대 강남 개발 붐 당시 지어져 현재는 노후 된 시설과 주거환 경을 정비하고 주택을 신축하는 것에 관심이 몰려 있다는 것 이며 그 중에서도 특히 강남권 주공아파트의 재건축에 대한 관심이 많다는 것을 의미한다.

4.3 거래 트렌드: 테마 2

테마 2는 거래 트렌드에 관한 것이며 주로 매매, 전세, 월 세 등의 토픽에 대한 변화를 의미하고 그 트렌드는 Fig. 5에 제시된 바와 같다.

Fig. 5. Transaction Trend

Fig. 5에 따르면 거래에 대한 관심은 2013년부터 지속적으 로 감소하여 완만한 하향 추세를 보이고 있다(트렌드 6). 한국 감정원에서 집계한 연간 주택 매매거래량 추이(KBA, 2016)는 2012년부터 증가하는 것으로 나타났으나 거래에 대한 관심 의 추세를 살펴보면 2013년부터 지속적인 하향 추세를 그리 고 있다. 이를 거래 테마의 토픽 키워드와 비교해 보면 2013 년부터 “월세”가 지속적으로 등장하고 있는데, 이는 매매량은 증가하였지만 상대적으로 월세에 대한 관심의 높아지고 매매, 전세 등과 같은 거래에 대한 관심이 이전과 달리 줄어 이와 같 은 하향 추세를 보이고 있다는 것으로 해석된다.

(9)

거래 테마의 주요 토픽 키워드를 중심으로 트렌드를 분석 한 결과, 수도권에 대한 거래가 집중되는 경향과 함께 월세에 대하여 지속적인 관심이 나타나고 있다(트렌드 7). 3.5절에서 도출한 5년간의 거래에 대한 토픽 키워드를 살펴보면 “매매”,

“전세”는 매년 높은 순위를 보이는 동시에 빠지지 않고 등장 하였고 2013년을 제외한 4개년에서 “수도권”이 계속 등장하 고 있으며 2012~2014년까지는 “강남”이 계속 등장하였다.

또한 2012년에는 등장하지 않았던 “월세”가 2013년부터 지속 적으로 등장하며 키워드 순위의 등락을 반복하고 있다. 이는 매매, 전세 등의 거래가 수도권에 집중되는 경향을 보이고 있 다는 것이며 월세에 대한 관심이 지속되고 있다는 것을 의미 한다.

4.4 분양 트렌드: 테마 3

테마 3은 분양 트렌드에 관한 것이며 청약, 계약, 분양, 공 급 등의 토픽에 대한 변화를 의미하고 그 트렌드는 Fig. 6에 제시된 바와 같다.

Fig. 6. Sale in lots Trend

Fig. 6에 따르면 분양에 대한 관심은 분기 별로 등락이 있 으나 가파른 하향 추세를 보이며 큰 폭으로 하락하는 것으로 나타났다(트렌드 8). 2014년 이후 아파트 분양물량의 증가와 더불어 신규 수요와 멸실 및 노후주택 교체에 따른 잠재수요 등 주택수요가 꾸준할 것(KBA, 2016)이라는 한국감정원의 전망과 달리 분양에 대한 관심의 추세는 시기별로 등락이 있 으나 지속적으로 가파른 하향 추세를 보이며 60%에서 20%

까지 큰 폭으로 하락했다. 이를 통해 신규 물량에 대한 관심 보다는 기존 아파트의 거래, 미분양 아파트 소화 등이 더 주 된 관심사일 것이라고 해석된다.

분양 테마의 주요 토픽 키워드를 중심으로 트렌드를 분석 한 결과, 분양에 대한 주요 관심사는 수도권에 대한 공급 물 량과 미분양인 것으로 나타나고 있다(트렌드 9). 3.5절에서 도출한 5년간의 분양에 대한 토픽 키워드를 살펴보면 2012년

~2015년까지 4년간 “물량”, “미분양”, “수도권” 등의 키워드 가 지속적으로 등장하였다. 이는 수도관에 관심이 크다는 것 을 의미한다. 또한 4년간 지속되어 온 분양에 대한 관심은 주 로 공급 물량이며 그 중 공급된 물량이 원활하게 소화되지 못 하여 미분양 주택에 대한 관심도 지속적인 것이라 해석된다.

4.5 입지 트렌드: 테마 4

테마 4는 입지 트렌드에 관한 것이며 주로 교통, 편의, 주 변 환경, 주변 시설 등의 토픽에 대한 변화를 의미하고 그 트 렌드는 Fig. 7에 제시된 바와 같다.

Fig. 7. Location requirement Trend

Fig. 7에 따르면 입지는 7개의 테마 분류 중 가장 높은 관 심도를 유지하는 경향과 함께 완만한 상향 추세를 보이고 있 다(트렌드 10). 입지는 7개의 테마 중 가장 높은 수치를 보여 주고 있으며 년도별 등락은 보이지만 완만한 상승세를 보이 고 있는 것으로 나타났다. 이를 통해 입지는 가장 큰 관심사 이며 앞으로도 지속된 관심을 받을 것이라고 해석된다.

입지 테마의 주요 토픽 키워드를 중심으로 트렌드를 분석 한 결과, 역세권의 수요가 가장 높으며 자연환경에 대한 관심 도 지속되는 것으로 나타났다(트렌드 11). 3.5절에서 도출한 5년간의 입지에 대한 토픽 키워드를 살펴보면 “지하철”,“역세 권” 등이 5년간 지속적으로 높은 순위의 키워드로 등장하고 있으며 “공원”역시 매년 빠지지 않고 높은 순위로 나타나고 있다. 또한 2013년부터는 “한강”, “호수” 등 자연환경에 대한 키워드가 등장하고 있다. 이는 교통이 편리한 역세권의 수요 와 관심이 가장 높으며, 공원, 한강, 호수와 같은 주변 자연환 경 역시 관심이 지속되고 있다는 것을 의미한다.

4.6 정책 트렌드: 테마 5

테마 5는 정책 트렌드에 관한 것이며 주택부동산정책의 관 심과 토픽의 변화를 의미하고 그 트렌드는 Fig. 8에 제시된 바와 같다.

Fig. 8. Policy Trend

Fig. 8에 따르면 부동산 대출 규제 및 완화 등 정책에 대한 관심은 지속적으로 증가하여 가파른 상향 추세를 보이고 있

(10)

다(트렌드 12). 정책에 대한 관심의 추세는 지속해서 상승하 고 있는 것으로 나타났으며 특히 2015년에서 2016년 사이에 급격한 증가가 있었음을 확인할 수 있다. 이는 부동산 대출 규제 강화로 인하여 내 집 마련을 위한 가계 부담의 증가 우 려로 관심이 급증했을 것이라 해석된다. 또한 2017년 5월 새 정부가 출범함에 따라 새로운 정책에 대한 관심이 높아질 것 으로 예상된다.

정책 테마의 주요 토픽 키워드를 중심으로 트렌드를 분석 한 결과, 부동산 대출 규제에 대해 높은 관심이 나타나고 있 으며 최근 대출 규제 강화에 따라 무주택자의 내 집 마련에 난항이 있을 것으로 보이고 있다(트렌드 13).

3.5절에서 도출한 5년간의 정책에 대한 토픽 키워드를 살 펴보면 2013년을 제외하고 “규제”가 계속 등장하고 있으며 2014년부터 “대출”, “금리”, “은행”, “금융” 등 대출과 관련된 키워드가 3년간 등장하였다. 특히 2014년은 “대출”, “규제”,

“완화” 라고 조합할 수 있는 단어가 눈에 띄며, 2016년은 “대 출”, “규제”, “강화” 라고 조합 할 수 있는 단어가 눈에 띄고 있다. 이는 정책에 대하여 주로 규제 정책과 완화 정책에 가 장 큰 관심이 있다는 것을 의미하며, 부동산 활성화를 위해 대출 규제가 완화되었다가 그 이후 대출 규제가 강화된 트렌 드를 보여주는 것이다.

4.7 주거환경 트렌드: 테마 6

테마 6은 주거환경 트렌드에 관한 것이며 아파트 내부 환 경과 외부 환경에 대한 관심의 변화를 의미하고 그 트렌드는 Fig. 9에 제시된 바와 같다.

Fig. 9. Residential environment Trend

Fig. 9에 따르면 아파트 수요와 관련하여 주거환경에 대한 관심은 최근 5년간 큰 폭으로 상승하며 가파른 상향 추세를 보이고 있다(트렌드 14).

주거환경에 대한 관심의 추세는 지속적으로 증가하여 5년 간 큰 폭으로 수치가 상승하였으며 가파른 상승세를 보여주 고 있다. 이는 그만큼 주거환경에 대한 관심이 증가하고 있으 며 아파트 수요에 있어서 중요한 조건으로 자리잡아가고 있 다는 것을 의미한다.

주거환경 테마의 주요 토픽 키워드를 중심으로 트렌드를 분석한 결과, 아파트 주거환경 중 내·외부 공간 구성 요소에

대한 관심의 증가와 더불어 주거 공간에 대한 수요와 가치가 다양해지고 있는 것으로 나타났다(트렌드 15). 주거환경에 대 한 토픽 키워드의 변화를 보면 2012년부터 등장하는 키워드 의 종류가 많아지고 있음을 확인할 수 있다. 또한 “거실”, “주 방”, “테라스”, “발코니”, “녹지”, “공원” 등 내·외부 공간 구 성 요소에 대한 단어 종류가 추세선과 비례하여 증가하는 것 을 확인할 수 있었다. 이는 그만큼 아파트 내·외부 공간에 대한 요구와 수요가 다양하게 증가하고 있으며 고객의 가치 관 또한 변하고 있다는 것을 의미한다.

4.8 투자ㆍ수익 트렌드: 테마 7

테마 7은 투자ㆍ수익 트렌드에 관한 것이며 투자 상품과 입지에 대한 관심의 변화를 의미하고 그 트렌드는 Fig. 10에 제시된 바와 같다.

Fig. 10. Investment·Return Trend

Fig. 10에 따르면 투자에 대한 요구 조건은 다양해지고 있 으나 그에 비해 투자·수익에 대한 관심은 가파른 하향 추세 를 보이고 있다(트렌드 16). 년도별로 토픽 키워드는 종류는 다향해진 반면 가파른 하향 추세를 그리고 있다. 그만큼 투 자에 대한 요구 조건은 다양해 졌지만 그에 비해 관심은 많이 줄어들었다고 볼 수 있다.

투자·수익 테마의 주요 토픽 키워드를 중심으로 트렌드 를 분석한 결과, 소형 주택의 임대가 투자·수익에 대한 관심 사 중 높게 나타나는 경향을 보이고 있다(트렌드 17). 3.5절에 서 도출한 5년간의 투자·수익에 대한 토픽 키워드를 살펴보 면 “임대”, “소형”, “수익”, “투자”는 5년간 빠지지 않고 높은 순위의 키워드로 등장하고 있으며, 2013년부터 “오피스텔”,

“원룸”, “역세권” 등이 지속적으로 등장하고 있다. 이는 역세 권에 위치한 오피스텔, 원룸 등의 소형 주택이 임대 수익을 얻기 위한 투자 수단으로 지속적인 관심을 보이고 있다는 것 을 의미한다.

5. 결론

본 연구에서는 국내 주요 일간지의 뉴스기사를 빅데이터 소스로 설정하고 TF-IDF 가중치, LDA 토픽 모델링 등 텍스 트 마이닝을 활용하여 최근 5년간 아파트 수요 트렌드를 분

(11)

석하였다. 그 결과, 아파트 수요와 관련된 17개 주요 트렌드 가 도출되었으며 각 테마별 주요 특징은 다음과 같다.

테마 1-개발: 개발에 대한 관심은 완만한 하향 추세를 보 이고 있으며, 강남권의 재개발에 대한 관심이 높은 경향이 나 타났다.

테마 2-거래: 거래에 대한 관심은 완만한 하향 추세를 보 이고 있으며, 수도권의 거래가 집중되고 월세에 대한 관심이 증가하는 경향이 나타났다.

테마 3-분양: 분양에 대한 관심은 가파른 하향 추세를 보 이고 있으며, 수도권 아파트 공급 물량과 미분양이 주된 관심 사로 나타났다.

테마 4-입지: 입지에 대한 관심은 완만한 상향 추세를 보 이고 있으며, 역세권의 수요가 높게 나타나는 경향과 함께 자 연환경에 대한 관심도 지속적으로 높은 것으로 나타났다.

테마 5-정책: 정책에 대한 관심은 가파른 상향 추세를 보 이고 있으며, 부동산 대출 규제에 대한 높은 관심을 보이고 있는 것으로 나타났다.

테마-6 주거환경: 주거환경에 대한 관심은 가파른 상향 추 세를 보이고 있으며, 내·외부 공간 구성요소에 대한 수요의 다양화와 함께 관심이 증가하는 것으로 나타났다.

테마-7 투자·수익: 투자·수익에 대한 관심은 가파른 하 향 추세를 보이고 있으며, 소형 주택의 임대가 투자에 대한 가장 큰 관심사로 나타났다.

상기 테마별 특징에 따르면, 아파트에 대한 수요는 계속해 서 변화하는 동시에 다양해지고 있다. 이에 따라 수요를 만족 시키기 위해서는 변화를 분석하고 이에 대응할 수 있는 상품 과 전략의 개발이 필요하다. 또한 수요의 변화로부터 발생할 수 있는 인구집중, 가격변동, 가계부담 증가 등과 같은 문제 점에 대한 대책을 마련할 필요가 있다.

본 연구는 빅데이터 분석을 아파트 수요라는 주제에 접목 하여 수행하였으며 향후 빅데이터를 활용한 건설산업의 다양 한 트렌드 분석을 위한 초기단계의 연구로 그 의의를 지닌다.

향후에는 뉴스기사를 통한 사회 이슈뿐만 아니라 공공기관의 정형 데이터와 블로그, 트위터, 페이스북과 같은 SNS로 분석 범위를 확장하고, 감성분석과 머신러닝 등 다양한 기법과 알 고리즘 구축 등이 중요한 연구 분야로 추진될 필요가 있다.

감사의 글

이 논문은 2016년도 정부(교육부)의 재원으로 한국 연구재단의 지원을 받아 수행된 기초연구사업임 (No.

2016R1D1A1B03933659).

References

Bae, J. H., Han. N. G., and Song, M. (2014).

“Twitter Issue Tracking System by Topic Modeling Techniques” Journal of Intelligence and Information Systems, KIISS, 20(2), pp. 109-122.

Blei, D. (2012). “Probabilistic Topic Models”

Communications of The ACM, 55(4), pp. 77-84.

Blei, D., Ng, A., and Jordan, M. (2003). “Latent Dirichlet Allocation” Journal of Machine Learning Research, 3, pp. 993-1022.

Chang, J. (2015). “Package ‘lda’ Collapsed Gibbs Sampling Methods for Topic Models” R cran,

<https://cran.r-project.org/web/packages/lda>

(Apr. 8, 2017)

DBGuide.net (2017). “Structured Data” Classification of collected data, <http://www.dbguide.net/db.db?cm d=view&boardUid=186813&boardConfigUid=9&cate goryUid=216&boardIdx=152&boardStep=1> (Feb. 22, 2017).

Jeon, H. J. (2016). “KoNLP.” <https://github.com/

haven-jeon/KoNLP> (Mar. 20, 2017).

Jeong, C. W., and Kim, J. J. (2012). “.” Journal of The Korean Digital ArchitectureㆍInterior Association, KDAI, 12(2), pp. 53-60.

Jeong, D. M., Kim, J. S., Kim G. N., Heo, J. U., On, B. W., and Kang, M. J. (2013). “A Proposal of a Keyword Extraction System for Detecting Social Issues” Journal of Intelligence and Information Systems, KIISS, 19(3), pp. 1-23.

J e o n g , Y . C . ( 2 0 1 3 ) . “ B i g D a t a ” S e o u l , Communicationbooks.

Kang, M. S., and Suh, D. H. (2016). “Single-person household increases and housing market trend changes” KB Financial group INC., <https://www.

kbfg.com/kbresearch> (Feb. 20, 2017).

Kang, S. H. (2013). “Construction industry and Big Data” Korean Journal of Construction Engineering and Management, KICEM, 14(6), pp. 73-75.

Kang, S. H., Kim, W. Y., and Yoo, W. S. (2014).

“Awareness of construction companies and future direction about Big Data” CERIK, <http://www.

cerik.re.kr> (Feb. 15, 2017).

KBA (2016). “Research Institute of KBA Analysis Report”

Research Institute of Korea Appraisal Board, KBA, 5.

(12)

Kim, H. J., Jo, N. O., and Shin, K. S. (2015). “Text Mining-Based Emerging Trend Analysis for the Aviation Industry” Journal of Intelligence and Information Systems, KIISS, 21(1), pp. 65-82.

Kim, J. E., and Kim, M. K. (2016). “Future housing trends seminar.” Korea housing institute, <http://

www.khi.re.kr>, (Feb. 11, 2017).

Lee, D. J., Yeon, J. H., Hwang, I. B., and Lee, S. G.

(2010). “Kind Korean Morpheme Analtzer” Seoul National University Intelligent Data Systems Laboratory, <http://kkma.snu.ac.kr> (Mar. 20, 2017).

Lee, S. J., and Kim. H. J. (2009). “Keyword Extraction from News Corpus using Modified TF-IDF” The Journal of Society for e-Business Studies, Society for e-Business Studies, 14(4), pp. 59-73.

Lee, Y. J., Lee, S. H., and Lee, J. S. (2014). “KB Kookmin Card`s Marketing Activities and Use of Big Data” Korea Business Review, KASBA, 18(1), pp.

145-176.

Manning, C., Raghavan, P., and Schütze, H. (2009). “An introduction to information retrieval” Cambridge, Cambridge University Press.

Min, K. Y., Kim, H. T., and Ji, Y. G. (2014). “A Pilot Study on Applying Text Mining Tools to Analyzing Steel Industry Trends” The Journal of Society for e-Business Studies, Society for e-Business Studies, 19(3), pp. 51-64.

NIA (2015). “A New Approach to the Future Strategy at age of Big data” IT&Future Strategy, NIA, 2015-14.

Oh, J. A. (2014). “A Case Study on the Interior Design of Medium and Small Size Apartment” Research Bulletin of Package Culture Design, KICD, 38, pp.

37-56.

Park, E. J., and Cho, S. Z. (2014). “KoNLPy: Korean natural language processing in Python” Journal of The 26th annual conference on Human & Cognitive Language Technology, KIISE, 26, pp. 133-136.

Park, J. H. (2017). “Journalism without Journalist”

Seoul, Communicationbooks.

Park, J. H., and Song, M. (2013). “A Study on the Research Trends in Library & Information Science in Korea using Topic Modeling” Journal of the Korean Society for Information Management, KOSIM, 30(1), pp. 7-32.

Park, J. Y., and Suh C. W. (2015). “Analysis of Changes in the Housing Market Using TF-IDF Weight Model”

KOREA REAL ESTATE ACADEMY REVIEW, KREA, 63, pp. 46-58.

Park, Y. S., Kim, M. K., Lee, H. J., and Cho, E. S.

(2003). “A Trend Analysis of Consumers for the Development of Apartment Interior Design” Korean institute of interior design journal, KIID, 41, pp.

129-136.

Pillkahn, U. (2008). “Trends und Szenarien als Werkzeuge zur Strategieentwicklung” Paris, Publicis Corporate Publishing.

Seo, J. E., and Lee, G. S. (2012). “A Study on Expressive Methods and Current Status of Apartment Finishing Materials for Trend 'Nature‘” Journal of the Architectural Institute of Korea Planning & Design, AIK, 28(3), pp. 103-110.

Shin, D. H. (2016). “Computational journalism.” Seoul, Communicationbooks.

Sievert, C., and Shirley, K. (2016). “LDAvis: A method for visualizing and interpreting topics” Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces, Association for Computational Linguistics, pp. 63–70.

Statistics Korea (2016). “2015 Population and Housing Census Total count result Press Release” Press release, Statistics Korea.

Suh, D. H. (2017). “Housing market settlement and forecast for 2016 through The KB Real Estate Statistics” KB Financial group INC., <https://www.

kbfg.com/kbresearch> (Feb. 20, 2017).

TTA (2017). “Big data” Telecommunications word dictionary, TTA <http://word.tta.or.kr> (Feb. 22, 2017).

TTA (2017). “Crawling” Telecommunications word dictionary, TTA <http://word.tta.or.kr> (Mar. 13, 2017).

TTA (2017). “Informal data” Telecommunications word dictionary, TTA <http://word.tta.or.kr> (Feb. 22, 2017).

You, E. S., Choi, G. H., and Kim, S. H. (2015). “Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels” Journal of the Korea society of computer and information, KSCI, 20(2), pp. 121- 129.

(13)

요약 :

아파트는 우리나라 전체 주택 중 상당 부분을 차지하는 중요한 거주형태이며 매년 증가하는 추세이다. 아파트는 일반 국민에 게 주거용뿐만 아니라 수익 상품으로서의 가치를 지니며, 건설기업에게는 주요 상품, 정부에게는 공공 복지를 위한 중요한 수단 중 하나이다. 따라서 아파트의 수요 트렌드를 이해하고 분석하는 것은 고객의 요구 가치에 대응하는 아파트 개발과 부동산 정책 수립을 위해 중요한 현안이다. 본 연구의 목적은 주요 일간지의 뉴스기사를 빅데이터 소스로 설정하고 텍스트 마이닝 기법을 활용 하여 아파트 수요 트렌드를 분석하고 주요 특징을 도출하는데 있다. 연구 결과, 빅데이터 분석을 통해 개발, 거래, 분양, 입지, 정 책, 주거환경, 투자·수익 등 7개의 테마별로 아파트 수요 관련 17개 주요 트렌드가 도출되었다. 본 연구에서 제안된 연구방법론은 향후 건설산업 관련 연구에 빅데이터 분석을 접목시키는데 유용하게 활용될 수 있다.

키워드 :

빅데이터, 텍스트 마이닝, 아파트 수요, 트렌드

수치

Fig. 1. Trend analysis process
Table 2. Topic with topic words and proportion examples (2016)
Fig. 3. Trend of Apartment demand
Fig. 4. Development Trend
+3

참조

관련 문서

• Program Context-Aware Data Separation Technique – Predicts update times of data based

○ Furthermore along with obtaining fundamental data on power network system in Korea and related-data on demand, supply, transmission of Russia and North

이에 본 연구에서는 선행연구를 토대로 컬러테라피를 활용한 미술활동 프로그 램의 긍정적인 심리적 효과를 치료로써 활용하여 경도인지장애 노인의 기억력

제 목과 내용에 각각 벡터화를 진행해 키워드별 TF-IDF 값을 만든 후 Doc2Vec의 키워 드 유사도 값과 비교하여 일치하는 키워드에 중요도 가중치 값을 적용시켜 결합

본 논문에서는 단어의 의미적 모호성을 해소하고 효율적인 정보 검색을 위해 한국어 뉴스 기사를 이용하여 LDA 기반 토픽 모델링을 통해 문서 내 주제 분포와 주제

셋째,본 연구는 문학 작품 J ame sJ oyce 의 Ar aby를 선정하였고,문학 텍스 트를 활용하여 위 쓰기 지도 유형 단계들을 고려하여 고등학생들을 대상으로 할 수 있는

본 연구의 제언은 다음과 같다.첫째,본 연구에서는 다양한 지역사회 기술 중에 복 합매체 자료를 활용하여 극장 이용 기술의 수행에 미치는 효과를

As commercial companies using Big Data, one of the most common legal issues will be customers’ privacy and protection of personal information. More specifically,