Effective Utilization of Data based on Analysis of Spatial Data Mining

http://dx.doi.org/10.7236/JIIBC.2013.13.3.157

공간 데이터마이닝 분석을 통한 데이터의 효과적인 활용

Effective Utilization of Data based on Analysis of Spatial Data Mining

요 약 데이터마이닝은 데이터간의 상호 연관성과 다양한 패턴 분석을 통해서 우리가 알 수 없었던 새로운 발견을 할 수 있는 유용한 기술로서 현재 금융

의료 등 다양한 분야에서 활용되고 있다^

본 논문에서는 공간 데이 터마이닝 분석을 통한 데이터의 효과적인 활용방법을 제안한다

서울시에 거주하는 외국인들의 기본적인 데이터를 활 용하고자 한다

이 데이터는 다른 분야의 데이터와 구별되는 특징이 있는데

민감 정보로 분류된다는 것과 개 인정보보호 등과 같은 법적인 문제가 있을 수 있다

따라서 개인정보를 알 수 없는 기본적 통계적 데이터를 활용하고 자 한다

제안된 방법의 주요한 특징 및 기여도는 다음과 같다

큰 데이터를 여러 질의방법을 통해서 정보로서 이용할 수가 있으며

정제를 통해서 클러스터링 할 수 있다

이러한 정보들을 새로운 패턴이나 앞으로의 의사결 정에 이용할 수 있다

질의 결과에서 얻은 새로운 정보를 사용자가 보고 판단하여 의사결정에 이용하고자 한다

제안 된 방법의 성능평가에서는 데이터들의 주제별 도식화를 통한 시각적 접근방법을 사용하고자 한다

제안된 방법의 성 능평가 결과는 데이터를 보다 가치 있게 활용하기 위해서 데이터마이닝 기술을 이용한 분석을 통해 우리가 알 수 없 었던 새로운 패턴과 결과의 발견이 가능함을 보여준다

*준회원, 홍익대학교 컴퓨터정보통신공학과

**종신회원, 홍익대학교 컴퓨터정보통신공학과 (교신저자) 접수일자 2013년 4월 6일, 수정완료 2013년 5월 22일 게재확정일자 2013년 6월 14일

Received: 6 April 2013 / Revised: 22 May 2013 / Accepted: 14 June 2013

Dept. of Computer & Information Communications Engineering, Hongik University, Korea

1. 데이터마이닝과 KDD

그림 1. 데이터베이스에서 KDD과정

Fig. 1. KDD process in the database

2. 데이터마이닝의 수행단계

그림 2. 데이터마이닝의 수행단계

Fig. 2. Implementation of data mining

그림 3. 공간데이터 마이닝의 기본개념

Fig. 3. Basic concepts of spacial data mining

그림 4. 제안된 PNU 코드화 방법: 주소 데이터를 PNU 코드화 Fig. 4. Proposed PNU code method: PNU code

into the address data

그림 5. 제안된 PNU 코드화 방법의 구체적인 설명 Fig. 5. The detail explanation of the proposed

PNU code method

그림 6. PNU 코드와 KLIS Primary Key 값과 매칭 Fig. 6. KLIS Primary matching to PNU code

그림 7. 완성된 PNU코드의 예 Fig. 7. PNU code example

그림 8. 공간화된 데이터의 예

Fig. 8. Example of data into space

그림 9. ESRI 사의 ArcGIS Fig. 9. ESRI's ArcGIS

그림 10. 서울시의 기본지도 Fig. 10. Base map of Seoul

그림 11. 공간화된 이탈리아인의 거주현황

Fig. 11. Spatial the current state of Italian

그림 12. 공간화된 베트남인의 현재 거주현황

Fig. 12. Spatial the current state of Vietnamese

그림 13. 공간화된 일본인의 현재 거주현황

Fig. 13. Spatial the current state of Japanese

그림 14. 서울시의 전체 외국인 거주현황

Fig. 14. Current state of the entire foreign residents in Seoul

※ 이 논문은 2012년도 정부(교육과학기술부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No.2012046780).

Effective Utilization of Data based on Analysis of Spatial Data Mining

JIIBC 2013-3-21

Effective Utilization of Data based on Analysis of Spatial Data Mining

김기범

, 안병구

Kibum Kim, Beongku An

,

,

.

.

.

,

,

.

.

.

,

,

.

,

.

.

.

.

Key Word : Data mining, Spatial data, Database, Big data

본 논문은 다음처럼 구성되어 있다. Ⅱ장에서는 관련 연구를, Ⅲ장에서는 제안된 방법을, Ⅳ장에서는 데이터 마이닝 결과를 토대로 성능측정을, Ⅴ장에서는 결론을 맺고자 한다.

데이터 마이닝

데이터 마이닝

.

데이터마이닝의 결과는 의사결정 시스템으로 입력되

어 활용되어야 하는데 비즈니스 응용에서 데이터마이닝

결과에서 도출된 정보는 영업 관리 도구와 통합되어 효

과적인 마케팅 홍보에 적용되고 결과를 검증할 수 있어

야 한다. 이와 같은 통합은 후처리 과정이 타당성 있고 유 용한 결과만을 의사결정 시스템으로 통합되도록 해야만 한다. 통계적 척도와 가설 검증 방법 또한 후처리에 적용 되어 불필요한 데이터마이닝 결과를 제거하기도 한다

데이터마이닝의 수행 단계는 그림 2와 같이 8단계로 구성된다. 각 단계는 여러 세부 작업으로 분할 가능하며 상이한 단계들 또는 작업 사이를 반복적으로 수행하는 것이 일반적이다

.

․단계 1: 요구 분석(requirements analysis): 대상 문제 에 대한 명세화 또는 데이터마이닝의 목표에 대한 명 확한 정의를 내리는 단계로 이 단계의 산출물은 이후 단계들의 준비와 실행에 관한 전략적 계획이다.

․단계 2: 도메인 분석(domain analysis):응용 도메인, 데이터, 환경적 특성에 관한 지식을 분석하여 초기 데 이터마이닝 계획을 수립한다.

․단계 3: 데이터 집합 정의(definition of data sets):데 이터마이닝의 대상이 될 데이터가 데이터베이스에 분

산되어 있는 여러 개의 이질적인 데이터의 통합이 수 행된다.

․단계 7: 해석과 평가(interpretation and evalution):데 이터마이닝의 결과는 사용자가 해석 가능한 용어 또는 의사결정에 이용할 수 있는 지식으로 표현되어야 하며, 단계 1에서 정의된 평가 기준에 의해서 평가된다.

․단계 8: 데이터마이닝 결과의 적용(deployment):성공 적인 데이터마이닝 태스크의 결과는 의사결정 문제의 해결을 위해서 사용된다.

본 연구에서 제안하고자 하는 방법은 텍스트데이터를

이용해서 공간데이터 마이닝을 실행하는 방법이다. 데이

터를 시각화 즉, 공간화를 통한 분석을 통하여 새로운 정

보를 발견하는 것이다. 그림 3은 공간 데이터 마이닝의

기본 개념을 보여주고 있다. 그림 4는 본 논문에서 제안

한 공간 데이터 마이닝을 위한 PNU 코드화 방법을 보여

주고 있으며, 그림 5는 제안된 PNU 코드화 방법을 구체

적인 예를 들어서 설명하고 있다. 주소로 표현되어 있는

텍스트데이터를 코드화 시키는 방법인데, 그림 4와 같이

PNU코드화를 통해서 KLIS(한국토지정보시스템)에서

제공하는 지적도 및 주제도의 Primary Key와 그림 6의

.

성능 평가는 ArcGIS를 이용한 환경해서 시행하고자 한다.

엑셀로 저장되어 있는 데이터를 dbf 파일화 하여

PNU 코드화를 통해 가공한다. 기본지도(base map)으로

는 한국토지정보시스템의 서울시 기본 필지를 이용하였

다. 그림 10는 서울시의 기본지도를 보여주고 있다.

ArcGIS에서 KLIS Primary Key와 가공화한 PNU코 드를 매칭 시켰다. 1:1 매칭을 하여 기본지도(base map) 에 약26만개의 데이터를 하나하나 공간화 하는 방식으로 상당한 시간이 소요되었다

.

그림 11에서는 이탈리아의 거주 현황을 확인할 수 있 는데, 여기에서 대부분의 이탈리아인이 중구, 용산구, 성 동구, 서대문구 등지에 거주하는 것을 파악할 수 있다.

그림 12와 그림 13의 공간화 결과를 보면, 앞서 데이 터마이닝 시뮬레이션을 통해서 파악했던 결과와 유사하 다는 것을 알 수 있다.

[01] http://cif.iis.u-tokyo.ac.jp/e-society

[02] http://www.kddi.com/variety/wireless_japan/pdf/

[03] http://www.nec.co.jp/rd/datamining/

[04] M. Ester et al., “Spatial Data Mining: Database Primitives, Algorithms and Efficient DBMS Support,” Data Mining and Knowledge Discovery, Vol. 4, pp. 193-216, 2000.

[05] M. Ester, H. Kriegel, and J. Sander, “Algorithms and Applications for Spatial Data Mining,”

Geographic Data Mining and Knowledge discovery, 2001.

[06] J. Mennis and J. Liu, “Mining Association Rules in Spatio-Temporal Data: An Analysis of Urban Socioeconomic and Land Cover Change,”

Transactions in GIS, Vol. 9, No. 1, pp. 5-17,2005.

[07] F. Verhein and S. Chawla, “Mining Spatio-Temporal Association Rules, Sources, Sinks, Stationary Regions and Thoroughfares in Object Mobility Databases,” In Proc. Int'l. Conf. on Database Systems for Advanced Applications, DASFAA, pp. 187-201, 2006.

[08] Duck-Ho Bae, Ji-Haeng Baek, Hyun-Kyo Oh, Ju-Won Song, “Design and Implementation of a Spatial Data Mining System,” Journal of Korea Spatial Information Society, vol.11, no.2, pp.119- 132, June 2009..

[09] Gunhak Lee, “A Study on Spatial Patterns of Traffic Accidents using GIS and Spatial Data Mining Methods: A Case Study of Kangnam-gu, Seoul,” Journal of Korean Geographical Society, vol.39, no.3, pp. 457-472, 2004.

[10] Qin Ding, Qiang Ding, and William Perrizo,

“PARM—An Efficient Algorithm to Mine Association Rules From Spatial Data,” IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PARTB: CYBERNETICS, vol.

38, no. 6, December 2008.

저자 소개

∙2013년 : 홍익대학교 컴퓨터정보통신 공학과 졸업(BS)

<주관심분야 : GIS Spatial Analysis, Data Mining, Database >