미래사회를 향한 빅데이터 기술과 활용
황명화 | 국토연구원 책임연구원(정리)
한국토지주택공사, 한국건설기술연구원과 국토연구원이 공동 주관한 ‘공간정보 국제컨퍼런스’가 지 난 8월 26일 서울 코엑스 컨벤션센터에서 개최되었다. 이번 컨퍼런스는 국토교통부에서 우리나라 공 간정보산업의 발전상을 공유하고 국내외 시장 진작을 위해 매년 개최하는 스마트국토 엑스포 행사 와 병행하여 진행되었는데, 올해는 ‘미래사회를 향한 빅데이터 기술과 활용’이라는 주제를 다루어 공 간정보 관련 학계, 정부기관, 기업체, 지방자치단체, 언론 등 연인원 500명 이상이 참석하였다. 이날 컨퍼런스는 손태락 국토교통부 주택토지실장의 개회사와 김경환 국토연구원장의 축사를 시작으로,
‘빅데이터 분석과 위치정보의 융합(Adding Location to Big Data Analytics)’을 주제로 하는 Leonard Jayamohan Esri 아시아 총괄이사의 기조연설로 이어졌다. 이후 ‘정부3.0시대의 공간빅데이터’, ‘공간 빅데이터 기술’, ‘공간빅데이터 활용사례’를 주요 주제로 하는 세 개의 세션에서 국내외 전문가가 총 8 개의 주제발표를 하였다. 컨퍼런스 마지막 세션인 패널토론에서는 오재인 한국빅데이터학회장을 좌장 으로, 송규봉 (주)GIS United 대표, 성장환 토지주택연구원 국토지역연구실장, 최현상 한국건설기술 연구원 연구위원, 홍상기 한국공간정보학회장이 토론자로 참가하여 빅데이터의 개념, 빅데이터와 개 인정보 보호, 데이터 과학자 양성방안 등에 대하여 심도 깊게 논의하였다. 다음은 이번 컨퍼런스의 주 요 발표내용과 토론내용을 요약·정리한 것이다.
K R I H S F O C U S : 국 토 연 구 원 소 식
발표내용
1. 빅데이터 분석과 위치정보의 융합
(Leonard Jayamohan Esri 아시아 총괄 이사)
빅데이터란 ‘그 크기가 너무 방대하고 구조가 복잡 하여 기존 방법이나 도구로 다루기 어려운 데이터 셋’을 말한다. 대표적인 예로는 기상자료, 실시간 교통자료, 인구자료 등이 있으며, 이들 데이터는 방 대한 크기(Volume), 빠른 수집속도(Velocity), 다 양한 형태(Variety), 불확실성(Veracity)의 네 가지 특징이 있다. 인간활동의 80% 이상이 위치 혹은 공 간정보를 포함하므로, 빅데이터 중에서도 위치 혹 은 공간정보를 포함한 데이터셋이 많으며 지리정 보시스템(GIS)이 이들 분석에 자주 활용된다. 특 히, 최근 GIS 도구들은 웹기술과 시각적 분석 기 술을 접목하여 빅데이터에서 신속하게 패턴을 찾 아낸다.
위치정보 기반 빅데이터 분석의 대표적 공공사 례로는 유동인구를 토대로 심야버스 노선을 선정한 서울시와 지역 재개발 사업에 빅데이터를 활용한 싱 가포르 마카티시의 사업이 있다. 서울시에서는 심야 버스에 대한 시민의 요청을 수용하여, (주)KT의 통 화량 기반 유동인구 자료와 서울시 택시사용 자료를 융복합하여 총 9개의 버스노선을 선정함으로써 서 울시민의 지지를 받았다. 싱가포르 마카티시의 경우 야간인구, 인구이동, 건물정보 등을 비롯한 다양한 자료를 통합하여 재개발대상 지구를 결정하고, 도시 열섬 문제에 대한 정책대안을 도출하고 있다.
2. 정부3.0과 공간빅데이터 (김대종 국토연구원 연구위원)
우리나라 정부는 정보 개방, 공유, 소통, 협력의 전 략을 통해 정부3.0 비전을 달성하고자 노력하고 있 다. 빅데이터는 현실세계에 대한 이해 향상과 자료 기반 의사결정을 지원하여 정부3.0 달성을 위한 새 로운 정책수단으로 부상하고 있다. 특히, 공간빅데 이터는 인간활동의 공간적 맥락에 대해 상세 정보 를 제공하고 지도와 같은 시각적 분석과 의사소통 에 용이하기 때문에, 공공과 민간 부문에서 많은 관 심을 끌고 있다. 공간빅데이터 분석의 일례로 수년 간의 토지거래 자료를 분석한 결과, 농경지와 임지 의 상당 부분이 도시관련 토지용도로 변경된 것을 알 수 있었다. 또한, 소셜미디어 자료 분석을 통해 부동산정책에 관한 여론 변화를 파악할 수 있었으 며, 부동산거래 자료의 시공간패턴 분석으로 부동 산정책이 실제 임대차 가격에 어떤 영향을 미쳤는 지 알 수 있었다.
정부3.0을 위한 빅데이터 사업들을 성공으로 이 끌기 위해서는 공공 빅데이터 생산 촉진을 위한 정 부조직 간 거버넌스 확립과 개인정보 보호를 위한 제도 마련이 우선적으로 필요하다. 또한, 공간빅데 이터에 대한 접근성을 향상시켜 빅데이터의 활용 도를 제고해야 한다. 마지막으로, 빅데이터 기반의 신속한 정책수립을 위해 인메모리(in-memory)와 하드웨어 가속 등 최신 기술을 토대로 기술개발을 촉진해야 한다.
우리나라를 포함한 많은 국가들에서 자료 개방과 공유를 통해 정부 투명성과 경쟁력을 높이려 노력 중이다. 우리나라의 경우 자료공개의 활성화를 위 해 공공데이터전략위원회, 공공데이터포털, 공공데 이터제공분쟁조정위원회, 공공정보 품질관리 지원 센터 등의 정책수단을 강구 중이다. 공간빅데이터 에 있어서도 공유와 상호 운용성 확보가 중요하며, 이를 위해 링크드오픈데이터(Linked Open Data:
LOD) 전략을 활용할 수 있다. LOD에서는 자료 각각의 의미를 온톨로지 기반으로 명시적으로 표 현한 후 웹으로 공개하는데, 이를 통해 의미가 유 사하거나 연관된 자료의 경우 자료의 융복합 활용 이 용이해진다. 공간빅데이터의 LOD화를 위해서 는 GeoNames, GeoOntology, GeoSPARQL과 같 은 공간자료에 특화된 온톨로지와 시맨틱 검색기 술을 이용할 수 있다.
4. 공간하둡: 공간빅데이터 분산처리 기술
(Mohamed F. Mokbel 미국 미네소타주립대학교 컴퓨터공학과 교수)
하둡과 공간하둡은 각각 빅데이터와 공간빅데이 터 분산처리 기술 중 하나다. 공간하둡은 일반 하 둡의 각 구성요소를 확장하여 하둡에서 공간빅데 이터 처리를 가능하게 한 소프트웨어 프레임워크 다. 구체적으로 공간하둡은 점, 선, 면 등과 같은
된 MapReduce 기능을 제공하는데, 범위기반 질의 (range query), k최근린 이웃 탐색(kNN), 공간 결 합(spatial join) 등의 기본적 공간연산기능을 내재 하고 있다. 이외에도 사용자는 필요 시마다 공간연 산기능의 MapReduce 버전을 쉽게 개발하여 다른 사용자와 공유할 수 있다.
5. 비정형 빅데이터 공간정보의 분석을 위한 기반 기술 (정의선 한국오라클 상무)
비정형 빅데이터 중 공간정보를 포함한 데이터는 종종 그래프 형태의 자료구조를 가진다. 종전의 데 이터베이스 시스템들은 대량의 그래프 데이터를 신속히 처리하지 못하는 문제를 가지고 있다. 최근 오라클은 그래프 데이터 처리와 분석에 있어 성능 문제를 개선하기 위해 인메모리, 병렬처리, 고효율 자료압축 기술 등을 도입하여, 오라클 데이터베이 스 공간연산자의 속도를 50~100배 정도 개선하 고 데이터베이스 내부에서도 빅데이터를 효율적으 로 처리할 수 있게 되었다. 또한, 오라클은 병렬 래 스터, 가상 모자익(mosaicing), 시맨틱 그래프 처 리 기능 등을 자사 데이터베이스 소프트웨어에 추 가하여, 공간 및 비정형 빅데이터 자료를 위한 기본 분석 플랫폼 기술을 제공하고 있다.
6. 빅데이터의 효율적 처리를 위한 클라우드기술 (REEF) 개발
K R I H S F O C U S : 국 토 연 구 원 소 식
퓨터 수를 쉽게 증가 혹은 감소시킬 수 있는 환경 이 조성되면서, 컴퓨팅 자원관리 도구가 데이터 처 리의 중요 요소로 떠오르고 있다. 대부분의 컴퓨 팅 자원관리 도구는 다양한 애플리케이션 운영에 필요한 컴퓨터 기기를 하나의 시스템으로 제공하 는 기능을 수행하는데, 애플리케이션에서 요구되 는 컴퓨팅 양에 따라 컴퓨터 자원을 유연적으로 할 당한다. 일반적으로 빅데이터 처리 프레임워크는 문제와 상황마다 다른 구조를 띠기 때문에, 기존 의 자원관리 도구를 쓰게 되면 사용자가 저차원 수 준에서 컴퓨팅 자원을 직접 관리해야 하는 어려움 이 따른다.
이러한 저차원 컴퓨팅 자원관리의 어려움을 해 소하고자 REEF(Retainable Evaluator Execution Framework)를 개발하였다. 구체적으로, REEF는 Apache YARN, Mesos와 같은 컴퓨팅 자원관리 도구 기반에서 빅데이터 애플리케이션이 개발될 때 사용자가 손쉽게 자원관리 기능을 설정하고 최 적화할 수 있게 해준다. 특히, 사용자가 여러 가지 데이터 처리 프레임워크를 연계하여 새로운 데이 터 처리 워크플로(workflow)를 설계할 때, REEF 를 이용하여 데이터 처리 프레임워크 간 컴퓨팅 자 원의 재활용이 가능해진다.
7. 미래 에너지와 도시 인프라를 위한 빅데이터 (Budhendra Bhaduri 미국 오크리지 국립연구소 지리정보기술소장)
전 세계적으로 도시화와 인구성장이 빠르게 진행 되면서 에너지, 식량, 기타 자연자원에 대한 수요가 급격히 증가하였을 뿐만 아니라, 환경 및 인류 안전 도 심각히 위협받고 있다. 이에 따라 에너지, 환경,
이동성(mobility)이 동시에 최적화된 건강한 지구 환경 조성방안에 대해 많은 연구가 진행 중이다.
최근 센서기술의 발달로 각종 환경요소 및 인프라 시설의 상태를 다양한 스케일에서 관측하고 측정 할 수 있게 되었다. 또한, 시민참여로 생산된 정보 도 증가하여 다양한 사회상과 인간행위를 이해하 고 도시기반시설과 같은 인공 환경을 효율적으로 관리할 수 있는 정보환경이 형성되고 있다. 이렇게 도시인프라 관리체계에서 생산되는 대량의 데이터 또한 도시 혹은 공간 빅데이터로 간주할 수 있으며, 이들 데이터를 도시교통 시뮬레이션, 인구변화 모 델링 등에 활용하여 지속가능한 미래사회 구현방 안을 모색할 필요가 있다.
8. 국토모니터링을 위한 마이크로 지오데이터의 활용 (Yuki Akiyama 일본 도쿄대학교 연구위원)
최근 GPS, 모바일, 웹기술 등의 발전으로 시공간 해상도가 높은 대용량의 비집계 자료가 다양한 방 식으로 생산되고 있다. 이들 빅데이터는 일본에서
‘마이크로 지오데이터’로 불리며, 근래 일본 정부의 자료개방정책 추진이나 민간의 상업적 자료 판매 증가로 연구자들이 보다 쉽게 구득할 수 있게 되었 다. 마이크로 지오데이터는 정밀성으로 인해 도시 광역권을 비롯한 국토모니터링, 대규모 인구이동 의 시공간 패턴분석, 3차원 도시건물환경의 시공 간적 변화, 상업활동공간 모니터링, 재해피해 추정 등 다양한 분야에 활용될 수 있다. 마이크로 지오데 이터의 효과적 활용을 위해 새로운 분석방법 및 데 이터 발굴방안에 대해 지속적인 관심이 필요하다.
행복주택은 신혼부부, 대학생, 사회초년생, 저임금 가구, 노령인구 등의 특수 계층을 위해 한국토지주 택공사에서 개발하는 임대주택이다. 한국토지주택 공사에서는 행복주택에 관한 실제 수요를 파악하 기 위해 공공자료와 민간에서 수집된 실시간 사회 지표를 융복합하여 공간빅데이터를 구축하고 이를 공간 시각화를 통해 분석하였다. 서울 및 인근 지 역을 시험연구 대상으로 하여, 우선 신혼부부, 대학 생, 사회초년생, 저임금가구, 노령인구의 공간적 분 포에 관한 최신 통계를 민간에서 수집된 통화량 빅 데이터를 기반으로 밀도맵 형태로 추정하였다. 다 음으로, 행복주택 공급대상 계층별로 다른 가중치 를 부여하여 행복주택 공급이 필요한 사업지구를 최종 결정하였다.
토론내용
■ 송규봉((주)GIS United 대표): 빅데이터는 예전부 터 존재하였으나, 이를 활용·분석할 수 있는 기 술이 현재에 이르러서야 확보되어 최근 빅데이터 가 큰 화두로 떠오르게 되었다. 비록 빅데이터가 자료와 기술 중심으로 논의되고 있으나, 빅데이터 프로젝트를 시작할 때는 기술 자체가 아닌 사람 중 심의 사고를 토대로 해야 한다. 특히, 빅데이터의 효과적 이용을 위해서 빅데이터를 통해 문제를 진 단·예측·해결할 수 있는지에 대한 반복적 검토
데이터 보안, 패턴파악을 넘어선 인과분석에 있어 빅데이터 적용가능성, 빅데이터 접근의 어려움 등 의 문제를 어떻게 해결할지에 대해 지속적인 검토 가 필요하다.
■ 최현상(한국건설기술연구원 연구위원): 정부3.0 정 책으로 공개된 자료가 융복합을 통해 새로운 산업 창출로 이어지게 하는 방안 중 하나로 많은 사람들 이 빅데이터를 주목하고 있다. 몇 년 전까지만 해도 사람들은 주로 빅데이터 관련 시스템 개발에 초점 을 두었으나, 최근에는 빅데이터의 활용과 분석에 보다 많은 에너지를 쏟는 추세다. 빅데이터 활성화 에 있어 중요한 전제조건이 자료개방인데, 지금까 지 공공부분에서는 단순 자료 개방에만 중점을 두 고 고품질 자료의 생산 및 공개에는 관심을 쏟지 않았다. 특히, 국토교통부의 경우 내부 보유 데이터 를 이용한 빅데이터 구축·활용이 미흡하며, 내부 실·국 간 데이터 공유도 저조한 상태이므로, 자료 개방 및 공유 활성화를 위한 방안 마련이 시급하다.
■ 홍상기(한국공간정보학회장): 빅데이터 시대에 들 어 예전에 비해 수많은 공간정보가 존재하지만, 이 들 정보를 어떻게 활용할 것인지에 대한 숙고는 미 흡한 실정이다. 특히, 공간빅데이터의 의미, 공간빅 데이터 기술 개발 및 활용에 관한 교육 방안, 공간 빅데이터 기반의 전지구적 문제해결 방안 등을 체 계적으로 모색해야 한다.