• 검색 결과가 없습니다.

관광분야 빅데이터 활용체계 및 실증분석 연구

N/A
N/A
Protected

Academic year: 2022

Share "관광분야 빅데이터 활용체계 및 실증분석 연구"

Copied!
216
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

권태일ㆍ이충희 연구 2017_11

관광분야

빅데이터 활용체계 및 실증분석

연구

관광분야 빅데이터 활용체계 및

실증분석 연구

(2)

관광분야 빅데이터 활용체계 및 실증분석 연구

권태일ㆍ이충희

(3)
(4)

연구책임 이 충 희 (한국문화관광연구원 책임전문위 원)

공동연구 김 수 경 (한국문화관광연구원 차석전문 원)

이 충 희 (한국문화관광연구원 책임전문위원) 공동연구 김 수 경 (한국문화관광연구원 차석전문원)

강 계 화 (넥스엔정보기술(주) 연구소장) 박 완 태 (신한카드 차장)

연구참여 안 혜 경 (한국문화관광연구원 위촉연구원)

(5)
(6)

디지털 경제의 확산은 데이터와 정보의 폭발적인 증가로 이어져 ‘빅 데이터(BIg Data)’ 시대가 도래 하였습니다. 데이터 기반(data-driven) 사회에서 대규모 데이터는 국가경쟁력을 좌우하는 중요한 ‘자원’입니다.

미국과 영국 등은 빅데이터 시대를 맞이하여 공공 정보의 전면적인 개방과 데이터 활용을 통한 가치 창출을 국가 전략으로 내걸고 새로운 혁신을 도모하고 있습니다. 우리나라도 정부 차원에서 사회 현안에 대한 선제적 대응수단으로 빅데이터를 적극 활용하고 있으며, 정책 결정 과정 에서 데이터의 역할이 강조될수록 통계의 중요성은 더욱 부각되고 있습 니다.

본 연구는 21세기 새로운 자산으로 부각되고 있는 빅데이터를 관광분야 국가통계로 활용할 수 있는 방안을 도출하고자 추진하였습니다. 이에 따라, 통신 및 신용카드 빅데이터를 활용한 관광 OD통계를 생산할 수 있는 방안을 모색해 보았습니다.

본 연구에서 제시한 관광분야 빅데이터 연구, 활용 사례와 분석의 시사 점이 관광 공공정책 영역에서 시의적절하고, 유용하게 활용될 수 있는 기초자료로서 가치 있는 역할을 할 수 있기를 기대합니다.

마지막으로, 본 연구에 참여해주신 전문가 여러분과 연구원 등의 관계 자분들께 감사의 말씀을 드립니다.

2017년 10월 한국문화관광연구원 원 장 김 정 만

(7)
(8)

i

연구개요

(9)
(10)

iii

1. 서 론

가. 연구 배경 및 목적

1) 연구 배경

○ 관광분야에서는 내·외국인 관광수요의 지속적 증가와 더불어 관광객 들의 행태파악을 위한 다양한 조사 및 연구가 수행되고 있으나 시의 성 있는 조사결과의 확보가 어려운 실정임

○ 이에 관광분야의 기존 조사통계에 대한 보완과 더불어 시의성과 객 관성을 갖춘 통계를 생산하기 위한 빅데이터의 종합적 활용 및 검증 에 대한 연구가 필요함

기존 관광 조사통계의 시의성 문제 대두

시의성과 객관성을 바탕으로 한 정책적 활용

통계 필요

통신, 카드 등 빅데이터 활용성 검토

관광분야 빅데이터

가이드라인 구축

객관성 및 신뢰성 확보방안 마련 (표본설계, 보정)

시의성은 있으나 객관성 미흡

다양한 빅데이터의

연계활용방안 마련 통계청의

승인통계체계 마련 관광분야 빅데이터 전문기관 위상확보

2) 연구 목적

○ 시의성 있는 관광 빅데이터 생산체계 마련

○ 대표성 있는 관광 빅데이터 구축방안 마련

○ 관광 빅데이터의 통합 활용방안 마련

○ 통계청 승인통계로서의 기반 구축방안 마련

(11)

iv

3) 연구 수행절차

○ 본 연구는 Ⅰ.서론 - Ⅱ.관광분야 빅데이터 현황 및 사례분석 - Ⅲ.

관광분야 빅데이터 활용체계 - Ⅳ.관광분야 빅데이터 실증분석 -

Ⅴ.결론 및 제언, 총 5단계로 구분하여 추진하였음

나. 연구 범위 및 방법

1) 연구 범위

○ 공간적 범위 : 전국 광역 단위, 내·외국인의 거주지(국적)와 방문지 를 기초(Base)로 한 공간적·업종별 이동경로 검토

○ 시간적 범위 : 빅데이터 검증을 위한 특정 월(月)에 대한 시간적 범 위 설정, 2017년 7월 기준 통신 및 카드 데이터 OD통계 생산

○ 내용적 범위 : 통신 데이터를 활용한 내·외국인의 OD통계 생산방안 연구, 카드 데이터를 활용한 내·외국인의 지출액 생산방안 연구, 통 신×카드 데이터 연계방안 연구, 객관성 입증을 위한 측정값과 실제 값 비교 연구, 관련분야 지수개발 연구

2) 연구 방법

○ 기존에 관광분야에서 활용된 빅데이터 분석의 종합적인 현황 및 문 제점을 파악하고, 관광분야의 빅데이터의 활용 및 차별화된 생산방 안 및 시사점을 도출함

○ 관광분야의 통신 및 카드 빅데이터 활용한 연구설계 및 실증분석 - SK통신(이하 S 통신 데이터로 통칭), 신한카드(이하 S 카드 데이터

로 통칭) 등에서 제공되는 빅데이터를 바탕으로 실제 데이터의 실증분석을 통해 월별 내·외국인 이동량 및 지출액에 대한 결과값을

(12)

v 도출하고, 도출된 값을 실제값과 비교 분석함으로써 데이터 활용의 객관성을 검증함

○ 공동연구진 활용 및 전문가 자문회의

다. 연구 기대효과

연구 고려사항 시의성

정책활용성

- 조사 통계의 한계점을 극복하고 정책적으로 활용가능한 시의성 있는 통계 생산체계 구축

신뢰성 객관성

- 기존 빅데이터의 문제점을 해결하기 위한 데이터 보정방안 등을 마련하여 활용상의 신뢰성, 객관성 확보

시뮬레이션 활용 - 빅데이터 생산체계 구축에 대한 연구를 바탕으로 실제 시뮬레이션을 통해 활용방안에 대한 사전 검증 실시

2. 관광분야 빅데이터 현황 및 사례분석

가. 빅데이터 관련 현황 및 정책

1) 관광분야 빅데이터 관련 현황 및 정책

○ 관광 빅데이터란 관광분야의 데이터를 수집하고 활용하여 지식을 생 성하고, 생성된 지식을 바탕으로 문제해결을 위한 대응방안을 마련 하거나 수요 변화를 예측하는 정보화기술

○ 관광분야의 빅데이터는 대게 비즈니스 모델과 결합한 시범적 분석 위주의 빅데이터 분석으로 추진 중

○ 관광분야의 빅데이터는 민간기업의 구축되어 있는 빅데이터 인프라 (ex. 이동 통신, 신용카드, SNS 등)을 활용하여 필요한 정보를 구축 한 후 정책수립에 활용하는 방향으로 운영되고 있음

(13)

vi

2) 관광분야 통신과 카드 빅데이터를 활용한 사례분석

기관 사업명 구분 분석

도구 내용

제주특별자치도

- 빅데이터 위치기반 융복 합을 통한 제주관광객 패 턴분석 연구

국내 통신 카드

- 빅데이터를 활용한 제주관광 패턴분 석 및 관광객 이동패턴 분석을 통한 도민 체감효과를 분석

미래창조과학부․

한국정보화진흥원 빅데이터전략센터

- 빅데이터 분석 기반 외국

인 관광산업 지원 국내 통신 카드

- 내․외국인 관광․소비패턴, 중국인 관 광 추세를 분석하여 맞춤형 관광정보, 관광지 추천 정보 제공

전주시(전라북도) - 전주한옥마을 빅데이터

관광정책 분석 국내

통신 카드 키워드

- 빅데이터를 활용하여 전주한옥마을 내․외국인 관광객 유동인구 이동범위 를 파악하여 전북연계 관광지 발굴

한국관광공사 - 2013년 문화관광축제를

중심으로 국내

통신 카드 키워드

- 유동인구 변동분석, 매출변동분석, 소 셜 데이터 활용 분석 등 빅데이터 분석 을 통해 지역축제 관련 관광행태와 특성을 파악

RocaSalvatella &

Telefonica

- 스페인 빅데이터 활용 관

광산업 분석 해외 통신

카드

- 카드, 통신 빅데이터를 활용한 숙박, 소비 등의 관광산업 분석 및 수요예측

나. 관광분야 빅데이터 활용의 장·단점 검토

○ (장점) 관광분야 빅데이터를 활용한다면 수요자 중심의 맞춤형 관광 서비스를 제공할 수 있고, 관광 정책수립에 근거를 제공할 수 있으 며, 급변하는 관광 환경에 실시간으로 대응이 가능함. 또한 새로운 시장의 창출로 인한 일자리 제공 등 경제활성화에 기여한다는 장점 을 지님

○ (단점) 관광분야 빅데이터는 대표성이 부족하다는 지적을 받고, 정 보와 데이터의 독점의 문제가 있으며, 개인정보보호 등의 법체계의 한계도 있음. 또한 전문인력의 부족과 비용의 문제가 있어 활용에 있어서 제약이 있다는 단점을 지님

(14)

vii

3. 관광분야 빅데이터 활용체계

가. 통신 빅데이터

1) 통신 빅데이터

○ 국내 최초로 상용화 된 S사의 통신 빅데이터로서 하루 약 280테라 바이트(Terabyte)의 데이터가 생성되고 있으며, 이러한 통신 트래 픽 데이터는 하둡을 통한 추출·정제 및 수집·저장을 위한 프로세스 체계를 구축하여 분석에 활용되고 있음

○ 또한 S사의 무선 통식 방식에 따른 1X, 2G, 3G, 4G, LTE 등의 모든 사용자의 CDR (Action 기반) 데이터와 Signal (Location 기반) 데 이터를 적용하고 있음. 집계방식은 사용 목적에 따라 내국인의 ① 인구유입량 데이터 ② OD 동선 데이터로 구분 할 수 있음. 외국인의 경우 로밍데이터를 활용하여 국적별 유입량 데이터와 OD 동선 데이 터의 수집 및 확보가 가능함

○ 내국인에 대한 OD 동선 데이터는 하루에 약 6억 6천만건의 원시자 료가 생성되고 있음. 2016년 10월 이후부터 데이터를 비식별화하고 DB로 구축하여 분석에 활용하고 있음

○ 본 연구에서는 인구통계학적으로 정의된 용어들을 중심으로 살펴본 후, 관광분야에서의 통신 데이터에 대한 개념을 정립하였음

분류 시간별 유니크 데이터 일별 유니크 데이터 실시간 데이터 개인화 데이터 조건 일별 시간대 중복 데이터 일별 데이터 일별 15분 단위 데이터 1시간 개인화 데이터 기간 2013년 5월부터 축척 2014년 1월부터 축척 2016년 1월부터 축적 최근 3개월

단위 1시간 단위 일 단위 15분 단위 1시간 단위

형태 통계청 집계 데이터 통계청 집계 데이터 통계청 집계 데이터 개인화 데이터

유형 활동인구 존재인구 존재인구 개인별 위치 데이터

(15)

viii

2) 통신 빅데이터 종류

○ 내국인 통신 데이터의 종류는 ① 인구 유입량 데이터 ② OD 동선 데 이터로 구분할 수 있음

- 인구 유입량 데이터의 추출 조건은 각 시군구 방문객 총 수를 나타 내며, 경우에 따라 해당 시군구 인구와 타 지역에서 유입되는 인구 를 구분할 수 있는 데이터임

- OD 동선 데이터는 해당 시군구의 야간 체류자를 거주인구(Origin) 로 가정하고, 2,700만 통신 폰 사용자가 전국의 시군구 중 거주지 역이 아닌 시군구에 2시간 이상 체류한 중간 지역을 경유지로 하 며, 귀가하기 전의 최종 시군구를 목적지(Destination)로 설정하 여 추출한 데이터임

○ 외국인 통신 데이터 종류는 로밍데이터를 기준으로 국적별×방문지 역별 관광객의 유동량을 추출할 수 있으나, 데이터의 특성상 성/연 령별 규모를 파악하는 것은 한계가 있음

분류 시간별 유니크 데이터 일별 유니크 데이터 실시간 데이터 개인화 데이터

내용

- 유동인구 데이터는 1 시간 단위로 중복된 인구를 산정하여 좁은 영역에 활동하는 인구 가 많은 지역을 추출 할 때 용이한 자료

- 유입인구 데이터는 일 단위로 시간단위 중복이 없는 인구를 산정하여 설정 영역 에 하루에 존재했던 인구를 추출할 때 용 이한 자료

- 실시간 데이터는 15 분 간격으로 snap shot으로 인구를 산 정한 자료로서 서비 스 인구 추정에 활용 - 15분 기지국 last

location 정보를 포착 하여 모바일 폰 사용자 를 산정하는 데이터

- 개인화 데이터는 모 바일 폰 사용자의 동 선파악 및 체류시간 을 위하여 개인의 개 별데이터(individual data)로서 개인정보 보호를 위하여 최근 3개월 자료만 분석 이 가능한 데이터

(16)

ix 3) 통신 빅데이터 설계 방안

① 통신데이터의

대표성 검증

- 대표성에 대한 검증(센서스 기준으로 전국의 성, 연령별 분포도 파악) - 연령대별로 10%-50% 분포도 확인

- 통신사의 가입자(청구지 정보)와 통계청 인구센서스의 매칭 결과 지역간 정확한 배분이 되지 않고 있음(GIS 강원도, 인천공항 사례) - 통신사 가입자를 인구센서스의 매칭하기 위해 청구지 주소가 아닌 실제

거주지 (야간 체류지 전월 23-04사이에 60%이상 체류한 가입자 도출)

󰀻

② 데이터 집계를

위한 표본설계

- 통신가입자 2,400만명 가운데 600만명의 정확한 거주지 파악하고 패널화 함 *(청구지-거주지 기준 매칭 표본 도출)

- 2개의 표본설계 안 검토

- (1안) 통계청 집계구 기준 (10만개->2만개 계통추출) - (2안) 230개 시군구 단위 기준

*기존에는 OD개념의 이동량 생산통계는 없으며, 방문지 베이스 통계의 경우 통신3사의 가입율로 단순 보정하여 사용함으로써 통계 생산의 객관성 신뢰성의 확보 어려움

󰀻

③ 관광 OD 도출을 위한

기준 검토

- 관광인구의 정의 : 거주자, 통근통학, 2시간이하 해당지역 체류자 제외=관 광+기타 목적을 모든 관광객 추정(관광비율 적용)

*거주자 : 통신데이터의 15일 이상 23-04시 동일지역 체류자 *통근통학 : 주중 07-09, 19-21시 일정한 패턴을 보이는 가입자 *국민여행실태조사의 경우 서울 등 대도시의 경우만 구간 이동에 대한

양을 추정하였으나, 본 연구에서는 230개 기초단위의 모든 이동(관광목 적 부합)을 포함하여 추정가능함

󰀻

④ 관광 주요지표

도출

- 월별 광역단위 전체 관광이동총량(당일+숙박) - 월별 광역단위 시도간 관광이동총량(당일+숙박) - 월별 광역단위 전체 관광인구(당일+숙박)※숙박중복제거 - 월별 광역단위 시도간 관광인구(당일+숙박)※숙박중복제거3 - 관광인구지수/지역별 숙박지수

󰀻

모수추정

- OD MATRIX를 기준으로 당일은 1명, 숙박은 평균숙박일수를 기준으로 나누어서 1명으로 보정하고 해당 월에 거주지별 방문객 수 파악(중복제거 후 순수 방문객 도출)

- OD MATRIX를 기준으로 당일 1명=1일, 숙박관광객=(지역별 숙박객수*

지역별 숙박비율+1일)=체제일수로 구분하여 거주지 베이스의 지역에 대한 이동총량 산출(단위 : 일)

- 최종적으로 중복을 제거한 지역별 순수방문객과 이동총량에 대한 산출 /2TRACK의 관광객 총량 추정에 대한 지표 생산 = 거주지, 성, 연령별

󰀻

데이터 검증

- 기존의 실측값을 기준으로 도출된 데이터의 비교 검증

(17)

x

나. 카드 빅데이터

1) 카드 빅데이터

○ 신용카드 데이터는 국내 점유율 1위인 S사의 데이터로서 총 누적 거 래건수 1.6조건 규모로 거래건수 기준으로만 100테라바이트 (Terabyte)가 넘는 데이터가 생성되고 있음

○ 총 회원수 규모는 약 2,200만명 수준으로 전체 경제활동 인구의 대 부분을 차지하며, 소비 활동이 활발하여 소비 트렌드 측정의 척도가 되는 개인 신용카드회원 수가 약 1,200만명으로 나타나고 있음

○ 이용금액 기준으로 국내 신용카드 시장점유율(market share)의 약 23%로 가장 높은 수준을 보이며, 대부분의 타 신용카드사들에서 보 이는 특정 연령대 혹은 지역에의 회원에 집중되어 있는 것과 달리 S 사 데이터의 차별되는 점은 지역별/연령별/성별/소득별/업종별 균 질한 카드거래정보 및 고객정보를 보유하고 있음

2) 카드 빅데이터의 종류

○ 카드 빅데이터는 집계데이터의 방식은 사용목적에 따라 내국인과 외 국인으로 구분하고 있음

○ 내국인의 경우 S사의 데이터만을 사용하여 집계하고 국내 전체 카드 지출액 총량을 파악하기 위해서 한국은행에서 매월 발표하고 있는 지역별, 업종별 지급결제 총액을 이용하여 추정하고 있음. 외국인의 경우 해외에서 발행한 신용카드로 국내에서 소비하는 외국인의 카 드 소비 데이터를 매입하여 사용하고 있음

(18)

xi 3) 카드 빅데이터 설계 방안

① 신용카드 데이터의 대표성 검증

- 대표성에 대한 검증(센서스 기준으로 지역별, 성별 분포도 파악) - S사 신용카드 회원을 인구센서스의 매칭하기 위해 거주지 정보 매칭

󰀻

② 데이터 집계를 위한 표본설계

- 외국인 신용카드 데이터 전체 사용(별도의 표본추출 없음) - 센서스 집계구를 통한 층화계통추출방식

󰀻

지출액 도출

- 외국인 신용카드 지출액 : S사 매입 전체 데이터 사용

- 내국인 신용카드 지출액 : 한국은행의 지역별, 업종별 지급결제액 총액을 이용하여 추정

4. 관광분야 빅데이터 실증분석

가. 빅데이터 설계 기반한 실증분석

1) 통신 빅데이터 실증분석

○ 본 연구에서는 앞서 설계된 빅데이터 활용방법을 바탕으로 국·내외 관광객의 OD를 파악하기 위해 다양한 연구를 시도하였음

- 첫째, 데이터의 객관성 및 정확성을 확보하기 위해 통신 빅데이터 와 제주도 입도객 통계를 일(日)단위로 비교

- 둘째, 검증된 데이터를 바탕으로 7월(月) 기준 관광객의 OD별 이 동총량(숙박+당일) 분석

- 셋째, 이동총량 데이터를 기준으로 숙박객의 중복을 제거하고 지 역별 관광인구(숙박+당일)을 도출

(19)

xii

- 넷째, 외국인 로밍데이터를 바탕으로 국적별×시도별 OD간 이동량 을 도출

- 다섯째, 내국인 시도별 관광인구를 바탕으로 시도간 관광인구지수 를 도출하여 지역간 관광경쟁력의 비교 가능한 지표를 제시

○ 해당 연구는 통신 빅데이터를 기반으로 거주지(Origin)에서 방문지 (Destination)로의 이동을 추정하였으며, 관광차원의 접근을 위해 일상적 활동인 통근통학을 제외한 통신인구 이동 중 교통연구원에 서 제공하는 시군구간 이동목적별 비율에서 업무, 여가오락친지방 문, 쇼핑에 대한 목적별 비율을 반영하여 산출함

○ 국내 여행 총량 산출

- 통신 빅데이터를 활용하여 국민 국내여행 총량을 추정할 수 있는 핵심지표인 국내여행 참가자수, 참가횟수, 이동총량에 대한 숙박 여행과 당일여행에 대한 결과값을 도출하였음

2) 카드 빅데이터의 활용

○ 신용카드 빅데이터를 활용하여 내국인 및 외국인의 OD 별 지출액을 산출하였음

○ 내국인 OD별 지출액 산출방식은 고객 검증단계를 거쳐 OD별 지출 액을 산정하였음. 이는 본 연구에서 처음 시도되는 분석임

○ 지출액 산출범위는 관광사업 특수분류와 신용카드 업종분류를 매칭 한 관광분야의 지출액으로 한정하였음. 또한 특수분류에 따라 핵심 영역과 비핵심(상호의존 영역, 부분 영역)으로 구분하여 지출액을 산출하였음

○ 신용카드 업종별 지출액 산출은 내국인, 외국인 공통적으로 전체 매 출액, 지역별, 일자별, 요일별, 월별 등 다양한 변수에 따라 산출 가 능하며, 이에 따른 분야별 신용카드 지출액 분석이 가능함

(20)

xiii 나. 통신 및 카드 데이터 매칭 방안

○ 대부분의 빅데이터 분석에 있어서 하나의 융합적 결과를 도출하기 위해서 사용하는 데이터 파일은 분야별, 업종별 등 다양한 데이터 파일을 사용하게 됨. 특히 융합적 결과를 도출하는 빅데이터 분석 분야에서는 모든 변수를 포함하는 데이터 파일은 거의 존재하지 않 는다고 할 수 있음

○ 매칭을 통한 방법은 별도의 조사를 통해서 데이터를 얻는 것보다 시 간과 비용을 절약할 수 있고, 검증된 다른 데이터를 활용하는 관점 에서 신뢰성을 더욱 높일 수 있는 방안임

○ 매칭방안으로는 개인정보보호법, 법인 비밀유지 등의 환경적 제약 에 따라 주관적 판단에 의한 자료 매칭인 판단매칭을 시도하였음

5. 결론 및 제언

○ 본 연구에서는 기존 조사통계의 시의성 및 대표성 문제를 해결하고, 신뢰성 있는 관광통계를 생산하기 위해 통신사 및 신용카드사가 보 유하고 있는 이동량 데이터와 지출액 데이터를 검토함. 또한 OD 이 동량과 관광분야 업종 및 지역별 지출액의 실제값을 비교하여 두 데 이터 구조의 일관성을 실증분석 하였음

○ 결과적으로 다음과 같은 4가지 관점에서 본 연구의 의의를 둘 수 있음.

- 첫째, 본 연구에서는 관광 빅데이터를 활용해 시의성을 확보하였음 - 둘째, 표본설계를 정교화하고 모수추정을 위한 보정방안을 제시함 으로써, 향후 장기적으로 객관적 품질검증이 가능할 수 있는 방안 을 마련하였음

(21)

xiv

- 셋째, 본 연구는 관광분야 OD 이동량과 지출액 구조를 비교분석함 으로 관광 빅데이터의 통합 활용방안을 마련하였음

- 넷째, 객관성과 신뢰성을 인정받을 수 있는 승인통계의 가능성을 제고하였음

○ 단, 본 연구에서 빅데이터 간 매칭 문제, 타산업 간 연계부재 문제, 법 및 제도적 문제가 연구의 한계로 들어남에 따라 다음과 같은 정 책적 제언을 제시하였음

- 빅데이터 간 매칭 문제 해결방안 필요 - 타산업 간 연계 서비스 구축

- 법적, 조직적 및 제도적 개선

- 빅데이터 활용한 예측시스템 필요 및 기준점 제시 - 업종분류 한계 및 개선

(22)

xv 제1절 연구 배경 및 목적 ··· 3

1. 연구 배경 ··· 3 2. 연구 목적 ··· 4 3. 연구 수행절차 ··· 7 제2절 연구 범위 및 방법 ··· 8 1. 연구 범위 ··· 8 2. 연구 방법 ··· 9 제3절 연구 기대효과 ··· 12

제2장 관광분야 빅데이터 현황 및 사례분석 ··· 13 제1절 빅데이터 관련 현황 및 정책 ··· 15 1. 빅데이터 현황 및 정책 ··· 15 2. 관광분야 빅데이터 현황 및 정책 ··· 28 제2절 관광분야 빅데이터 사례분석 ··· 30 1. 통신과 카드 데이터를 활용한 사례분석 ··· 30 2. 시사점 ··· 40 제3절 관광분야 빅데이터 활용의 장․단점 검토 ··· 42 1. 관광분야 빅데이터 활용의 장점 ··· 42 2. 관광분야 빅데이터 활용의 단점 ··· 44

제3장 관광분야 빅데이터 활용체계 ··· 49 제1절 통신 빅데이터 ··· 51 1. 통신 데이터 ··· 51 2. 기존 통신 데이터 한계 및 문제점 ··· 65 3. 통신 빅데이터 설계 방안 ··· 69 제2절 카드 빅데이터 ··· 83 1. 카드 데이터 ··· 83 2. 기존 카드 데이터 한계 및 문제점 ··· 102 3. 카드 빅데이터 설계 방안 ··· 108

(23)

xvi xvi

제4장 관광분야 빅데이터 실증분석 ··· 113 제1절 빅데이터 설계에 기반한 실증분석 ··· 115 1. 통신 데이터 실증분석 ··· 115 2. 카드 빅데이터의 활용 ··· 128 제2절 통신 및 카드 데이터 매칭 ··· 136 1. 통신 및 카드 데이터 매칭(Matching) ··· 136

제5장 결론 및 제언 ··· 143

제1절 결론 ··· 145 제2절 제언 ··· 147 1. 빅데이터 간 매칭 문제 해결방안 필요 ··· 147 2. 타산업 간 연계 서비스 구축 ··· 149 3. 법적, 조직적 및 제도적 개선 ··· 151 4. 빅데이터 활용한 예측시스템 필요 및 기준점 제시 ··· 154 5. 업종분류 한계 및 개선 ··· 155 6. 통계작성승인제도 활용을 통한 검증 제안 ··· 156

참고문헌 ··· 157 ABSTRACT ··· 161

부록 ··· 163 1. 관광특수분류와 신용카드 업종 분류 매칭 표 ··· 165 2. 국가승인통계 추진방안 ··· 175

(24)

xvii 표 목차

<표 1-1> 관광 주요 통계조사 ··· 3

<표 1-2> 내용적 범위 ··· 9

<표 1-3> 문화·관광 분야 빅데이터 활용사례 검토 ··· 10

<표 2-1> 빅데이터 특성 ··· 19

<표 2-2> 빅데이터 역할 ··· 20

<표 2-3> 빅데이터 분석방법 ··· 21

<표 2-4> 빅데이터 사회경제적 가치 ··· 24

<표 2-5> 빅데이터 마스터플랜(국가정보화전략위원회) ··· 26

<표 2-6> 주요 활용데이터 ··· 32

<표 2-7> 주요 활용데이터 ··· 34

<표 2-8> 주요 활용데이터 ··· 36

<표 2-9> 주요 활용데이터 ··· 38

<표 2-10> 관광분야 빅데이터 활용사례 ··· 40

<표 2-11> 관광분야 빅데이터 활용의 장점 ··· 42

<표 2-12> 관광분야 빅데이터 활용의 단점 및 향후 발전방향 ··· 45

<표 3-1> 통신 빅데이터 정제 및 분석 툴 ··· 52

<표 3-2> 테이블 정의서: 시군구단위의 일별 집계데이터 ··· 56

<표 3-3> 2015 시도별 통근·통학으로 본 주간인구지수 ··· 57

<표 3-4> 2017년 5월 29일 18시 서울시 통신 빅데이터 OD 일부 ··· 57

<표 3-5> (내국인) 테이블 정의서: OD 동선 데이터 ··· 58

<표 3-6> 2016년 외국인 관광실태조사 기준 16개국 ··· 60

<표 3-7> (외국인) 테이블 정의서: OD 동선 데이터 ··· 61

<표 3-8> 요약 DB 테이블의 크기 ··· 62

<표 3-9> 외국인 요약 DB 테이블의 크기 ··· 63

<표 3-10> 내국인의 통신데이터 집계 기준 ··· 63

<표 3-11> 외국인 로밍 데이터를 이용한 테이블 정의서1 ··· 64

<표 3-12> 외국인 로밍 데이터를 이용한 테이블 정의서2 ··· 64

<표 3-13> 본 연구에서 사용하고 있는 통신 데이터 ··· 64

<표 3-14> 목적별 통행량 자료 ··· 66

<표 3-15> 2014 교통수요 분석 기초자료 ··· 66

<표 3-16> 통신 빅데이터 설계 방안 ··· 69

(25)

xviii xviii

<표 3-17> 전국 성, 연령비, 구성비 ··· 70

<표 3-18> 서귀포시 성, 연령비, 구성비 ··· 71

<표 3-19> 제주시 성, 연령비, 구성비 ··· 72

<표 3-20> 내국인 표본설계 ··· 73

<표 3-21> 외국인 표본설계 ··· 73

<표 3-22> 표본설계의 문제점 및 보정방안 ··· 74

<표 3-23> 실거주지 추정 수행방법 및 방안 ··· 76

<표 3-24> 센서스 집계구를 이용한 표본 추출 및 모수 추정 방법 ··· 77

<표 3-25> 샘플링의 한계, 문제점, 보정방안 ··· 79

<표 3-26> 관광 주요지표 ··· 79

<표 3-27> 시도별 표본규모 ··· 80

<표 3-28> 부문별 추정 모수 예시 ··· 81

<표 3-29> 카드 빅데이터 정제 및 분석 툴 ··· 84

<표 3-30> 카드 데이터 요약 ··· 84

<표 3-31> 테이블 정의서: 내국인 신용카드 지출액 데이터 ··· 88

<표 3-32> 내국인 카드 데이터 구조 ··· 89

<표 3-33> 테이블 정의서: 외국인 신용카드 지출액 데이터 ··· 90

<표 3-34> 외국인 카드 데이터 구조 ··· 91

<표 3-35> 내국인 신용카드 데이터의 대분류 및 중분류 ··· 92

<표 3-36> 외국인 카드 데이터 분야 ··· 92

<표 3-37> 업종분류표 ··· 92

<표 3-38> 카드 데이터 자료출처 및 보정방법 ··· 101

<표 3-39> 「관광진흥법」상 관광산업 분류 ··· 103

<표 3-40> 카드 데이터 한계, 문제점, 보정방안 ··· 104

<표 3-41> 신용카드 업종분류의 관광산업 특수분류 매칭 ··· 107

<표 3-42> 카드 빅데이터 설계 방안 ··· 108

<표 3-43> 카드데이터 고객비율 ··· 109

<표 3-44> 내국인 표본설계 ··· 110

<표 3-45> 시도별 표본규모 ··· 110

<표 3-46> 외국인 표본설계 ··· 111

<표 4-1> 제주도 OD 시산표와 입도통계 비교(2017.7월) ··· 116

<표 4-2> 이동총량(일)_전체인구(2017.7월 합계) ··· 120

<표 4-3> 이동총량(일)_당일인구(2017.7월 합계) ··· 121

(26)

xix

<표 4-4> 이동총량(일)_숙박인구(2017.7월 합계) ··· 122

<표 4-5> 관광인구 전체(2017.7월 합계) ··· 123

<표 4-6> 관광인구_당일(2017.7월 합계) ··· 124

<표 4-7> 관광인구_숙박(2017.7월 합계) ··· 125

<표 4-8> 시도별 관광인구 및 관광지수(2017.7월 일평균 기준) ··· 126

<표 4-9> 외국인 국적별 시도별 OD Matrix(2017.7월 월합) ··· 127

<표 4-10> 내국인 신용카드 OD별 지출액 산출 ··· 128

<표 4-11> 내국인 관광분야 신용카드 OD 지출액 산출 예시 ··· 130

<표 4-12> 내국인 관광분야 핵심영역 신용카드 OD 지출액 산출 예시 ··· 131

<표 4-13> 내국인 관광분야 비핵심영역 신용카드 OD 지출액 산출 예시 ··· 132

<표 4-14> 외국인 신용카드 OD 지출액 산출 예시 ··· 133

<표 4-15> 업종 분류 세분화 ··· 134

<표 4-16> 업종별 지출액 동기간 분석 예시 ··· 134

<표 4-17> 서울지역 업종별 요일별 지출액 분석 예시 ··· 135

<표 4-18> 내국인 통신, 카드 비율 차이분석 ··· 139

<표 4-19> 외국인 통신, 카드 비율 차이분석 ··· 140

<표 4-20> 국적별 통신, 카드 비율 차이분석 ··· 141

(27)

xx xx

그림 목차

[그림 1-1] 관광 빅데이터 생산 프로세스 ··· 4 [그림 1-2] 연구 목적 ··· 6 [그림 1-3] 연구 흐름도 ··· 7 [그림 1-4] 연구 범위 ··· 9 [그림 1-5] 연구 기대효과 ··· 12 [그림 2-1] 빅데이터 발전양상 ··· 16 [그림 2-2] 빅데이터 시대 도래 ··· 17 [그림 2-3] 빅데이터 새로운 가치 창출 ··· 25 [그림 2-4] 빅데이터 현황정보 공유 ··· 27 [그림 2-5] 기간 중 시도별 주민등록 인구 대비 월평균 내국인

제주 관광객 구성 비율(2014년 1월~6월) ··· 30 [그림 2-6] 보령머드축제 유입인구 밀도 ··· 37 [그림 3-1] 통신 빅데이터의 개념 정의 ··· 54 [그림 3-2] 2017년 5월 29일 18시 서울시 통신 빅데이터 OD 일부 ··· 58 [그림 3-3] 지역별 OD 동선 데이터를 통한 분석 사례1 ··· 59 [그림 3-4] 지역별 OD 동선 데이터를 통한 분석 사례2 ··· 59 [그림 3-5] 관광목적 방문비율 적용 결과_교통연구원의 목적별 OD의 재편집 ·· 66 [그림 3-6] 전국 성, 연령비, 구성비 ··· 70 [그림 3-7] 시군구별 성 및 연령 특성에 따른 점유율 ··· 71 [그림 3-8] 서귀포시 성, 연령비, 구성비 ··· 71 [그림 3-9] 제주시 성, 연령비, 구성비 ··· 72 [그림 3-10] 집계구를 이용한 표본추출 : 표본으로 선정된 지역 색채화 ··· 77 [그림 3-11] 카드데이터 검증 및 품질관리 체계 ··· 85 [그림 3-12] 외국인 카드데이터 검증 및 품질관리 체계 ··· 87 [그림 3-13] 외국인 신용카드 지출액 집계방식 ··· 102 [그림 3-14] 업종분류 개선방법 ··· 105 [그림 3-15] 전자상거래 및 세부 업종별 매출현황 ··· 106 [그림 4-1] 2017년 7월 기준 이동총량 ··· 118 [그림 4-2] 2017년 7월 기준 참가횟수(관광인구) ··· 118 [그림 4-3] 2017년 7월 기준 관광인구지수 ··· 119 [그림 4-4] 2017년 7월 외국인 국적별 이동총량 ··· 119 [그림 4-5] 2017년 7월 외국인 지역별 이동총량 ··· 119

(28)

서 론

(29)
(30)

제1절

연구 배경 및 목적

1. 연구 배경

관광분야에서는 내·외국인 관광수요의 지속적 증가와 더불어 관광객 들의 행태파악을 위한 다양한 조사 및 연구가 수행되고 있으나 시의성 있는 조사결과의 확보가 어려운 실정이다. 관광객의 행태를 파악하기 위 해 「국민여행실태조사」와 「외래관광객실태조사」 등 다양한 사업을 수행 하고 있으나 조사통계의 특성상 결과에 대한 확보가 늦어지고 있으며 조 사방식에 따른 정확한 이동량 추정에 대한 문제로 인해 정책 및 마케팅 수립의 기초자료로 활용하기에는 많은 검토가 필요한 실정이다.

통계명 주요지표 승인

번호 수행기관 작성

형태 생산 주기 1 국민여행

실태조사

국내여행 참가자수, 참가횟수, 총비용,

이동총량 314001 한국문화관광연구원 조사 1년

2 외래관광객 실태조사

외래관광객 재방문율, 한국선택 시 고려 요인, 체재기간, 한국 여행 시 방문지, 1인 평균 지출 경비, 1일 평균 지출 경비, 한국여행에 대한 전반적 만족도

314002 한국문화관광연구원 조사 1년

<표 1-1> 관광 주요 통계조사

최근 제4차 산업혁명이 새로운 화두로 떠오르면서 관광분야에서도 빅데이터를 활용한 효율적 정책수립의 방안 마련이 다양하게 시도되고 있다. 그러나 빅데이터 활용에는 객관성, 신뢰성 확보라는 기본적인 문제 가 내포되어 있기 때문에 데이터 사용에 있어서 다양한 변수를 고려해야 한다. 최근 특정지역, 축제 등의 이동량 추정을 위해 통신데이터 등이 활용되고 있으나, 객관적인 품질 검증은 미흡한 실정이며 정기적인 내·외

(31)

국인의 이동량 및 지출액 관련된 통계의 생산이 어렵기 때문에 지자체 및 관련 기관 등이 산발적으로 빅데이터 사업을 수행하는 실정이다.

또한 통신, 카드, SNS 등 다양한 빅데이터를 이용한 결과를 도출하여 사용하다 보니 데이터를 연계한 일관성 있는 해석이 어려운 실정이다.

이에 관광분야의 기존 조사통계에 대한 보완과 더불어 시의성과 객관 성을 갖춘 통계를 생산하기 위한 빅데이터의 종합적 활용 및 검증에 대한 연구가 필요하다.

기존 관광 조사통계의

시의성 문제 대두 시의성과 객관성을 바탕으로 한

정책적 활용 통계 필요 통신, 카드 등 빅데이터 활용성 검토

관광분야

빅데이터가이드라인 구축

객관성 및 신뢰성 확보방안 마련 (표본설계, 보정)

◀ 시의성은 있으나 객관성 미흡

다양한 빅데이터의

연계활용방안 마련 통계청의 승인통계체계 마련 관광분야 빅데이터 전문기관 위상확보

[그림 1-1] 관광 빅데이터 생산 프로세스

2. 연구 목적

가. 시의성 있는 관광 빅데이터 생산체계 마련

효율적인 관광분야 정책수립을 위해서는 통계의 시의성을 확보하기 위한 방안 마련이 필요하다. 시의성 문제가 제기되고 있는 「국민여행실태 조사」의 월별 이동총량 생산을 위해서는 통신데이터를 활용한 내국인 관 광객의 이동량 통계 생산방안 마련이 필요하다. 또한 조사지점 등에 따라 방문율의 차이가 발생되는 「외래관광객실태조사」의 문제를 해결하기 위 해서도 로밍데이터를 활용한 월별×국적별×지역별 이동량 통계의 정기

(32)

적인 생산방안 마련이 필요하다.

이와 더불어 메르스(MERS-CoV), 싸드(THAAD), 여행주간 등 외생 요인에 따라 탄력적으로 변화하는 국내외 수요에 대한 시의성 있는 정책 통계 생산 방안 마련 및 관광지방문객보고통계에 포함되어 있는 주요지점 별 이동량 통계생산을 위해서도 빅데이터의 활용은 매우 필요하다.

나. 대표성 있는 관광 빅데이터 구축방안 마련

현재 통신, 카드 등에서 생산되는 빅데이터는 시의성 부분은 매우 높 게 평가되나, 분석된 결과에 대한 객관성은 여전히 문제로 남아 있다.

통신 데이터의 경우 인구구조를 반영하지 않은 가입자 정보를 바탕으 로 이동량을 추정하여 활용하기 때문에 표본에 대한 대표성이 확보되지 않았으며, 카드 데이터 또한 특정 신용카드사의 이용객 정보를 바탕으로 전체 매출액을 추정하기 때문에 모수 추정에 있어 상당한 오차가 발생될 여지가 높다.

본 연구에서는 통계청의 인구센서스 집계구를 기준으로 통신가입자의 거주지와 청구지의 주소를 매칭하여 인구구조에 맞는 지역별×성별×연 령대별 패널을 설정하고 이동량에 대한 보정방안 모수 추정방식을 제안함 으로써 해당 통계의 표본 대표성에 대한 객관성 문제를 해결하였다.

카드 데이터의 대표성 확보를 위해서는 통신 데이터에서 설계된 인구 구조별 집계구의 표본설계 방식을 적용하여 패널을 설정하고 여신금융협 회와 한국은행 자료를 기준으로 한 가중치 보정 및 모수 추정 방안을 제시 함으로써 통계 활용에 필요한 객관성을 확보하였다.

다. 관광 빅데이터의 통합 활용방안 마련

현재 관광 빅데이터는 통신 데이터, 카드 데이터, 소셜 데이터 분석 등 각 분야의 필요성에 맞춰 생산되고 있다. 통신과 카드 데이터의 경우

(33)

이동량과 지출액 구조이기 때문에 데이터의 매핑(Mapping) 결과가 확보 될 경우 같은 관점에서 데이터의 해석 및 활용이 가능하다.

이에 본 연구에서는 통신데이터를 활용한 관광차원의 OD 이동량과 카드 데이터를 활용한 관광분야 세부업종별 지출액 구조를 파악하고 통합 적 활용방안을 제시하였다. 데이터 매핑은 통신 데이터의 지역별 관광 이동총량과 카드 데이터의 지역별 관광 지출액을 비교분석하여 결과활용 에 대한 일관성을 검증하였다.

라. 통계청 승인통계로서의 기반 구축방안 마련

앞서 연구된 내용을 바탕으로 객관성과 신뢰성을 공식적으로 인정받 을 수 있는 통계청 승인통계 지정방안을 검토하였다.

사전에 빅데이터의 승인통계 관련 주요 사례를 검토하고 빅데이터 통 계의 구조화 및 분석 방식을 체계적으로 마련하여 승인통계 요건에 부합 하는 표본설계 및 활용방안 등에 대한 생산기반을 구축하였다.

[그림 1-2] 연구 목적

(34)

3. 연구 수행절차

본 연구는 크게 Ⅰ.서론 - Ⅱ.관광분야 빅데이터 현황 및 사례분석 - Ⅲ.관광분야 빅데이터 활용체계 - Ⅳ.관광분야 빅데이터 실증분석 -

Ⅴ.결론 및 제언, 총 5단계로 구분하여 추진하였으며, 본 연구의 흐름도는 다음 [그림 1-3]와 같다.

[그림 1-3] 연구 흐름도

(35)

제2절

연구 범위 및 방법

1. 연구 범위

가. 공간적 범위

- 전국 광역 단위

- 내·외국인의 거주지(국적)와 방문지 베이스의 공간적 이동경로 검토 - 내·외국인의 거주지(국적)와 방문지 베이스의 업종별 지출구조 검토

나. 시간적 범위

- 빅데이터 검증을 위한 특정 월(月) 대한 시간적 범위 설정 - 2017년 7월 기준 월별 통신 데이터의 OD 통계 생산

- 2017년 7월 기준 월별 카드 데이터의 OD 지출액 통계 생산

다. 내용적 범위

- 통신 데이터를 활용한 내·외국인의 OD통계 생산방안 연구 - 카드 데이터를 활용한 내·외국인의 지출액 생산방안 연구 - 통신×카드 데이터 연계방안 연구

- 객관성 입증을 위한 측정값과 실제값 비교 연구 - 관련분야 지수개발 연구

(36)

구분 내용

시간적 범위 2017년 7월 기준

공간적 범위 광역단위별(17개)

내용적 범위

통신 데이터 이동량 추정 카드 데이터 지출액 추정

데이터 연계 활용 활용지수 개발

<표 1-2> 내용적 범위

[그림 1-4] 연구 범위

2. 연구 방법

□ 관광분야 문헌 및 사례 검토

현재 관광분야에서 생산되고 있는 통신, 카드 빅데이터 활용사례를 종합적으로 검토하고 시사점을 도출한다.

기존에 관광분야에서 활용된 빅데이터 분석의 종합적인 현황 및 문제 점을 파악하고 관광 차원의 빅데이터의 활용 및 차별화된 생산방안을 도 출한다.

(37)

기관 사업명 내용

한국관광공사 2013년 문화관광축제를 중심으로

지역의 축제와 관련된 관광행태와 특성을 파악하 고 인구 유입효과 및 경제효과를 추정할 수 있는 실증적 데이터 도출

해운대구청

SNS로 본 해운대 방문객 Voice 분석 해운대 방문객의 선호도 및 불편사항을 분석하여 방문객에게 맞춤형 서비스 제공

해수욕장 인파 집계

휴대폰 가입자 위치 확인을 통한 방문객수 집계방 법으로 성별, 연령, 방문시간대, 요일별 등의 방문 객 분석

한국문화관광 연구원

외국인 신용카드 국내지출액 분석

외국인의 신용카드 국가별 업종별 지출액 현황을 파악함으로써 외국인의 지출규모 및 관련 산업 파급효과 추정 등에 필요한 기초자료 제공

‘문화가 있는 날’ 문화관련 업종 의 매출액 및 이용액 분석

‘문화가 있는 날’ 문화관련 업종의 매출액을 파악함으로써 정부정책의 효과 및 관련 산업의 파급효과를 추정하는 데 활용할 수 있는 기초자료

전라북도 전주한옥마을 빅데이터 관광정책

전주한옥마을을 찾는 관광객의 실제규모와 소비 행태 및 선호도를 분석하여 관광정책의 실효성 향상

강서구청 빅데이터 활용 의료관광활성화 사업

국제공항이 입지해 있다는 특성을 살려 의료관광 활성화에 앞장서고 있음. 병원과 약국 환자들을 유치하기 위해 건강보험심사평가원의 빅데이터를 적극 활용하고 있음

SK 플래닛 T맵의 빅데이터로 본 여름 인기 휴 가지

스마트폰 길안내 서비스인 T맵의 빅데이터를 분석 하여 여행, 관광, 쇼핑 등의 카테고리를 분석 에버랜드/

롯데월드 날씨를 활용한 빅데이터

비와 눈이 와도 놀이시설과 공연 모두 가동되기 때문 에 눈과 비가 올 경우에 고객유치를 위한 이벤트 등의 마케팅 활용

지적공사 공간정보연구원

빅데이터 기반의 스마트관광정보 구축

제천시를 공간범위로 설정한 공간정보와 이동통 신, SNS, 신용카드 자료를 결합하여 관광과 관련된 다양한 정보 제공방안 구축

제주특별자치도 신용카드 승인데이터 활용 관광정책 개발

관광 트렌드의 변화와 소비패턴을 체계적으로 분 석하여 제주관광정책 개발

미래창조부 빅데이터 분석 기반 외국인 관광산업 지원

내·외국인 관광소비패턴과 중국인 관광 트렌드를 분석하여 개인 맞춤형 관광 정보 제공, 추가 관광지 개발, 관광지 추천 정보 제공

<표 1-3> 문화·관광 분야 빅데이터 활용사례 검토

자료: 박근화(2016), 관광 분야에서의 빅데이터 활용 성공사례와 고려사항, 󰡔한국관광정책󰡕 64, 한국문화관광연구원.

(38)

□ 관광 차원의 연구설계 및 실증분석

통신, 카드 등 OD 및 지출액 통계 생산 및 활용에 대한 객관성 확보를 위한 데이터 보정방안을 제시하고 보정값을 적용한 실증분석을 실시한 다. 현재 연구원과 MOU를 체결하고 있는 SK, 신한카드 등에서 제공되는 빅데이터를 바탕으로 실제 데이터 실증분석을 통해 월별 내·외국인 이동 량 및 지출액에 대한 결과값을 도출한다. 도출된 값을 실제값과 비교분석 함으로써 데이터 활용의 객관성을 검증한다.

□ 공동연구진 활용 및 전문가 자문회의

빅데이터의 객관성, 신뢰성의 문제를 해결하기 위해 데이터의 설계, 가중치 등의 보정방안 및 연계·활용 방안 등에 대한 전문가 협의 및 자문회 의 결과를 연구에 반영한다.

또한 관광 빅데이터의 연구원 차원의 국가승인통계 활용을 위한 생산 단계에서부터 국가승인통계 지정방안을 검토하여 연구에 반영한다.

(39)

제3절

연구 기대효과

□ 시의성 있고 정책적으로 활용 가능한 통계 생산 체계 구축

기존 조사통계의 시의성 문제를 해결하고 특정 시점(메르스 등)에 즉 각적으로 필요한 관광통계 생산방안을 마련하여 정책적으로 시의성 있게 활용할 수 있다.

□ 데이터의 신뢰성과 객관성 확보

기존 빅데이터 활용 시 문제제기 되고 있는 대표성(표본설계 등) 부분 에 대한 종합검토 및 보정방안 연구를 통해 해당 데이터의 객관성과 신뢰 성을 확보할 수 있다.

□ 실증분석을 통한 활용방안 극대화

단순히 빅데이터 생산에 대한 이론적 언급을 넘어 데이터 실증분석을 통해 실제값과 비교 검증함으로써 데이터의 다차원적 활용방안을 제시할 수 있다.

[그림 1-5] 연구 기대효과

(40)

관광분야 빅데이터 현황 및

사례분석

(41)
(42)

제1절

빅데이터 관련 현황 및 정책

본 절에서는 빅데이터가 등장하게 된 배경과 개념을 살펴본 후, 정책 현황을 중점적으로 알아보고자 한다. 특히 빅데이터의 개념, 특성, 역할, 중요성, 가치, 정책 등에 관한 일반적이고 포괄적인 내용 뿐 아니라, 관광 분야에서 빅데이터를 어떻게 정의하고 필요로 하고 있는지, 정책은 어떤 지도 함께 확인하고자 한다.

1. 빅데이터 현황 및 정책

가. 빅데이터 배경

인터넷 이용환경의 발전, 스마트 단말기의 확산, SNS의 활성화 등으 로 개인의 정보생산이 촉진되면서 데이터량이 폭발적으로 증가․가속화 되었다. 또한 데이터 저장 매체의 가격과 통신비용이 급격히 하락되면서 대량의 데이터 저장과 유통이 증가하게 되었다. 한국콘텐츠진흥원(2014) 은 디지털 기술 및 인터넷 발달, 스마트폰과 디지털 카메라와 같은 대량의 정보를 생산할 수 있는 기기가 보급되었고, 그에 따라 신용카드와 온라인 상거래가 증가하고 SNS 이용이 확대되어 데이터 양이 기하급수적으로 증가하였다고 밝혔다. 2011년 기준 정보의 총량은 1ZB1)를 넘어선 것으로 추정되며, 데이터의 증가량은 2년마다 2배씩 증가할 것으로 전망하였다 (한국콘텐츠진흥원, 2014). 2017년 빅데이터의 세계 시장규모는 534억 달러, 국내 시장규모는 2020년에 9억 달러에 이를 것으로 전망되어 향후 지속적 성장이 예상된다(범지인․최성종, 2013).

1) 1ZB(제타바이트) = 1012GB(기가바이트) = 1021Byte(바이트).

(43)

자료 : 한국정보화진흥원(2011). 신 가치창출 엔진, 빅데이터의 새로운 가능성과 대응전략 인용.

[그림 2-1] 빅데이터 발전양상

또한 컴퓨팅 기술의 성과로 데이터를 수집하고 저장하여 관리․분석 하는 기술이 발전하게 되었다. 한국콘텐츠진흥원(2014)은 과거에도 대용 량 데이터로부터 유용한 정보를 수집 및 저장하는 기술은 있었지만 저장 공간의 제약이 있었다고 지적하였다. 그리고 한국콘텐츠진흥원(2014)은 컴퓨팅 기술이 발전됨에 따라 데이터 저장 매체의 발달이 가능해졌고, 통신기술의 발달에 따른 연결이 기하급수적으로 증가함에 따라 데이터 분산 및 처리 분석의 기술이 발달되어 분석과 보관의 제약을 극복하게 되었다고 말하였다.

정보지식 사회에서는 정보가 중요한 자산으로 대규모 데이터에서 의 미를 찾고 지식을 생산해내는 능력이 경쟁력으로 부각되었다. 사용자 참 여와 정보공유가 늘어날수록 지식의 가공이 중요해지며 데이터 분석 능력 이 경쟁자들과 가장 큰 차별화 요소로 부상되었다(한국정보화진흥원,

(44)

2011). 또한 단지 정보지식 공유 및 생산 뿐 아니라 개인적 감정, 경험에서 부터 사회적 논의가 되는 문제까지 그 범위가 확대되어 전 사회분야에서 소셜 데이터를 포함한 빅데이터가 활용되게 되었다.

[그림 2-2] 빅데이터 시대 도래

이를 정리․요약하면 위 [그림 2-2]와 같이 도식화할 수 있다. 즉 스마 트 디바이스 보급, 데이터 관리․분석 기술의 발전, 사회적 인식 제고로 빅데이터의 중요성이 부각되고 급격히 성장하게 되었다. 과거의 데이터가 빅데이터로 변화함에 따라 정보사회의 패러다임이 변화하게 된 것이다.

나. 빅데이터 개념

1) 빅데이터의 개념

빅데이터에 대한 이슈를 선구적으로 제기한 McKinsey(2011)에 따르 면 빅데이터란 “일반적인 데이터베이스 체계가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터”이다. 보고서에서 빅데이터는 데이 터의 양, 생성 주기, 수치 데이터 뿐 아니라 문자와 같은 비정형 데이터를 포괄한 형식 등 과거 데이터에 비해 규모가 크고, 형태가 다양하여 기존의 방법으로는 수집, 저장, 검색, 분석이 어려운 방대한 크기의 데이터를

(45)

의미한다고 정의하였다(한국콘텐츠진흥원, 2014).

Gartner(2012a)는 빅데이터를 “향상된 시사점(Inght2))과 더 나은 의 사결정을 위해 사용되는 비용 효율이 높고 혁신적이며 대용량, 고속 및 다양성의 특성을 가진 정보자산(배동민․박현수․오기환, 2013)”이라고 빅 데이터 특성에 기반을 두어 정의하였다.

인터넷데이터센터(IDC)(2012)는 빅데이터를 “대규모의 다양한 데이 터로부터 수집, 검색, 분석을 신속하게 처리하여 경제적 가치발굴을 수행 하도록 설계된 차세대 기술 및 아키텍처”라고 정의하고 있다. 이는 McKinsey(2011)의 개념보다 좀 더 확대․해석된 것으로 업무수행과 효율 성에 초점을 맞춘 것으로 볼 수 있다(윤홍근, 2013).

삼성경제연구소(2012)에 따르면 빅데이터는 “단지 거대하다기보다 형 식이 다양하고 순환속도가 매우 빨라서 기존방식으로는 관리․분석이 어려 운 데이터”를 의미한다. 대규모 데이터와 관계된 기술 및 도구 즉, 수집, 저장, 검색, 공유, 분석, 시각화 등도 빅데이터의 범주에 포함된다고 제시 하였다(신동일, 2014).

국가정보화전략위원회(2011)는 빅데이터를 “대용량 데이터를 활용·분 석하여 가치 있는 정보를 추출하고, 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술”을 뜻한다고 정의하였다.

방송통신위원회(2012)의 경우 빅데이터의 개념을 “데이터의 형식이 다양하고 유통속도가 빨라서 기존의 방식으로는 관리·분석이 어려운 대 용량의 데이터”라고 기술하였다.

이에 더 나아가 행정자치부(2014)에서는 “빅데이터는 다양한 형식의 대용량 데이터를 의미, 최근에는 데이터 분석을 통해 새로운 가치를 만들 어내는 것”으로 빅데이터의 의미를 더욱 확장시켰다.

이상 빅데이터에 대한 정의는 데이터 크기, 데이터 활용, 기술, 업무수

2) Insight는 시행착오 행동없이 일어나는 즉각적이고 분명한 지각이나 이해(변정우, 2013).

(46)

행 등 관점에서 시대와 산업별로 혹은 학자와 기관마다 조금씩 다른 견해 를 보이는 것을 확인할 수 있다. 하지만 이를 종합하여 정의해보면 빅데이 터란 빠르게 변화하는 다양한 대용량 데이터를 수집․관리․분석하는 기법 으로 정의할 수 있겠다.

2) 빅데이터의 특성

Gartner(2012b)는 빅데이터의 특성을 이른바 3V, 즉 데이터의 크기 (Volume), 데이터 입출력 속도(Velocity), 비구조화(비정형)에 대한 데이 터의 형태(Variety)로 규정하였다.

특성 주요내용

데이터의 크기 (Volume)

증가

- 기술적 발전과 IT의 일상화가 진행됨에 따라 해마다 디지털 정보량이 기하급수적으 로 폭증하여 제타바이트 시대로 진입

데이터 입출력 속도 (Velocity)

증가

- 사물 정보(센터, 모니터링), 스트리밍 정보와 같은 실시간 정보가 증가함에 따라 데이터의 생성과 이동․유동 속도가 증가

- 대규모 데이터 처리와 정보의 활용을 위한 데이터 처리 및 분석 속도가 중요해짐 데이터의 형태

(Variety) 증가

- 로그기록, 소셜, 위치, 소비, 현실 데이터와 같은 데이터 종류가 증가하고 멀티미디어 같은 비정형화된 데이터 유형이 다양화 됨

데이터의 가치 (Value)

증가

- 다양한 데이터가 시간이 지나면서 매우 빠르게 전파되고 변화하기 때문에 그 전체와 패턴을 파악하여 필요한 대응방안 및 가치창출을 하는 것이 중요 데이터의 복잡성

(Complexity) 증가

- 구조화 되지 않은 데이터, 저장방식의 차이, 중복성 문제, 데이터의 종류 확대, 데이터 관리 및 처리의 복잡성이 심화

<표 2-1> 빅데이터 특성

자료 : 이지영(2015). 빅데이터의 국가통계 활용을 위한 기초 연구 인용 및 재구성.

첫째, 데이터 크기(Volume)는 스마트 디바이스의 확대와 네트워크 고도화로 인해 데이터양의 증가하면서 제타바이트(ZB) 수준의 데이터를 의미한다(한국콘텐츠진흥원, 2014). 그러나 향후 기술의 진보와 발전으 로 인해 더욱 대용량의 데이터가 생성될 것으로 예상하고 있다.

(47)

둘째, 데이터 입출력 속도(Velocity)는 실시간으로 데이터가 생성될 때 데이터를 처리하는 속도를 나타낸다. 즉 데이터의 이동, 생산, 처리, 분석되는 속도가 지속적으로 증가하고 있으며 이러한 일련의 과정이 거의 실시간으로 이뤄진다는 것을 의미한다(신동일, 2014). 데이터의 반응속 도가 실시간으로 데이터를 생성하여 의사결정 과정에 반영해야 하는 비즈 니스에서는 중요하기 때문에 민첩한 대응이 중요한 특성이다.

셋째, 비구조화(비정형)에 대한 데이터의 형태(Variety)는 전통적인 정형 데이터와 이미지, 텍스트와 같은 비구조화(비정형) 데이터를 아우르 는 데이터의 다양한 형태를 관리하는 것을 의미한다(신동일, 2014). 스마 트폰과 네트워크의 발전으로 SNS, 위치정보, 각종 로그 기록을 비롯한 멀티미디어 등의 비정형 데이터까지 분석의 대상이 된 것이다.

3V 이외에도 빅데이터의 특성으로 가치(Value) 혹은 진실성(Veracity), 가변성(Variability)이나 복잡성(Complexity)을 추가하기도 하여 5V라 고 규정하기도 한다.

3) 빅데이터의 역할

전문가들은 미래사회는 불확실성, 위험도(Risk), 스마트(Smart), 융 합 4가지 특성을 가질 것으로 예상하고 있다. 불확실하고 위험도가 큰 미래사회에서는 통찰력과 대응력이 중요하고, 스마트하고 융합적인 미래 사회에서는 경쟁력과 창조력을 필요로 한다. 그에 따른 빅데이터의 역할 은 아래 <표 2-2>에서 확인할 수 있다.

미래사회특성 빅데이터의 역할

불확실성

통찰력

사회현상, 현실세계의 데이터를 기반으로 한 패턴분석과 미래전망 여러 가지 가능성에 대한 시나리오 시뮬레이션

다각적인 상황이 고려된 통찰력을 제시 다수의 시나리오로 상황 변화에 유연하게 대처

<표 2-2> 빅데이터 역할

(48)

자료 : 송민정(2012). 빅데이터가 만드는 비즈니스 미래지도 인용.

4) 빅데이터의 분석방법

PWC(2012)에 의한 빅데이터의 분석방법은 데이터 마이닝(Data Mining), 텍스트 마이닝(Text Mining), 평판 분석(Opinion Mining), 소셜 네트워크 분석(Social Network Analytics), 군집분석(Cluster Analysis), 현실 마이닝(Reality Mining) 등 크게 6가지로 나누어 볼 수 있다.

미래사회특성 빅데이터의 역할

위험도(Risk)

대응력

환경, 소셜, 모니터링 정보의 패턴 분석을 통한 위협 징후, 이상 신호 포착 이슈를 사전에 인지, 분석하고, 빠른 의사결정과 실시간 대응지원 기업과 국가경영의 투명성 제고 및 낭비요소 절감

스마트(Smart)

경쟁력

대규모 데이터 분석을 통한 상황인지, 인공지능 서비스 등 가능 개인화, 지능화 서비스 제공 확대

소셜(니즈)분석, 평가, 신용, 평판 분석을 통한 최적의 선택지원 트렌드 변화 분석을 통한 제품 경쟁력 확보

융합

창조력

타 분야의 결합을 통한 새로운 가치창출(의료정보, 자동차정보, 건물정보, 환경정보 등)

인과관계, 상관관계가 복잡한 컨버전스 분야의 데이터 분석을 안정성 향상, 시행착오 최소화

방대한 데이터 활용을 통한 새로운 융합시장 창출

특성 주요내용

데이터 마이닝 (Data Mining)

- 대용량의 데이터, 데이터베이스 등에서 감춰진 지식, 기대하지 못했던 경향, 새로운 규칙 등의 유용한 정보를 발견하는 과정

- 데이터 마이닝을 통해 정보의 연관성을 파악함으로써 가치 있는 정보를 만들어 의사결정에 적용

텍스트 마이닝 (Text Mining)

- 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미있는 정보를 찾아내는 마이닝 기법

- 텍스트 마이닝은 사람들의 말하는 언어를 이해할 수 있는 자연언어처리 기술에 기반

<표 2-3> 빅데이터 분석방법

(49)

자료 : 윤홍근(2013). 문화산업에서 빅데이터의 활용방안에 관한 연구 인용(한국정보화진흥원(2012a) 재구성).

첫째, 데이터 마이닝(Data Mining)은 통계 및 수학적 기술뿐만 아니 라 패턴인식 기술들을 이용하여 데이터 저장소에 저장된 대용량의 데이터 를 조사 분석함으로써 의미 있는 새로운 상관관계, 패턴, 트렌드 등을 발견하는 과정이다(윤홍근, 2013). 데이터 마이닝은 대용량의 데이터 속 에서 유용한 정보를 발견하는 과정이며, 기대했던 정보뿐만 아니라 기대 하지 못했던 정보를 찾을 수 있는 기술을 의미한다. 데이터 마이닝을 통해 정보의 연관성을 파악함으로써 가치 있는 정보를 만들어 의사 결정에 적 용함으로써 이익을 극대화시킬 수 있다(신동일, 2014).

둘째, 텍스트 마이닝(Text Minig)은 비/반정형 텍스트 데이터에서 자연처리 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다. 방대한 텍스트 데이터에서 의미 있는 정보를 추출해 내고, 타 정보와의 연계성을 파악하며 텍스트가 가진 카테고리를 찾아내는 등 단순한 정보 검색 이상의 결과를 얻을 수 있다(한국콘텐츠진흥원, 2014;

강만모·김상락·박상무, 2012).

셋째, 평판 분석(Opinion Mining)은 웹사이트와 소셜미디어에 나타 난 여론과 의견을 분석하여 실질적으로 유용한 정보로 재가공 하는 기술

특성 주요내용

평판 분석 (Opinion Mining)

- 웹사이트와 소셜미디어에 나타난 여론과 의견을 분석하여 실질적으로 유용한 정보로 재가공 하는 기술

소셜 네트워크 분석 (Social Network Analytics)

- 소셜 미디어에 올라오는 글과 사용자를 분석해 소비자의 흐름이나 패턴 등을 분석하고, 판매나 홍보에 적용

- 마케팅 분야뿐만 아니라 사회의 흐름과 트렌드, 여론변화 추이를 읽어내는 소셜 미디어 시대의 새로운 마이닝 기법

군집분석 (Cluster Analysis)

- 하나의 큰 데이터군을 통계 기법을 활용하여 유사성을 지닌 여러 개의 작은 묶음으로 분류하는 방법

현실 마이닝 (Reality Mining)

- 사람들의 행동패턴을 예측하기 위해 사회적 행동과 관련된 정보를 기기(휴대 폰, GPS)를 통해 얻고 분석하는 기법

- 휴대폰 등 모바일 기기들을 통해 현실에서 발생하는 정보를 기반으로 인간관 계와 행동양태 등을 추론

참조

관련 문서

한국인 심전도 진단 데이터 기상관측 데이터. 항공우주소재 물성 데이터

또한, 「기상청 데이터 관리 및 제공 규정」 제6조(공공데이터제공담당관의 임무)에는 데이터 관리에 관한 기본정책의 수립 및 제도의 개선, 데이터 통계의 작성·관리

융합인재교육(STEAM)은 다양한 분야의 융합적 내용을 창의적 설계(Creative Design)와 감성적 체험(Emotional Touch)으로 경험함으로써 과학기술과 관련된 다양한

우수활용 사례 부문 • 강남구립통합도서관 빅데이터 활용사례 소개: 통합도서관 홈페이지를 기반으로 • 11.. 우수활용 사례 부문 • 강남구립통합도서관

어떤‌ 것을‌ 알아낼‌ 수‌ 있으며‌ 또‌ 어떤‌ 파장에서는‌ 나타나지만‌ 다른‌ 파장에서는‌

인터넷전문은행은 간편결제 및 비대면 인증 등 기존의 은행이 제공하지 못했던 금융 서비스를 제공할 것이라는 기대가 높지만 아직까지는 인공지능, 빅데이터,

앞서 데이터 기록이 무엇인지, 예술·식품·기술·의료분야의 데이터 기록을 통해 다양한 데이터 기록의 방법에 대해 알아보았습니다.. 데이터 기록이 사회에 미친 영향은

-과학 및 다양한 교과에 대한 융합적 사고를 바탕으로 문제해결력 신장 -성취기준 중심 STEAM 교육을 위한 교육과정 재구성을 통해 창의인성 함양 -현장에서 즉시