특집
국가교통정책 선진화를 위한 빅데이터 활용
국토시론 빅데이터 시대에 걸맞은 교통시스템 구축
이슈와 사람 “공공데이터 활용이 우리 생활을 더 편리하게 합니다” - 김진형 공공데이터전략위원회 위원장
07
2015
KRIHS Monthly Magazine
Contents
국토시론 빅데이터 시대에 걸맞은 교통시스템 구축 김영찬_ 대한교통학회장, 서울시립대학교 교통공학과 교수
특집 | 국가교통정책 선진화를 위한 빅데이터 활용 1. 교통분야의 빅데이터 활용 활성화 방향
엄진기_ 한국철도기술연구원 책임연구원 2. 교통분야의 빅데이터 활용과 위치정보 보호 윤서연_ 국토연구원 책임연구원
3. 교통카드 데이터 활용도 제고방안 김순관_ 서울연구원 선임연구위원 4. 고속도로 교통 빅데이터 개방과 활용 남궁성_ 한국도로공사 교통연구실장
5. 교통 빅데이터를 활용한 교통정책지원시스템: 대전시 사례를 중심으로 박은미_ 목원대학교 도시공학과 교수
용어풀이 <203> 개방형 API 외 김광호_ 국토연구원 책임연구원
이슈와 사람 <128> 김진형 공공데이터전략위원회 위원장
“공공데이터 활용이 우리 생활을 더 편리하게 합니다”
윤서연_ 국토연구원 책임연구원
우리 옛길 걷기 <23> 흐르는 강물에 수심을 떠나보내다
신정일_ 문화사학자, 사단법인 우리 땅 걷기 이사장, 「새로 쓰는 택리지」 저자
우리 문화유산의 향기 <185> 조문국사적(召文國史蹟)과 금성산고분군 박영순_ 수필가
e-interview 캉민졔(康旻杰)·황수메이(黃舒楣)
: 타이완의 문화를 통한 도시재생 - 바오창옌 예술촌 사례를 중심으로 박정은_ 국토연구원 책임연구원
영화와 도시 <19> ‘하우스 오브 카드’
워싱턴 D.C.: 도시에 숨겨진 권력의 뒷모습 남경철_ 기획재정부 과장, 세계은행 근무
02
06
12
18
25
31
40
41
46
52
53
66
2015년 7월호
46
41
52
66
발행일 2015년 7월 10일 발행인 김동주 편집위원장 김종원
편집위원 고용석, 권영섭, 김명수, 김종학, 박미선, 박세훈, 박천규, 이영주, 장철순, 차미숙 (가나다 순)
간사 한여정 편집 김문정, 김서영
전화 031 380 0114(대표) 031 380 0425(구독문의) 팩스 031 380 0480
디자인/인쇄 (주)현대아트컴 02 2266 4482 2015년 「국토」에서는 지난해 9월부터 10월까지 국토연 구원에서 주최한 제2회 아름다운 우리 국토 사진공모 전의 수상작을 게재합니다.
본 작품은 장려상으로 선정된 홍성환 님의 “새만금”(촬영 지: 전북 부안군)입니다.
「국토」는 국토 전반에 관한 국내외 최신 정보와 현안 문제를 다루는 월간지입니다. 「국토」에 수록된 내용은 필자 개인의 견해이며, 국토연구원의 공식적인 견해가 아님을 밝힙니다.
마을의 재발견 <11> 지역문화예술교육을 통한 마을공동체 활성화 : 성남문화재단 사례
유상진_ 성남문화재단 문화기획부 과장
해외리포트 빅데이터를 활용한 광역교통 분석 : 워싱턴D.C.-버지니아주를 중심으로
이재섭_ M-NCPPC(Maryland-National Capital Park & Planning Commission) 교통계획 코디네이터
글로벌정보 교통분야 빅데이터 구축에 따른 민간부문 역할 증대 외
KRIHS FOCUS 국토연구원 소식
국토연구원 단신 ‘제15대 김동주 원장 취임식’ 개최 외
국토 옴부즈만
자료회원 가입안내
KRIHS 보고서
공간 빅데이터를 활용한 국토도시 정책방안 연구(김동한 외 지음) 정재준_ 성신여자대학교 지리학과 교수
미래 국토발전 장기전망과 실천전략 연구(III): 국토공간구조 미래시나리오와 대응전략 (이용우 외 지음)
서순탁_ 서울시립대학교 도시행정학과 교수, 도시과학대학장
연구보고서 구입 안내
짧은 글 긴 생각 빅데이터와 데이터 유통 김기병_ 서울특별시 통계데이터담당관, 과장
72
77
84
98
104
105
106
108
110
112
젊은 시절 한 토목전문가가 한강에 물이 출렁출렁 흘러가는 것을 보면서
‘물이 돈인데 그냥 흘러가게 내버려 두는구나’라고 하는 말을 들은 적이 있다. 지능형교통체계(ITS)를 전공하는 필자는 유용한 데이터가 무수히 생성되고 있는데 제대로 활용되지 못하고 버려지는 것을 보며 같은 생 각으로 안타깝게 여겨왔다. 수년 전 빅데이터 활용의 중요성이 알려지 면서 빅데이터는 경제, 산업, 의료, 문화 등 사회 전 분야에 걸쳐 활용되 고 있다. 현 정부는 정부3.0을 통해 공공부문 데이터의 개방을 촉진하고 있으며, 2012년 11월 빅데이터 마스터플랜을 통하여 빅데이터 활용 촉 진을 위한 국가적 기반을 준비하였다. ‘현존하는 전체 데이터의 90%가 지난 3년간 생성되었다’라는 말이 있을 정도로, 통신기술의 발전 속도로 보아 앞으로 활용가능한 데이터 양은 기하급수적으로 늘어날 것이다.
전 세계적으로 교통분야는 빅데이터의 다양한 적용사례에서 선도적 인 역할을 하고 있으며, 가장 활발하게 활용되고 있다. 통신기술을 통하 여 교통정보를 수집하고 교통서비스를 제공하는 ITS분야는 20여 년 전 부터 구축되어 왔다. 교통정보제공시스템, 버스정보시스템, 내비게이션 과 같은 서비스는 이미 스마트폰과 함께 일상화되어 있다. 이러한 시스 템의 구현을 위해서 방대한 정보수집체계가 구축되어 왔고, 대량의 데 이터가 실시간으로 생성되고 있다. 고속도로 하이패스나 티머니 같은 자동요금징수시스템(Electronic Toll Collection System: ETCS)도 대 량의 데이터를 생성하며, 요금징수의 원래 목적 외에도 불법행위의 단 속 등 다양한 용도로 활용되고 있다. 티맵은 순수 민간 교통정보서비스 의 표본으로서 실시간 교통정보, 내비게이션 서비스를 스마트폰으로 받 을 수 있도록 운영 중이며, 수년간 축적한 빅데이터를 활용하여 교통예 김영찬
대한교통학회장,
서울시립대학교 교통공학과 교수 ([email protected])
빅데이터 시대에 걸맞은
교통시스템 구축
2
보서비스를 준비 중이다.
교통분야에서의 빅데이터 응용은 실시간 교통정 보제공서비스 못지않게 축적된 방대한 데이터를 분 석하여 교통정책 발굴에 활용하는 것도 중요하다. 끊 임없이 생성되는 대량의 데이터를 무한정 저장할 수 없으므로, 적절한 프로세스를 거쳐 데이터를 가공해 야 한다. 2012년 대전시의 교통데이터웨어하우스 구 축이 좋은 사례다. 대전시는 수집되는 다양한 실시간 교통정보 수집데이터를 추출, 변환, 가공의 프로세 스를 거쳐 요약데이터베이스를 구축하였다. 시민 교 통정보제공서비스뿐만 아니라 교통계획, 안전, 운영 등의 다양한 교통정책 결정에 기본자료로 활용하고 있다. 교통분야 빅데이터 활용의 또 다른 성공사례 로는 2013년 서울시의 심야버스 노선결정 프로젝트 를 들 수 있다. 심야시간대에 이동하는 사람들의 통 화데이터 30억 건을 분석하여 최적의 심야버스 노선 을 선정하였다. 이 사례의 특징은 교통정책을 도출하 는 데 교통시스템을 통한 교통정보가 아닌 모바일폰 의 빅데이터를 활용하여 수요자 맞춤형 서비스를 제 공했다는 점이다.
생산되는 데이터는 계속 늘어갈 것이고, 교통분 야의 빅데이터 활용은 가속화될 것이다. 정보의 소 스는 한층 다양화될 것이다. ITS와 같은 교통자체 시
스템 데이터, 모바일폰과 같은 타 분야 시스템 데이 터, SNS를 통한 비정형데이터 등이 광범위하게 활용 될 것이다. 여기서 유념해야 할 사항은 데이터의 양 보다는 질에 초점을 두어야 한다는 것이다. 과거 ITS 분야에서 정보수집체계 구축과 유지에는 재원투자가 인색하고 정보제공서비스시스템 구축에 열을 올리는 우를 범하는 경우가 많았다. 원시정보가 부실한데 가 공정보가 정확할 수는 없다. 정보는 그냥 존재하는 것으로 여기는 것은 오해다. 양질의 정보를 생성하는 데 투자해야 하고, 정보의 품질을 유지하는 데 꾸준 히 공을 들여야 한다. 유용한 데이터는 무료로 얻어 지는 것이 아니다.
교통정보에 국한해서 보면 티맵의 내비게이션 자 료, DSRC(Dedicated Short Range Communication) 를 통한 수집자료는 통상 통행시간과 같은 소통정보 가 근간이 되어 여행자에게 제공된다. 교통정책을 수 립하는 과정에서 필요한 자동화 자료는 장기간 구축 된 통행시간 자료도 중요하지만, 중요지점의 교통량 자료가 필수적이다. 연구대상 도로의 교통량 현황과 미래의 교통 수요가 주 관심사다. 교통정보시스템은 구축했는데 정작 교통량 자료는 수집되지 않아서 별 도로 교통량조사를 하는 경우가 아직도 반복되고 있 다. 교통시스템 구축 시 이 점을 명심할 것을 권고한
교통분야에서의 빅데이터 응용은 실시간 교통정보제공서비스 못지않게 축적된 방대한 데이터를 분석하여 교통정책 발굴에
활용하는 것도 중요하다. 끊임없이 생성되는 대량의 데이터를 무한정 저장할 수 없으므로, 적절한 프로세스를
거쳐 데이터를 가공해야 한다.
다. 최근 정부는 자체로 교통정보시스템을 구축하기 보다 민간교통정보에 의존하려고 한다. 민간교통정 보시스템은 여행자에게 초점을 두는 정보를 수집하 지, 공공부문의 교통정책 수립을 위한 기반데이터를 수집해 주지는 않는다. 민간정보 활용과 공공부문 자 체정보수집 능력 보유에 균형을 맞추어야 한다.
빅데이터의 활용과 촉진의 확대에 대한 필요성을 강조하면서 우려되는 사항도 있다. 숨겨진 왜곡현상 (hidden bias), 개인정보보호 등과 같은 사생활 침해 문제다. 빅데이터가 사회현상을 정확하게 반영한다 고 전제하지만, 실제로 심각한 괴리가 있을 수 있다.
특정 그룹으로부터는 데이터가 거의 수집되지 않기 때문이다. 예를 들어, 스마트폰의 SNS를 통한 정보 는 SNS를 거의 사용하지 않는 고령자의 자료는 반영 될 수 없기 때문에 재난을 위한 모니터링 관리와 같은 안전체계 구축 시 데이터에서 누락되면서 그룹 간의 형평성 문제를 야기할 수도 있다. 또한 ‘빅브라더(big brother)’ 행태에 대한 우려가 있다. 개개인의 정보를 수집하는 과정에서 불필요한 감시가 될 수도 있으며, 안전을 위한 데이터 수집과 제공으로 오히려 위험에 노출되는 경우가 있을 수도 있다.
어떤 분야가 활성화되려면, 유능한 인력이 모여야 한다. 교통분야에서 지속적인 빅데이터의 활용 촉진
을 위해서는 양질의 전문인력 양성이 필요하다. 교통 부문 빅데이터 관련 기관으로 한국교통연구원의 국 가교통DB센터를 들 수 있다. 지자체마다 도시정보센 터와 유사한 DB관리 기구가 있다. 이러한 기구들은 대체로 문헌자료, 통계자료를 관리하고 제공하는 기 능을 주로 하고 있다. 국토교통부는 빅데이터 인력양 성 전략을 수립하여 당면하는 전문인력 수요에 대비 해야 한다. 빅데이터 시대에 대용량의 자동화 자료를 다루는 체계가 구비되어야 하는 것은 자명한 사실이 다. 빅데이터 시대에 걸맞은 시스템 구축을 위하여 하드웨어, 소프트웨어 못지않게 전문인력 양성의 중 요성을 간과해서는 안 될 것이다.
빅데이터 시대에 대용량의 자동화 자료를 다루는 체계가 구비되어야 하는 것은 자명한 사실이다.
빅데이터 시대에 걸맞은 시스템 구축을 위하여 하드웨어, 소프트웨어 못지않게 전문인력 양성의
중요성을 간과해서는 안 될 것이다.
4
특집
전 세계적으로 교통분야는 빅데이터의 다양한 적용사례에서 선도적인 역할을 하고 있으며, 가장 활발하게 활용되고 있다. 통신기술을 통하여 교통정보를 수집하고 교통서비스를 제공하는 ITS분야는 이미 20여 년 전부터 구축되어 왔으며, 교통정보제공시스템, 버스정보시스템, 내비게 이션과 같은 서비스는 스마트폰과 함께 일상화되어 있다. 중앙정부는 물론 여러 지방자치단체와 기업에서 교통과 관련된 빅데이터를 활용하 여 새로운 서비스를 만들거나 기존 시스템을 개선하려는 노력 또한 한 창이다.
이번 호 특집에서는 교통분야에서 활용하고 있는 빅데이터의 다양한 유형과 함께 보다 활용도 높은 데이터를 구축하기 위한 과제를 모색해 보고자 한다.
특집기획: 윤서연 국토연구원 책임연구원
국가교통정책 선진화를 위한
빅데이터 활용
엄진기 | 한국철도기술연구원 책임연구원([email protected])
1 교통분야의 빅데이터 활용 활성화 방향
최근 사회 전반에 걸쳐 빅데이터(Big Data)에 대한 관심이 증가하면서 빅데이터의 활용방법 및 사례에 대한 내용들이 인터넷이나 매스컴을 통해 지속적으로 발표되고 있고, 데이터 처리에 대 한 다양한 기술서적들이 출판되고 있다. 데이터를 전문적으로 다루고 있는 학자들은 ‘빅데이터’
보다는 ‘데이터 사이언스’와 같은 용어를 선호하고 있다. 그 이유는 과거부터 이미 데이터에 대 한 연구가 지속되어 왔으며, 금세기 인터넷, 모바일 통신 및 컴퓨터 기술의 눈부신 발전에 의해 다양한 대규모 데이터의 실시간 획득 및 분석처리 측면에서 과거에 비해 속도와 규모가 커졌을 뿐 데이터를 바라보는 관점은 변함이 없다는 것이다. 다만 빅데이터 활용의 성공 여부는 데이터 간의 네트워킹이 큰 관심사항이다. 개별 데이터는 자기만의 색깔을 가지고 있으므로 이들을 서 로 연결하여 과거 개별 데이터에서 찾던 독립적인 가치창출에서 벗어나 새로운 가치창출을 하 는 것이 데이터 간 네트워킹이 필요한 이유다. 그러나 잘못된 데이터 간의 네트워크는 소요된 비 용과 시간에 비해 쓸모없는 거대한 데이터 쓰레기를 양산할 수 있기 때문에 시행착오를 최소화 하여 어떻게 새로운 가치를 도출할 것인가에 대한 고민이 필요한 것이다. 이러한 측면에서 보면 교통부문의 빅데이터 활용뿐만 아니라 타 분야에서 생성되는 제3의 빅데이터와의 네트워킹은 필수적이며, 이러한 네트워크를 구성하기 위해 데이터 공유에 대한 사회적 인식의 변화 및 제도 적 장치를 마련하려는 움직임이 필요하다.
6
교통부문 빅데이터
널리 알려진 바와 같이 빅데이터의 세 가지 특징은
‘3V’로서 데이터 규모(Volume), 정형 및 비정형 데이 터의 다양성(Variety), 데이터 축적 속도(Velocity)를 들 수 있다. 최근에는 데이터의 가치(Value) 및 복잡 성(Complexity)의 특징이 추가되어 언급되고 있기도 하다. 데이터 규모는 수십에서 수천 테라바이트 또는 그 이상의 거대한 크기를 가지며, 여러 가지 비정형 데이터를 포함하고 있어 기존의 정형화된 데이터 처 리방식과 차별화되는 관리와 분석이 필요한 데이터 를 의미한다(정용찬 2012b).
교통분야에서 주로 활용하는 데이터를 살펴보면 대중교통이용 실적자료, 고속도로차량 실적자료, 철 도수송 자료, 교통사고 자료 등 과거부터 지속적으 로 조사 획득한 자료들이 주를 이루고 있다. 최근 GPS, 근거리 무선통신 등 위치기반 및 전송기술에 힘입어 교통카드, 하이패스, 차량 내비게이션 등 다 양한 데이터의 실시간 확보가 가능하게 되었으며, 이로 인해 교통부문에 활용할 기회가 확대되고 있
다. 정리하면 예전부터 특정 필요에 의해 조사 및 활 용되고 있었으나 IT 및 통신기술의 발달로 과거 단기 간 또는 소규모 샘플조사에 국한되었던 것이 전수시 간의 완전한 형태의 완성형(completion) 자료로 수 집하게 된 것이다. 빅데이터 정의에 비추어 보면 그 동안 교통부문에서 활용하던 데이터의 대부분은 공 공성이 강한 정형화된 데이터로 볼 수 있으며, 타 분 야의 정형 및 비정형 빅데이터와 네트워킹에 따라 새 로운 가치창출을 위한 커다란 기회로 볼 수 있다. 그 러나 교통 관련 데이터의 특성상 통행 주체인 개인에 대한 정보가 대부분의 데이터 내용에 포함됨에 따 라 「개인정보 보호법」에 저촉되어 데이터의 협조 및 활용에 상당한 제약이 되고 있다. 그동안 교통부문 데이터의 소유권 및 저작권의 성격이 데이터에 대한 조사 및 관리를 담당하고 있는 운영업체, 공공기관 또는 지자체에서 주관이 되어 제한적이며 소유권을 가진 업체, 공공기관 및 지자체 간의 협조가 어려웠 던 것이 사실이다. 교통부문 데이터의 협조와 별개 로 SNS 등 비정형 데이터의 활용 및 타 분야 데이터 와의 교통데이터 네트워킹 문제는 보다 나은 교통서
구분 기존 데이터 환경 빅데이터 환경
데이터 ● 정형화된 수치자료 중심
● 비정형의 다양한 데이터
● 문자데이터(SMS, 검색어)
● 영상데이터(CCTV, 동영상)
● 위치데이터
하드웨어
● 고가의 저장장치
● 데이터베이스(DB)
● 데이터웨어하우스(DW)
● 클라우드 컴퓨팅 등 비용 효율적인 장비 활용
소프트웨어/
분석방법
● 관계형 데이터베이스(RDBMS)
● 통계패키지(SAS, SPSS)
● 데이터 마이닝
● 기계학습, Knowledge Discovery
● 오픈소스 형태의 무료 소프트웨어
● Hadoop, NoSQL
● 오픈소스 통계솔루션(R)
● 텍스트 마이닝(text mining)
● 온라인 버즈 분석(opinion mining)
● 감성 분석(sentiment analysis) 출처: 정용찬. 2012a.
<표 1> 빅데이터 환경의 특징
비스 창출을 위해 해결해야 할 또 다른 이슈다. 정부 3.0 기조에 따라 데이터를 협조 받아 활용할 수 있는 기회가 마련되었으나 정부가 원하는 새로운 가치창 출을 위해서는 데이터의 협조에 필요한 다양한 문제 점을 해결해야 하는 숙제를 안고 있다.
빅데이터 활성화 제약
교통데이터 활용 활성화를 위해서는 원활한 데이터 협조를 가장 중요한 요건으로 꼽을 수 있으나 근본적 으로 데이터 협조를 어렵게 하는 문제가 발생하고 있 다. 교통부문의 데이터가 공공 성격을 가진다는 의미
구분 데이터 형태 데이터 단위 내용 보유기관 공개 여부
(현재) 활용부문
교통카드 xls 건/일 대중교통 이용자 OD 운영업체 및 지자체 비공개 대중교통
이용패턴 분석
택시운행 - 대 도로 속도, 이동동선 운영업체 비공개 통행 이동패턴 분석
내비게이션 - 대 차량속도, 이동동선 업체 및 지자체 비공개 자가용
이용패턴 분석
철도운행 pdf 편성(량)/
회, 일 철도 수송 한국철도공사 공개 철도 이용자
이동패턴 분석 고속도로
이용차량 xls, csv 시간,
영업지점 이용차량 대수 한국도로공사 공개 수단 간 속도 비교 및
장거리 OD 교통DB txt, xls 링크, 지점 지역 간 OD,
사회경제 지표 한국교통연구원 공개 수단별 통행량 분석
주차정보 asp 면/개소 주차장 위치,
잔여면수 지자체 공개 지점별
교통환경 분석 자전거 이용 pdf, html km 자전거 도로노선,
편의시설 지자체 공개 대중교통 환승 및
서비스 여건 개선
사고자료 xls 건 사고지역 및 원인 보험회사,
도로교통공단 일부 공개 사고 현황 및 심각도
운행기록장치 - 대 차량운행 패턴 - 비공개 운전패턴 및
교통 현황
택배배송자료 - 대 화물OD 택배회사,
우체국 등 비공개 물류OD 현황
UTIS 교통정보 html 링크, 지점 교통 상황 경찰청
중앙교통정보센터 공개 실시간 교통상황
버스 승·하차 xls 지점 버스 승·하차 인원 지자체 공개 버스 승·하차
규모 분석 버스위치 정보
조회 xml 대 정류장 간 이동시간 지자체 공개 버스 배차간격 및
속도 분석 지하철역별
승·하차 인원
xml, xls,
json 역, 시간 지하철역 승·하차
인원 지자체 공개 지하철 혼잡도 분석
역별 혼잡도 xls, csv,
json 역, 시간 시간대별 혼잡도 지자체 공개 지역별 혼잡도 분석
출처: 한국철도기술연구원. 2014.
<표 2> 교통부문 활용가능 빅데이터 사례
8
는 교통시설인 도로 및 대중교통 시설이 공공투자로 건설되고, 데이터 조사의 필요성 및 조사내용도 이 러한 공공교통시설에 기반한 내용으로서 공공정책에 활용되기 위함이며, 정부(공공기관) 및 지자체의 예 산으로 수행 및 관리·운영된다는 것이다. 그러나 방 대한 데이터의 실시간 자동화 수집·관리에 있어 추 가적인 인프라 투자가 필요한 상황이고, 이러한 업무 는 공공투자에서 벗어나 민간부문에서 투자 및 위탁 하여 수행하는 경우가 발생하고 있다. 대중교통카드 및 운전자 내비게이션 자료 등은 이러한 사례로 볼 수 있으며, 교통운영자 및 민간사업자가 데이터 수집 을 위한 인프라 시스템 구축·운영에 대한 투자를 근 거로 해당 주체가 소유권(또는 관리권)을 일부 가지 고 있다. 따라서 데이터 제공에 있어 자신들의 영업 권리를 침해할 것을 우려하여 제한적으로만 제공하 고 있는 실정이다.
두 번째로 교통데이터 이용 활성화에 제약은 대부 분의 데이터가 개인정보에 대한 항목을 포함하고 있 는 부분이며, 이러한 개인정보는 교통정책에 있어 매 우 중요한 요소임에도 협조가 어렵다는 점이다. 또한 교통데이터 사업자의 단말기 정보, 오류처리 사항 등 교통정보(통행실태 관련) 범위 밖의 운영 또는 영업 과 관련된 일부 항목을 포함하고 있으므로 데이터를 요구할 때마다 데이터 수요자와 제공자 간 이견 조율 에 시간이 소요되는 문제가 발생하고 있다.
세 번째로 법·제도적 측면에서 데이터 협조를 위 한 내용이 선언적으로만 되어 있어 실무적으로 데이 터 협조를 위해서는 번거로운 절차와 함께 제한된 데 이터만 협조가 가능한 실정이다. 데이터의 원활한 협 조를 위해서는 관계기관의 역할 및 절차가 법·제도 상 보다 구체적으로 정의되어야 한다. 이를 통해 데 이터 요청 시 관계기관(공공기관 및 지자체), 교통운 영업체, 데이터 인프라사업자로 이어지는 복잡한 데
이터 공유체계에서도 정보의 시차 발생을 최소화할 수 있으므로 빅데이터 활용의 장점을 살릴 수 있다.
다음으로 교통시설 관리 주체의 교통시설물에 대 한 정보와 데이터 인프라사업자의 관리정보가 서로 연계되지 않는 경우가 발생하여 데이터의 신뢰성을 악화시키는 문제점이 발생하고 있다. 그 예로 수도권 대중교통 통합정산의 경우 인프라사업자 간 사업적 문제, 지자체-운영사 간 정책적 상충 등의 원인으로 통합정산 담당 인프라사업자로부터 일괄 제공 받는 데 어려움이 있다.
마지막으로 각종 교통데이터의 협조가 원활하게 진행되기 위해서는 해당 데이터를 제공하기 위해 빅 데이터의 관리 및 데이터 추출을 위한 전문인력 및 서비스에 대한 비용이 발생하는 문제가 있다. 데이 터 관리 주체가 데이터 서비스를 위해 추가적인 조직 과 인력에 대해 준비되지 않은 경우가 대부분으로 데 이터 제공을 위한 추가적인 업무에 미온적으로 대응 할 가능성이 존재한다. 또한 방대한 빅데이터의 분석 을 위해서는 데이터 처리를 위한 하드웨어 및 소프트 웨어를 활용해야 하는 바, 이러한 전산환경이 필수적 이나 인프라구축 비용이 만만치 않아 개인단위에서 자료를 분석하기 어려운 상황이며, 결과적으로 데이 터 이용 활성화를 위한 저변 확대에 제약요인으로 작 용하고 있다.
빅데이터 이용 활성화 방안
1. 공공부문 데이터 제공 인식전환 필요
비단 교통부문뿐만 아니라 모든 공공부문에서는 데 이터 공개를 요청할 경우 수요자에게 흔히 어떤 목적 으로 왜 이용하려는지를 먼저 묻게 되며, 이러한 질 문에 제대로 답변을 하지 못할 경우 데이터의 협조는
어렵게 된다. 빅데이터의 이용 활성화는 분명히 데이 터의 제공자와 이용자가 서로 윈-윈(win-win)하는 결과로 나타날 경우에 활성화될 수 있다. 데이터의 활용을 통해 성공적인 결과물이나 새로운 가치를 창 출하기 위해서는 수많은 노력과 실패가 반복될 것이 다. 하지만 이것도 데이터가 있는 상태에서 의미 있 는 활동이 된다. 사전에 특별한 아이디어가 없더라도 데이터를 보고 생각할 수 있는 기회를 제공하는 것은 매우 중요하다. 빅데이터 환경에서는 앞서 언급한 바 와 같이 개별 데이터 자체의 분석만으로는 의미가 약 하며, 다양한 데이터 간의 네트워킹에 따라 새로운 가치가 창출되므로 이러한 목적을 달성하기 위해 데 이터 공개에 있어 개방된 시각 및 인식의 전환이 필 요하다. 수요자가 어디에 어떤 자료가 있는지 그 내 용을 모른다면 새로운 아이디어를 기대하기 어려울 것이며, 데이터를 쉽게 접하게 됨으로써 다양한 아이 디어 창출이 가능할 것이다. 교통부문의 빅데이터 이 용 활성화를 위해서는 교통부문만의 자료에 국한되 어서는 안 되며, 타 분야와의 데이터 접목이 필수적 이다. 예를 들어, 공공부문 건강보험 데이터 중 근로 자의 가정 및 직장 위치 정보 등은 교통계획에 필요한 정보이나 개인정보 침해요인이 발생할 여지가 있어 협조가 되지 않고 있는 실정이다. SK통신량 자료의 경우 서울시 심야버스 노선계획에 활용된 사례가 있 으나 시간대별 및 일별 통신량에 대한 스냅샷 자료를 제공하기 때문에 교통부문 활용에 제한적이다. 보다 나은 정보를 위해서는 개인단위 통신궤적에 대한 내 용이 포함되어야 하나 이 역시 「개인정보 보호법」에 의해 제한되어 있다. 따라서 교통부문의 활용을 위해 서는 공공의 목적으로 사용될 경우 개인정보 암호화 처리를 통해 이용이 가능하도록 전향적인 인식의 전 환이 필요하다. 또한 통신회사처럼 민간에서 투자된
인프라에서 제공되는 데이터는 이용을 위해서 별도 의 구매비용이 수반되는 것이 현실이므로 공공의 목 적을 위해 비용을 현실화하는 것이 데이터 이용 활성 화에 기여할 수 있을 것으로 판단된다. 제3의 데이터 와 교통데이터 간의 네트워킹을 통한 유의미한 정보 를 추출하여 혁신적인 결과물을 도출하기 위해서는 공공 및 민간 데이터의 오픈에 인색해서는 안 될 것 이며, 다양한 수요에 대응하여 다각적으로 제공하는 환경이 필요하다.
2. 빅데이터 제공을 위한 데이터 제공 표준화
교통부문 빅데이터의 이용 활성화를 위해서는 먼저 교통 관련 유관기관 및 지자체, 교통운영업체, 데이 터인프라업체 등 데이터 조사 및 관리에 관여하고 있 는 모든 기관이 공유가능한 데이터의 목록과 수준을 결정하는 작업이 선행되어야 한다. 데이터의 목록과 수준의 결정은 사용자의 수요조사를 통해 적절한 수 준으로 공개내용을 조율할 필요가 있으며, 특히 개인 정보 보호와 관련하여 법의 테두리 안에서 최대한 이 용자의 특성별 통행양식을 분석할 수 있는 수준으로 제공 범위가 정리될 필요가 있다. 이러한 공공데이터 의 활용을 촉진하기 위해 관련 법률의 개정을 통해 공공이용 제도의 시행 및 활성화를 제도적으로 뒷받 침하는 것이 필요하다. 정부 및 지방자치단체, 교통 사업자, 데이터사업자 등 민·관의 데이터 전문가로 협의체를 구성하여 데이터의 공개방침 결정과 데이 터의 내용 및 표출형식에 대해 세부적으로 논의하여 표준화할 필요가 있다. 공개데이터의 수준, 범위, 내 용의 표준화는 신속한 데이터의 추출과 제공에 필수 적인 사항으로서 시간적으로 유의미한 데이터의 활 용을 가능하게 할 수 있으므로 현재와 같이 수개월이 10
걸리는 데이터 협조과정에서 발생하는 시간적 정보 의 가치 손실을 막을 수 있다. 데이터의 효율적인 관 리 및 제공을 위해서는 일부 교통부문 데이터를 통 합적으로 관리할 수 있는 정보시스템 구축이 필요하 다. 전국적으로 데이터관리 운영 주체가 다르고 이 들 데이터를 통합적으로 관리하지 못할 경우 데이터 의 신속한 제공 및 활용이 제한적일 수밖에 없다. 통 합적 관리시스템은 산재된 데이터의 수집주기 단축 으로 실시간 교통정보 제공을 위해 설계하는 것이 필 요하다.
3. 빅데이터의 활용능력 및 환경
교통부문 빅데이터의 이용 활성화를 위해서는 데이 터 관리 주체로부터 데이터가 제공되었을 경우 이용 자 측면에서 충분한 전산환경과 분석능력이 구비되 어 있는지가 관건이다. 데이터를 공개하고 있지만 이 러한 준비가 안 되어 있다는 이유로 활용도가 낮다면 공공정보의 공개 의미가 퇴색될 수 있기 때문이다. 이 러한 이유로 데이터 이용자의 편의를 고려한 Open API와 같은 슬림화된 서비스 제공을 독려해야 한다.
이용자의 직접 참여를 유도하며 데이터를 활용한 서 비스 개발(애플리케이션 등)을 활성화하는 등 선순환 구조를 마련하는 것이 하나의 방법이 될 수 있다. 또 한 다양한 종류의 빅데이터 간 네트워킹을 구현하고 분석하기 위해서는 필요한 전산인프라 및 데이터 마 이닝 기술 등이 필요하다. 빅데이터를 활용하기 위해 서는 관련 전산인프라와 인력수급이 원활히 되어야 가능하므로 전문인력의 양성이 필요하며, 이러한 차 원에서 공공부문에서 선제적으로 투자하여 빅데이터 가 신가치창출에 기여할 수 있는지에 대한 신뢰를 민 간에게 심어주어 민간에서도 빅데이터 산업에 투자 할 수 있도록 자연스럽게 유도하는 것이 필요하다. 정
부는 기업이 데이터로부터 가치를 창출할 수 있도록 제도적으로 뒷받침해야 하며, 통신 네트워크 및 분석 방법론 등의 다양한 영역에서 R&D를 가속화하여 빅 데이터 이용 활성화의 토대를 마련하는 것이 필요하 다.
참고문헌 ---
매일경제 기획팀, 서울대 빅데이터 센터. 2014. 빅데이터 세상. 서울: 매 일경제신문사.
성지은, 박기량. 2014. 빅데이터를 활용한 정책 사례 분석과 시사점. 과학 기술정책 24권, 2호: 94-106.
윤미영. 2013. 주요국의 빅데이터 추진전략 분석 및 시사점. 과학기술정 책 23권, 3호: 31-43.
이석주. 2012. 교통부문에서의 빅데이터 현황 및 활용. 고양: 한국교통연 구원.
정용찬. 2012a. 빅데이터 혁명과 미디어 정책 이슈. KISDI Premium Report 12-02. 진천: 정보통신정책연구원.
_____. 2012b. 빅데이터, 빅브라더. KISDI 전문가컬럼. 진천: 정보통신정 책연구원.
한경록. 2013. 광주 공공데이터 활용전략과 데이터 산업 활성화 방안. 광 주: 광주발전연구원.
한국정보화진흥원 빅데이터 전략연구센터. 2013. 더 나은 미래를 위한 데 이터 분석: Big Data 글로벌 선진사례 II. 서울: 한국정보화진흥원.
한국철도기술연구원. 2014. 한국철도기술연구원 내부자료. 의왕: 한국철 도기술연구원.
함유근, 채승병. 2012. 빅데이터, 경영을 바꾸다, 서울: 삼성경제연구소.
머리말
현재 중앙정부는 물론이고 여러 지방자치단체와 기업에서 교통과 관련된 빅데이터를 활용하여 새로운 서비스를 만들거나 기존 시스템을 개선하려는 노력이 한창이다. 교통시스템에서 첨단 지 불시스템의 사용이 확대되고 있고, 실시간 교통정보 이용과 택시 앱 등 교통 관련 서비스의 활용 이 일반화되는 추세에 따라 데이터의 수집방법 및 수집량도 더욱 많아지게 되어 빅데이터로부터 교통분야의 개선점을 도출하려는 노력은 좋은 결실을 맺을 가능성이 높다.
한 가지 염두에 두어야 할 점은, 교통분야에서 활용하는 빅데이터에는 많은 경우 어떠한 형태 로든 위치정보를 포함한다는 것이다. 앞서 말한 다양한 시스템에서 지불, 정보조회, 배차 등의 활 동이 이루어질 때 각 시스템은 목적으로 하는 기능을 수행하기 위해 시스템을 이용하는 사람들의 위치와 이동 정보를 필요로 하게 되고, 누적된 데이터는 다시 시스템을 개선하기 위한 자료로 사 용될 수 있는 것이다. 예를 들어, 대중교통의 경우에는 교통카드의 이용률이 전수에 가깝고, 사용 자가 많은 교통 관련 사기업 서비스의 경우 하루 수만~수십만 건의 이동이 기록되고 있어1) 앞으
윤서연 | 국토연구원 책임연구원([email protected])
2 교통분야의 빅데이터 활용과 위치정보 보호
---
1) 닐슨코리아에 의하면, 올해 론칭한 카카오택시 앱은 2015년 3월 30일에서 4월 5일까지 52만 명이 이용하였고(안드로이드 사용자 기준), 그 다음 주인 4월 6일부터 12일까지 37만 명이 이용함(정선미 2015).
12
로는 공공뿐 아니라 민간영역에서도 위치나 이동 데이 터에 대한 분석을 시도하는 사례가 늘어날 전망이다.
하지만 공공 및 기업의 이익을 위한 활용 이면에는 개인의 누적 이동정보를 사용해야 한다는 측면에 대한 고려가 이루어져야 한다. 신용카드 정보나 주민등록번 호 등의 개인정보 유출이 사회적 문제가 된 것과 마찬 가지로, 개인의 위치나 이동 정보가 노출되었을 때는 개인 안전에 대한 물리적인 위해로까지 연결될 수 있 기 때문이다. 국내에서는 2014년 12월에 빅데이터의 수집에서 활용까지 사업자가 지켜야 할 규칙을 제시한
‘빅데이터 개인정보보호 가이드라인’이 발표되었으며, 일반적인 개인정보와 별도로 위치정보의 보호를 위해
「위치정보의 보호 및 이용 등에 관한 법률」이 제정되어 있다. 하지만 과거의 기준으로 만들어진 위치정보 보 호장치가 점차 한계를 드러낼 것으로 지적되고 있고, 기술의 발전에 따라 정보의 분석방법이 발전하고 있는 상황에서는 정보를 활용하는 주체가 지속적으로 위치 프라이버시에 대한 인식을 환기할 필요가 있다.
이 글에서는 빅데이터 시대의 개인 위치정보 보호 의 활용에 대한 이슈사항을 살펴보고, 앞으로 교통분 야에서 빅데이터, 특히 위치를 포함한 빅데이터의 활 용이 늘어날 때 어떠한 주의와 가이드라인이 필요한 지를 점검하고자 한다.
일상에 존재하는 위치 데이터 수집
우리가 사용하는 다양한 위치기반 기술과 서비스는 개인의 이동을 포착하여 정보나 서비스를 제공하고, 데이터로 이를 저장하는 기능을 가지고 있다. 이미 본래의 목적 이외에도 수집된 개인의 데이터를 종합 하여 주요 장소 및 도시 전체의 활동패턴을 파악하는 데 매우 유용하게 사용되고 있으며, 향후 사용 범위 도 늘어나게 될 전망이다. 그 사례로, <그림 1>은 휴 대폰 사용자 위치 빅데이터를 활용하여 제주도 전역 의 활동인구를 시간대별로 시각화한 연구와 주로 레 저활동과 연결될 수 있는 서울동물원 및 서울랜드에 서 일어나는 활동량을 나타낸 연구의 일부다.
또한 특정한 종류의 활동이나 통행을 보조하기 위 해 구축된 시스템의 경우는 도시 내에서 일어나는 이 동패턴의 일부를 매우 정교하게 포착할 수 있다. <그 림 2>는 뉴욕시에서 1년간 1억 7천만여 건의 택시 운 행정보에서 승차한 위치와 하차한 위치를 높은 위치 정밀도로 파악한 사례다. 이렇게 구체적인 정보를 제 공해줄 수 있는 이동정보를 담은 데이터는 향후 도 시·교통 분야에 있어 이용방안이 매우 다양하게 도 출될 수 있을 것이다.
사례에서 살펴본 바와 같이, 스마트폰의 사용이
<그림 1> 휴대폰 사용자 위치 빅데이터의 활용 사례
출처: 김동한 외. 2014; 김종학 외. 2014.
제주도 활동인구의 시간대별 시각화 서울대공원 주요 시설 활동인구
일반화됨에 따라 GPS, Wi-Fi와 같은 측위 센서가 개인의 이동에 함께하게 되었고, 이밖에도 하이패스, 대중교통카드, 신용카드 사용 등을 통해 우리가 거쳐 간 위치가 정확한 시간과 함께 관련 데이터베이스에 기록되고 있다. 측위 센서에 의해 측정된 위치가 아 니더라도 위치기반 쿼리내역이 이용이력으로서 지속 적으로 누적되고 광범위하게 설치된 CCTV에 노출되 는 등 본인이 인지하지 못한 상태에서 개인의 이동이 일상적으로 기록되는 일은 위치기반 서비스의 활용 과 도시 스마트시스템 구축이 확대되고 사물인터넷 개념이 현실화될수록 늘어나게 될 것이다.
시공간상의 이동패턴과 개인정보 노출
앞에서 본 사례에서처럼 개인의 이동패턴을 모으면 도시의 다이내믹한 변화를 감지할 수 있다. 하지만
개인의 이동을 일정 기간 동안 관찰하면, 반복적인 이동패턴을 도출할 수 있고 그중 상당 부분을 예측 하는 것이 가능하다. 따라서 시공간상에서 개인의 이 동패턴은 다른 개인정보 없이도 개인을 특정할 수 있 는 강력한 방법이며(OECD and ITF 2015), 따라서 개인의 프라이버시를 보호하기 위해서는 신용카드나 개인 신상정보와 마찬가지로 수집, 관리, 활용에 주 의를 기울여야 한다. 이미 정부와 기업에서는 기존 개인정보 보호의 차원에서 개인의 위치정보가 과도 하게 노출되지 않도록 익명화, 그룹화하는 등의 노 력을 기울이고 있으며, 국내에도 법적인 조치가 마 련되어 있다(이창범 2012). 하지만 서로 다른 목적 (기업활동의 장려, 개인정보의 보호 등)으로 제정된 법률 사이에 충돌이 발생하기도 하며(김선남, 이환 수 2014), 법적인 조치가 위치정보 수집기술과 분석 기법의 발달에 뒤처져 있다는 분석이 제기되고 있다
<그림 2> 뉴욕시에서 1년간 발생한 1억 7천만여 건의 택시 승·하차 위치
출처: MIT SENSEable City Lab(http://hubcab.org/press/hubcab01.png).
14
(OECD and ITF 2015).
그 예로 다양한 형태로 저장된 위치정보(이동전화 셀타워에 의해 파악된 위치, 사회관계망, GPS 데이 터, 통화이력 등)에 대해 익명화된 정보를 다시 복원 하는 기술(de-anonymization)이 개발되어 테스트 결과 성공률이 50~90%에 이를 것으로 보고되고 있 다(Gambs et al. 2014). 앞서 살펴본 대로 위치정보 의 효용이 높은 만큼 이용방법에 대한 기준과 과도한 개인의 위치정보 노출에 대한 대비가 필요하다는 것 을 보여주는 사례다.
데이터 융합(fusion)에 의한 추가적인 정보노출 가능성도 존재한다. 데이터 융합은 개별적으로 수 집된 데이터가 공통된 연결고리에 의해 결합되었을 때 새로운 정보가 도출되는 것을 말한다. 개별 데이 터는 특정 목적을 위해 수집되었기 때문에 그에 따 라 담을 수 있는 정보에 한계가 있는데, 여러 데이터 가 결합될 경우 서로 모자란 부분이 맞추어지면서 이 전에는 알 수 없었던 새로운 의미를 발견하게 되는 것이다. 앞에서 언급된 익명화된 위치정보의 경우에 도 사회관계망 정보와 함께 분석하면 익명화된 정보 를 복원할 확률이 높아져(Srivatsa and Hicks 2012;
Sharad and Danezis 2013) 데이터 융합의 위력을
단적으로 보여준다.
빅데이터 시대에는 이전보다 많 은 양의 데이터가 발전된 분석방법 에 의해 융합될 수 있어서, 이를 정 부정책 수립이나 기업의 이윤 추구 에 활용할 수 있다. 반면, 여러 주체 가 수집한 데이터가 조합될 경우 과 도하게 드러날 수 있는 개인정보에 대한 고려가 그 어느 때보다도 필요 하다고 하겠다.
위치정보 보호에 대한 해외 동향
2014년 미국에서는 빅데이터의 활용에 대한 두 개의 보고서가 대통령에게 제출되었다. 그중 하나인 ‘Big Data: Seizing opportunities, preserving values’에 서는 빅데이터 활용이 사회를 여러 측면에서 변화시 킬 것이지만, 이러한 과정에서 개인의 권리와 프라 이버시가 침해될 수 있음을 지적하고 있다. 현재의 정보보호에 대한 법률은 제정된 지 오래되어 빅데이 터 시대에 적합하지 않아 앞으로 개인의 정보에 대한 권리를 증대시킬 수 있는 방안이 필요하다는 결론을 내리고 있다. 다른 하나인 ‘Big Data and Privacy:
A technological perspective’에서는 향후 개인의 프 라이버시 침해가능성에 대해 기술적인 측면을 요약 하고 있다. 이 보고서는 위치와 이동 정보를 개별적 으로 다루고 있지는 않지만, 점차 데이터의 수집과 융합 방법이 발달하여 현재 개인정보의 수집단계에 서 일어나는 고지와 사전동의(notice and consent) 에 의한 정보보호는 더 이상 유효하지 않을 것이고, 현재의 익명화 등 정보보호 방법은 빅데이터 분석방 법 발달에 의해 무력화될 수 있음을 지적하고 있다.
따라서 향후 개인과 데이터 사용자 모두에게 이익이
<그림 3> 개인의 시공간 이동궤적에 의한 개인 특정 가능성
출처: OECD and ITF. 2015.
될 수 있도록 빅데이터 활용단계에 대한 정책이 필요 하다는 것이다.
이 두 보고서가 제출된 이후 빅데이터 시대의 개인 정보 중에서도 위치 프라이버시에 관련된 내용은 일 반적인 개인정보 보호에서 한 단계 더 나아가 위치정 보의 특성을 반영할 수 있도록 작성되어야 한다는 지 적이 제기되었다. 특히, 현재보다 현저한 발전을 이 룰 것으로 보이는 위치기반 기술·서비스와 데이터 마이닝 기술에 비해 위치 프라이버시 침해에 대한 대 응이 적합하지 않다는 요지다. 연방지리정보위원회 (Federal Geographic Data Committee)에서는 현재 위치 프라이버시에 대한 제안사항을 마련하고 있으 며, 위치 프라이버시는 새로이 제기되고 있는 이슈이 므로 관련 분야 간의 협업이 필요함을 강조하고 있다 (Pomfret 2015).
OECD와 International Traffic Forum(ITF)은 최 근 교통분야의 빅데이터 활용, 특히 위치와 이동 정 보의 보호에 대한 가이드라인을 제시하였다(OECD and ITF 2015). 다음은 OECD와 ITF가 제시하고 있 는 가이드라인을 요약한 것이다.
첫 번째는 위치와 경로 정보에 가장 강력한 데이 터 보호방법이 적용되어야 한다는 것이다. 포함된 개 인에 대한 정보를 익명화된 데이터에서 추출할 수 없
어야 하며, 여타 데이터 세트와 연결할 수 있는 키값 이 존재해서는 안 되고, 특정 개인이나 그룹을 속성 정보를 이용해서 파악할 수 있어서도 안 된다. 위치 측정 정확도를 낮추거나 속성을 그룹화하는 것도 특 정 개인의 위치와 이동을 추출할 수 없도록 하는 방 법이라 할 수 있다. 두 번째는 익명화와 데이터 암 호화가 함께 적용되어야 한다는 것이다. 예를 들어, C-ITS(Cooperative ITS)에서는 도로인프라와 차량 들 간에 교통상황에 대한 정보 교환이 지속적으로 일 어나는데, 여기서 정보를 주고 받는 개인에 대한 익 명화와 교환되는 데이터에 대한 암호화가 함께 이루 어져야 특정 개인의 위치정보를 트래킹하는 것이 불 가능해지고, 허가 받은 정보제공자만이 믿을 수 있는 정보를 제공하여 시스템 전체의 안전을 보장할 수 있 다. 세 번째는 현재의 정보보호 전략은 곧 한계를 맞 게 될 것임을 예측하고 있다. 따라서 개인은 보호하 고, 데이터를 활용한 혁신은 지속적으로 추구할 수 있도록 ‘데이터의 뉴딜(New Deal on Data)’이 필요 함을 지적하고 있다. 여기서 말하는 데이터의 뉴딜이 란 데이터를 수집하는 주체에게 데이터의 소유권을 넘기는 것이 아니라 개인이 자신의 신체나 돈에 대해 권리를 갖는 것과 마찬가지로 자신에 관한 데이터에 대해 권리를 갖도록 하는 것을 말한다. 네 번째는 공 공과 민간이 모두 데이터에 의한 혜택을 받을 수 있 도록 공공과 민간 사이에 데이터 공유에 대한 협력관 계를 형성할 수 있는 새로운 모델이 필요하다는 것이 다. 세 번째 가이드라인에서 제시한 바와 같이 데이 터에 대한 권리를 개인이 가진다면, 공공 주체가 개 인의 재산이나 범죄에 대한 정보에 접근하고 이에 대 한 공공서비스를 제공하는 것과 마찬가지로 위치나 움직임에 대한 데이터를 적절히 처리한 정보에 대해 서도 유사한 공공의 역할을 정의할 수 있을 것이라고 지적하고 있다. 이러한 전환은 현재 공공기관이 민간
<그림 4> 빅데이터 활용에 대한 두 보고서(미국)
출처: Executive Office of the President. 2014; President’s Council of Advisors on Science and Technology. 2014.
16
회사가 개인에 대해 수집한 데이터를 구매하는 방식 의 고객-판매자 관계를 변화시킬 수 있을 것이라는 제안이다. 우버(Uber)가 서비스를 제공하면서 모은 데이터를 보스턴시에서 교통문제를 해결하는 데 활 용할 수 있도록 제공하는 것처럼 이러한 파트너십을 통해 민간영역에서는 데이터를 활용한 창조적인 비 즈니스를 만들어내고, 공공영역에서는 그 데이터를 통해 시스템을 개선할 수 있는 관계가 형성되는 것이 다. 하지만 이 또한 공유의 범위와 접근할 수 있는 데 이터의 영역에 대한 합의가 이루어져야 하며, 데이터 의 수집이 공공성에 반하지 않는다는 점이 보장되어 야 할 것이다.
맺음말
교통분야의 빅데이터 활용이 첫걸음 단계인 만큼 그 노력은 장려되어야 하며, 공공부문과 기업의 활용방 안 또한 다양하게 모색되어야 할 것이다. 하지만 그 과정에서 사용되는 데이터에 포함된 사람들의 개인 정보와 위치, 이동 정보를 보호하려는 노력은 지속되 어야 한다. 단, 데이터를 보호하는 측면에만 초점을 맞추어 활용을 제한하는 것은 빅데이터 시대의 변화 에 적합하지 않으며, 민간이 일정 수준의 데이터를 수 집하여 활용할 수 있도록 하되 이것이 공공에도 보탬 이 될 수 있도록 하는 방안을 찾는 것이 중요한 이슈 다. 국제적으로 빅데이터에 포함된 개인의 위치와 경 로 정보에 대한 주의사항을 연구하여 가이드라인을 만들어나가고 있는 만큼, 국내에서도 이에 대한 모니 터링을 지속하여 공공의 이익과 민간의 창조적 기업 활동, 개인의 프라이버시 사이에서 균형점을 찾을 수 있는 방안을 지속적으로 만들어나가야 할 것이다.
참고문헌 ---
김동한, 강혜경, 김준기, 한우석, 박준, 강민규, 성혜정, 김은빈. 2014. 공 간 빅데이터를 활용한 국토도시 정책방안 연구. 안양: 국토연구 원.
김선남, 이환수. 2014. 빅데이터 개인정보보호 가이드라인(안)의 개선 방 향에 관한 연구. 정보화정책 21권, 4호: 20-39.
김종학, 고용석, 김준기, 김동한. 2014. 스마트 셀 기반 활동인구의 공간 정책 활용방안 연구. 안양: 국토연구원.
이창범. 2012. 개인정보 보호법. 서울: 법문사.
정선미. 2015. 카카오택시 출시 3주, 이미 대세 … 불금 이태원에서도 OK. 조선일보. 4월 20일. http://news.chosun.com/site/data/
html_dir/2015/04/20/2015042002279.html (2015년 6월 30일 검색).
Executive Office of the President. 2014. Big Data: Seizing opportunities, preserving values. https://www.whitehouse.gov/
sites/default/files/docs/big_data_privacy_report_may_1_2014.
pdf (2015년 6월 25일 검색).
Gambs, S., Killijian, M. O., and del Prado Cortez, M. N. 2014. De- anonymization Attack on Geolocated Data. Journal of Computer and System Sciences 80, no. 8: 1597-1614.
OECD and International Transportation Forum(ITF). 2015. Big data and transport: understanding and assessing options. Paris:
OECD and ITF.
Pompret, K. 2015. Geospatial Privacy Subcommittee Status Report. https://www.fgdc.gov/ngac/meetings/march-2015/
geospatial-privacy-cubcommittee-report-ngac-march-2015.
pdf (2015년 6월 25일 검색).
President’s Council of Advisors on Science and Technology. 2014.
Big data and privacy: a technological perspective. https://
www.whitehouse.gov/sites/default/files/microsites/ostp/
PCAST/pcast_big_data_and_privacy_-_may_2014.pdf (2015 년 6월 25일 검색).
Sharad, K. and Danezis, G. 2013. De-anonymizing D4d Datasets. in Workshop on Hot Topics in Privacy Enhancing Technologies.
Bloomington: De Gruyter.
Srivatsa, M. and Hicks, M. 2012. Deanonymizing Mobility Traces:
Using social network as a side-channel. Proceedings of the ACM conference on Computer and communications security, ed. ACM, 628-637. New York: Association of Computing Machinary.
MIT SENSEable City Lab. http://hubcab.org/press/hubcab01.png.
대중교통 이용자 95% 수준의 교통카드 데이터
교통카드 데이터는 대중교통 이용자의 통행 특성을 가장 현실적으로 반영하는 신뢰도 높은 데이 터다. 2013년 기준 1회권 정기권 이용자 5.3%를 제외하면 대중교통 이용자의 94.7%를 반영하 고 있다. 그러나 이용자의 개인정보 및 사회경제적 지표가 포함되어 있지 않기 때문에 데이터의 분석 및 활용에 한계가 있다.
즉, 교통카드 데이터는 개인기반 자료로 행태에 대한 분석을 기대할 수 있으나 기존에 구축된 교 통카드 관련 자료들은 단순한 기종점통행량(OD) 등 집계자료가 대부분이다. 따라서 교통카드 데이 터와 연계할 수 있는 사회기초자료를 검토하고 이용자의 개인정보를 추가로 조사하여 정책적 시사 성이 높은 통행 특성을 파악한다면 교통카드 데이터의 활용성을 매우 높일 수 있는 여건이 형성된다.
교통카드 데이터 활용도 제고방안
1. 대중교통 통합OD(Trip Chain) 작성
교통카드 데이터를 활용한 기존의 대중교통 개별OD(기존)는 환승 개념이 포함되지 않은 OD 김순관 | 서울연구원 선임연구위원([email protected])
3 교통카드 데이터 활용도 제고방안
18
다. 대중교통 통합OD란 대중교통 개 별OD(기존)에 환승의 개념을 포함시 켜 대중교통수단을 하나로 통합하여 구축하는 OD를 말한다.
즉, 교통카드 동일 이용자가 환승 하지 않거나, 30분 이내 환승한 통행 의 최초역(정류장)에서 최종역(정류장) 까지의 개별 수단을 체인으로 연결한 대중교통 이용OD를 대중교통 통합OD 라 한다.
2. 데이터 오류 수정
교통카드 데이터는 전수에 가까운 대 중교통 이용자 정보이나, 다양한 원인 때문에 일정 부분 오류를 포함하고 있 다. 오류는 크게 데이터 오류, 공간적 오류, 논리적 오류로 대별할 수 있는 데, 2009년 자료를 분석한 결과 <그림 2>와 같은 수준의 오류를 내포하고 있었다. 이러 한 오류 데이터는 논리적 기준을 근거로 수 정할 수 있는데, 2009년 수정 대상 데이터 가 6.15%에서 2013년에는 4.0% 수준으로 개선되었다.
3. 다양한 자료와 연계한 다차원 분석
기존 연구에서는 교통카드 데이터 자체에 대 한 1차원 분석 또는 대중교통 공급자료와 제 한적인 2차원 분석이 주로 이루어졌다. 교통카드 데 이터와 대중교통 공급자료, 사회경제 지표 및 개인 행태를 연계하여 3차원·4차원 분석으로 확장한다면 교통카드 데이터의 활용도가 매우 높아질 것이다. 그
러나 다차원 분석의 전제조건으로 공간적 단위와 시 간 기준이 서로 일치해야 하기 때문에 마이크로한 분 석에는 한계가 있을 수 있다.
<그림 1> 대중교통 통합OD
출처: 김순관 외. 2011.
대중교통 통합OD
대중교통 개별OD 1통행
2통행 1통행 1통행
A B C
버스정류장 지하철역 지하철역
1통행
<그림 2> 교통카드 데이터 통합OD 구축 시 오류 유형
출처: 김순관 외. 2011.
데이터 오류 논리적 오류
공간적 오류 하차 미태그
617,222건
●거리정보 오류
●승·하차시간 오류 - 승차시간 = 하차시간 - 승차시간 > 하차시간
●해당 날짜 범위 외 오류
●정류장 - 행정동 미매칭 오류
●트랜잭션ID, 환승번호 오류
●동일인 사용자 구분코드 불일치
●환승 시 하차지점 - 승차지점 불일치 사용자 구분코드 오류
293,584건
환승지점 오류 2,014,589건 3.33%
2.63%
0.19%
10.85%
교통카드 데이터(2009.10.28 기준) 18,560,858건
승·하차 정류장 동일 487,858건
기타 34,752건
<그림 3> 교통카드 데이터 다차원 분석
출처: 김순관. 2013a.
교통카드 데이터 (수요)
사회경제
지표 이용행태-
파일럿 설문조사
대중교통 운행자료 (공급)
기 존 연 구 1.58%
4. 공유 활성화
교통카드 데이터는 서울시의 한국스마트카드사와 경 기도·인천시의 EB카드사로 나뉘어 있다. 또한 수 도권 지하철·전철 운영기관 간의 수입금 정산 이슈 는 법정소송으로 진행될 정도로 첨예하게 대립되어
있기 때문에 운영기관들이 자료 노출 을 꺼리고 있는 상황이다. 따라서 일 반 이용자들의 교통카드 데이터 전체 를 확보하는 것이 매우 어려운 실정이 다. 자료 공유가 공식적으로 정례화되 어 있는 것은 수도권 3개 기관이 공동 으로 필요로 하는 수단분담률 등의 교 통지표 산출을 위한 ‘수도권 가구통행 실태 조사’와 ‘수도권 여객OD 현행화 공동사업’뿐이다. 교통카드 데이터는 특정 기관의 이해관계를 위한 것이 아 니기 때문에 공유활성화를 통한 이용 확대는 오히려 논쟁의 소지를 줄여줄 것으로 판단된다.
교통카드 데이터 활용 사례
교통카드 데이터 활용 사례는 2010년 10월 21일 자
<그림 4> 교통카드 데이터 요청 절차
출처: 김순관. 2013a.
O/D 서울 인천 경기 기타 합계
서울 7,830,956 152,490 1,196,729 10,365 9,190,540
인천 162,620 1,084,194 97,276 777 1,344,867
경기 1,230,588 98,156 3,475,311 26,656 4,830,711
기타 10,607 1,178 27,246 15,586 54,617
합계 9,234,771 1,336,018 4,796,562 53,384 15,420,735
주: 음영은 서울 관련 통행.
출처: 김순관. 2013a.
<표 1> 대중교통 통합OD(통행량)
(단위: 통행/일)
O/D 서울 인천 경기 기타 합계
서울 50.8 1.0 7.8 0.1 59.6
인천 1.1 7.0 0.6 0.0 8.7
경기 8.0 0.6 22.5 0.2 31.3
기타 0.1 0.0 0.2 0.1 0.4
합계 59.9 8.7 31.1 0.3 100.0
주: 음영은 서울 관련 통행.
출처: 김순관. 2013a.
<표 2> 대중교통 통합OD(비율)
(단위: %) 서울연구원
수도권 교통본부
수도권 교통카드 거래내역
현금승차, 지하철 1회권/정기권 자료보정 에러 수정, 좌표 처리 등 처리시간 소요 서울시
한국스마트카드
서울 관련 교통카드 거래내역
인천시
이비카드(EB카드)
인천 관련 교통카드 거래내역
경기도
이비카드(EB카드)
경기 관련 교통카드 거래내역
20
료를 활용하였다. 개별OD는 2,077만 3,603통행이 나, 통합OD로 작성한 결과 1,542만 735통행으로 나 타났다.
통합OD 중 서울 관련 통행은 68.7%이며, 지자 체별 내부통행 비율은 서울 내부 50.8%, 경기 내부 22.5%, 인천 내부 7.0% 순이다.
대중교통 공급자료는 버스출·도착자료(BMS)와
열차시간표를 이용하여 구축하였으 며, 구축과정은 다음과 같이 버스출·
도착자료와 지하철 열차시각표를 이 용하여 행정동별로 정류장(역)수 및 운행횟수를 구축하였다.
구축된 공급자료를 기반으로 버스 와 지하철의 공급용량을 함께 고려할 수 있는 대중교통 용량공급지수를 다 음과 같이 정의하고 산정하였다.
● 실제 버스 종류 및 지하철 구간별로 공급되는 규모의 차이가 있을 것이 나, 이 분석에서 대중교통 용량공급 지수는 버스 45명/회, 지하철 1,600 인/회(1회: 지하철 1회 운행당 10 량, 160인/량)를 가정함.
● 대중교통 용량공급지수=(버스운행횟수×45인/회) +(지하철운행횟수×160인/량×10량)
대중교통 용량공급지수의 값이 클수록 해당 지역 에 공급되는 대중교통 용량의 규모가 크다고 할 수 있
순위 시·도 시·군·구 공급지수/인구수 순위 시·도 시·군·구 공급지수/인구수
1 서울 중구 199.5 70 경기 화성시 17.3
2 서울 종로구 121.9 71 경기 용인시 수지구 17.1
3 인천 중구 98.1 72 경기 안성시 16.4
4 경기 과천시 65.4 73 경기 오산시 16.2
5 서울 용산구 63.6 74 경기 용인시 기흥구 15.4
6 인천 연수구 61.9 75 경기 가평군 14.1
7 서울 영등포구 60.3 76 경기 여주군 13.0
8 서울 서초구 58.3 77 경기 이천시 10.1
9 서울 강남구 52.6 78 인천 강화군 7.2
10 인천 동구 50.7 79 인천 옹진군 0.7
주: 음영은 서울 3개 도심권(4대문, 강남, 여의도).
출처: 김순관. 2013a.
<표 3> 수도권 인구수당 대중교통 용량공급지수 순위(상·하위 10개 시·군·구)
<그림 5> 대중교통 공급자료 구축 개요
출처: 김순관. 2013a.
기준 시점: 2010년 10월 21일
3단계: 대중교통 용량공급지수
버스공급자료: 버스운행자료(BMS) 지하철공급자료: 노선별 지하철시간표
자료수집
: 서울시·인천시·경기도 버스관리시스템
자료수집 : 6개 지하철기관 [서울메트로, 도시철도공사, 서울시메트로9호선, 인천교통공사, 한국철도공사(공항철도·광역철도)]
문제점
● 통합된 자료 없음 → 홈페이지 및 개별 문의 문제점
● 자료 보유기간 약 3개월 → 자료 확보 어려움
● 시·도별 자료 형태 상이
정리내용
● 1단계: 노선별·정류장별 운행횟수
● 2단계: 행정동별 정류장수 및 버스종류별 운행횟수
정리내용
● 1단계: 노선별·역별 열차시각표
● 2단계: 행정동별·시간대별 열차운행횟수