• 검색 결과가 없습니다.

대중교통 이동 패턴 추출 및 이동 토픽 분석

N/A
N/A
Protected

Academic year: 2024

Share "대중교통 이동 패턴 추출 및 이동 토픽 분석"

Copied!
33
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

토픽 모델링을 이용한

대중교통 이동 패턴 추출 및 이동 토픽 분석

박호성 문수복

KAIST 전산학과

ANLAB

(2)

2

Data Science for Urban Computing

(3)

Urban Mobility 연구의 중요성

대부분의 인구가 도시에서 생활

전세계 인구의 도시거주 비율 54%*

한국의 도시거주 비율은 91.04%**

도시지역의 인간의 이동에 대한 연구

도시 계획, 도시 정책, 토지 이용 계획, 교통 계획 수립의 참고자료 및 통찰을 제공

지역에 알맞은 행사 및 광고, 택시 및 카풀링 시스템 등 응용분야에 활용

(4)

빅데이터 시대의 Urban Mobility 연구

위치기반 서비스

택시

GPS

데이터

이동전화

Call Detail Records (CDR)

대중교통 스마트 카드 데이터

4

(5)

위치기반 서비스 택시 GPS 데이터

이동전화 CDR 대중교통 스마트 카드 데이터 - 정교한 이동 단위

- Geo 태깅 / 트래킹 (GPS)

- 주요 위치 및 음식점 방문기록 (SNS)

- 사용자 관심사 마이닝에 좋음

- 이동 패턴 분석에 좋지 않음

- 정교한 이동 단위 (승하차 위치) - 지점의 의미

- 도로 교통 문제에 적합

- 자유로운 이동경로

- 넓은 이동 단위 (버스 및 지하철역 위치) - 보통의 이동 단위 (셀타워 범위)

(6)

6

위치기반 서비스 택시 GPS 데이터

이동전화 CDR 대중교통 스마트 카드 데이터 - 정교한 이동 단위

- Geo 태깅 / 트래킹 (GPS)

- 주요 위치 및 음식점 방문기록 (SNS)

- 사용자 관심사 마이닝에 좋음

- 이동 패턴 분석에 좋지 않음

- 정교한 이동 단위 (승하차 위치) - 지점의 의미

- 도로 교통 문제에 적합

- 자유로운 이동경로

- 넓은 이동 단위 (버스 및 지하철역 위치) - 지역의 의미

- Urban mobility 일반적인흐름 - 사용자 구분 (성인, 학생, 경로) - 보통의 이동 단위 (셀타워 범위)

- 성긴(sparse) 데이터 포인트, 집/직장에 집중

- 오랜 기간에 걸친 데이터 필요

- OD matrix 생성이 어려움

Urban Mobility 패턴 연구에 적합

(7)

연구 개요

대중교통 스마트카드로 수집된 시민의 이동 정보를 이용하여 대중교통 이동 패턴을 추출하고 이동의 의미를 분석하는 방법을 제시

지역의 의미 추출

Urban Mobility

분석

(8)

방법론 요약

1. 지역의 의미 추출

지역의 연령별, 교육정도별, 주택유형별, 사업체구분별 통계수치에

주성분 분석(PCA) 기법을 적용하여 특성을 추출

지역의 특성에 클러스터링 알고리즘을 적용하여 그룹화

지역 의미 카테고리 정의

2. 이동 패턴 추출

대중교통 데이터와 텍스트 문서 데이터의 유사성에 착안

확률적 토픽 모델링 방법 적용(hLDA)

이동 토픽 트리를 얻음

3. Urban mobility dynamics 분석

추출한 지역의 의미와 이동 패턴을 이용

시간대별, 지역별, 사용자별 분석 가능

8

(9)

Datasets

지역별 공공데이터 + 대중교통 스마트 카드 데이터

(10)

지역별 나이대 , 교육수준 , 주거형태 , 사업체수 통계수치

성별나이대, 가구특성, 종사 자수 제외

(11)

대중교통 스마트 카드 데이터셋

• 2010년 10월 21일 하루, 수도권(서울,경기,인천)

지역 단위

:

행정동

(

월계

1

,

삼성

1

), 1100

개 정도의 행정동

시간 단위

: 1 hour

사용자 구분

:

성인

,

학생

,

경로

,

기타

성인 학생 경로 기타

12,112,652 2,058,768 961,232 344,065

(12)

지역의 의미 추출

지역별 통계수치에 PCA 적용

12

(13)

데이터가 말해주는 지역의 의미

• 공공데이터 지역별 통계수치에 PCA를 적용

PCA는 상관관계가 있는 변수들의 데이터를 선형적으로 상관관계가 없는 새로운 변수들인 주성분의 데이터로 변형시킴

각 지역의 나이대, 교육수준, 주거형태, 사업체수에 적용함

주성분사이의 관계를 확인하고 특성의 차원을 줄임

지역의 특성에 클러스터링 알고리즘

(k-means)

적용

비슷한 특성의 지역들이 비슷한 의미를 갖는 클러스터로 그룹화

유사한 클러스터들을 9개의 의미 카테고리로 묶음

(14)

특성의 상관관계 : 나이대

(15)

전체 특성의 상관관계

대학원(박사과정), 대학원(석사과정) 대학교(4년제이상)

아파트 35~39

20~24, 25~29

55~59, 60~64 단독주택

고등학교

안받았음 초등학교, 중학교

70~74, 75~79,

교육 서비스업

기타 개인 서비스업 제조업 하수폐기물

보건업

숙박 및 음식점업 사업시설관리 및 사업지원,

출판,영상,방송통신 및 정보 서비스, 전문, 과학 및 기술 서비스

금융및보험 예술, 스포츠

건설, 도소매

(16)

K-means clustering

전체 특성에 적용

• PC20 (88.4%), k=25

• 25 clusters, 8 categories (semantics)

(17)

의미 카테고리

(18)

R1 : 고학력 주거지역 / 중심업무지구

(19)

고학력 주거지역

교육 서비스

아파트

4년제대학

석박사 bimodal

(20)

중심업무지구

최고학력

전문, 과학 기술 서비스업 정보서비스업

(21)

U : 대학교

(22)

숙박 및 음식점

25세 전후

4년제 대학

주택+아파트+기타 예술,스포츠,

여가

U : 대학교

(23)

이동 패턴 추출

대중교통 데이터에 Topic modeling Approach(hLDA) 적용

(24)

확률적 토픽 모델링 방법론

각 문서는 여러 개의 토픽으로 이루어져있다고 가정

문서는 토픽 분포를 갖는다

문서를 구성하는 단어들은 위의 토픽 분포에 따라

픽을 배정받는다

문서에 등장하는 각 단어는 토픽으로부터 생성

토픽은 단어 분포를 갖는다

배정 받은 토픽의 단어 분포에 따라 단어가 결정됨

데이터로부터 토픽 분포와 단어 분포를 찾는 방법론

(25)

텍스트 문서와 대중교통 데이터의 유사성

(26)

hLDA : Hierarchical Latent Dirichlet Allocation

일반적인 토픽

구체적인 토픽

Blei et al., Hierarchical topic models and the nested Chinese restaurant process., 2004

(27)

대중교통 데이터에 hLDA 를 적용

• 9 Semantic Clusters : 8 clusters for each semantic category + CBD

사용자 구분

:

성인

,

학생

,

경로

시간대 구분

: T1 ~ T6

출근, 오전, 점심, 오후, 퇴근, 밤

이동 방향

: from / to

 324 corpora에 hLDA 적용

 324

이동 토픽 트리

(28)

Urban Mobility Dynamics 분석

28

(29)

중심업무지구 성인의 이동 패턴

이동 토픽 트리의 시간적 변화

(30)

중심업무지구 성인의 이동 패턴

이동 토픽 트리의 Top2 Level의 분포

퇴근시간, 어느 지역에서 오는가? 30

출근시간, 어느 지역에서 오는가?

(31)

주거지역 (R2) 의 학생과 노인의 이동 패턴

이동 토픽 트리의 시간적 변화

(32)

주거지역 (R2, C14) 의 성인 , 학생 및 노인의 이동 패턴

이동 토픽 트리의 Root 토픽 분포

32

성인, 출근시간, 어디로 가는가?

학생, 출근시간, 어디로 가는가?

학생, 오전시간, 어디로 가는가?

노인, 오전시간, 어디로 가는가?

출발지역 R2, C14

(33)

결론

Urban Mobility Dynamics 분석 방법 제시

데이터에 기반한 방법론을 사용

공공데이터를 사용하여 지역의 의미 추출

대중교통 스마트 카드데이터를 사용하여 이동 패턴 추출

공공데이터와 대중교통데이터가 있는 다른 나라 및 도시에 쉽게 적용 가능함

단순한 통계수치가 아닌 잠재되어있는(latent) 이동 토픽 분석을 통해 도시 계획과 도 시 행정에 새로운 통찰을 줄 수 있음

방법론을 하루치의 데이터가 아닌 장기적인 데이터에 쉽게 적용 가능함

참조

관련 문서