토픽 모델링을 이용한
대중교통 이동 패턴 추출 및 이동 토픽 분석
박호성 문수복
KAIST 전산학과
ANLAB
2
Data Science for Urban Computing
Urban Mobility 연구의 중요성
•
대부분의 인구가 도시에서 생활
• 전세계 인구의 도시거주 비율 54%*
• 한국의 도시거주 비율은 91.04%**
•
도시지역의 인간의 이동에 대한 연구
• 도시 계획, 도시 정책, 토지 이용 계획, 교통 계획 수립의 참고자료 및 통찰을 제공
• 지역에 알맞은 행사 및 광고, 택시 및 카풀링 시스템 등 응용분야에 활용
빅데이터 시대의 Urban Mobility 연구
•
위치기반 서비스
•
택시
GPS데이터
•
이동전화
Call Detail Records (CDR)•
대중교통 스마트 카드 데이터
4
위치기반 서비스 택시 GPS 데이터
이동전화 CDR 대중교통 스마트 카드 데이터 - 정교한 이동 단위
- Geo 태깅 / 트래킹 (GPS)
- 주요 위치 및 음식점 방문기록 (SNS)
- 사용자 관심사 마이닝에 좋음
- 이동 패턴 분석에 좋지 않음
- 정교한 이동 단위 (승하차 위치) - 지점의 의미
- 도로 교통 문제에 적합
- 자유로운 이동경로
- 넓은 이동 단위 (버스 및 지하철역 위치) - 보통의 이동 단위 (셀타워 범위)
6
위치기반 서비스 택시 GPS 데이터
이동전화 CDR 대중교통 스마트 카드 데이터 - 정교한 이동 단위
- Geo 태깅 / 트래킹 (GPS)
- 주요 위치 및 음식점 방문기록 (SNS)
- 사용자 관심사 마이닝에 좋음
- 이동 패턴 분석에 좋지 않음
- 정교한 이동 단위 (승하차 위치) - 지점의 의미
- 도로 교통 문제에 적합
- 자유로운 이동경로
- 넓은 이동 단위 (버스 및 지하철역 위치) - 지역의 의미
- Urban mobility 의 일반적인흐름 - 사용자 구분 (성인, 학생, 경로) - 보통의 이동 단위 (셀타워 범위)
- 성긴(sparse) 데이터 포인트, 집/직장에 집중
- 오랜 기간에 걸친 데이터 필요
- OD matrix 생성이 어려움
Urban Mobility 패턴 연구에 적합
연구 개요
•
대중교통 스마트카드로 수집된 시민의 이동 정보를 이용하여 대중교통 이동 패턴을 추출하고 이동의 의미를 분석하는 방법을 제시
지역의 의미 추출
Urban Mobility
분석
방법론 요약
• 1. 지역의 의미 추출
• 각 지역의 연령별, 교육정도별, 주택유형별, 사업체구분별 통계수치에
주성분 분석(PCA) 기법을 적용하여 특성을 추출
• 지역의 특성에 클러스터링 알고리즘을 적용하여 그룹화
• 지역 의미 카테고리 정의
• 2. 이동 패턴 추출
• 대중교통 데이터와 텍스트 문서 데이터의 유사성에 착안
• 확률적 토픽 모델링 방법 적용(hLDA)
• 이동 토픽 트리를 얻음
• 3. Urban mobility dynamics 분석
• 추출한 지역의 의미와 이동 패턴을 이용
• 시간대별, 지역별, 사용자별 분석 가능
8
Datasets
지역별 공공데이터 + 대중교통 스마트 카드 데이터
지역별 나이대 , 교육수준 , 주거형태 , 사업체수 통계수치
성별나이대, 가구특성, 종사 자수 제외
대중교통 스마트 카드 데이터셋
• 2010년 10월 21일 하루, 수도권(서울,경기,인천)
•
지역 단위
:행정동
(월계
1동
,삼성
1동
), 1100개 정도의 행정동
•
시간 단위
: 1 hour•
사용자 구분
:성인
,학생
,경로
,기타
성인 학생 경로 기타
12,112,652 2,058,768 961,232 344,065
지역의 의미 추출
지역별 통계수치에 PCA 적용
12
데이터가 말해주는 지역의 의미
• 공공데이터 지역별 통계수치에 PCA를 적용
• PCA는 상관관계가 있는 변수들의 데이터를 선형적으로 상관관계가 없는 새로운 변수들인 주성분의 데이터로 변형시킴
• 각 지역의 나이대, 교육수준, 주거형태, 사업체수에 적용함
• 주성분사이의 관계를 확인하고 특성의 차원을 줄임
•
지역의 특성에 클러스터링 알고리즘
(k-means)적용
• 비슷한 특성의 지역들이 비슷한 의미를 갖는 클러스터로 그룹화
• 유사한 클러스터들을 9개의 의미 카테고리로 묶음
특성의 상관관계 : 나이대
전체 특성의 상관관계
대학원(박사과정), 대학원(석사과정) 대학교(4년제이상)
아파트 35~39
20~24, 25~29
55~59, 60~64 단독주택
고등학교
안받았음 초등학교, 중학교
70~74, 75~79,
…
교육 서비스업
기타 개인 서비스업 제조업 하수폐기물
보건업
숙박 및 음식점업 사업시설관리 및 사업지원,
출판,영상,방송통신 및 정보 서비스, 전문, 과학 및 기술 서비스
금융및보험 예술, 스포츠
건설, 도소매
K-means clustering
•
전체 특성에 적용
• PC20 (88.4%), k=25
• 25 clusters, 8 categories (semantics)
의미 카테고리
R1 : 고학력 주거지역 / 중심업무지구
고학력 주거지역
교육 서비스
아파트
4년제대학
석박사 bimodal
중심업무지구
최고학력
전문, 과학 및 기술 서비스업 정보서비스업
U : 대학교
숙박 및 음식점
25세 전후
4년제 대학
주택+아파트+기타 예술,스포츠,
여가
U : 대학교
이동 패턴 추출
대중교통 데이터에 Topic modeling Approach(hLDA) 적용
확률적 토픽 모델링 방법론
• 각 문서는 여러 개의 토픽으로 이루어져있다고 가정
• 각 문서는 토픽 분포를 갖는다
• 문서를 구성하는 단어들은 위의 토픽 분포에 따라 토
픽을 배정받는다
• 문서에 등장하는 각 단어는 토픽으로부터 생성
• 각 토픽은 단어 분포를 갖는다
• 배정 받은 토픽의 단어 분포에 따라 단어가 결정됨
• 데이터로부터 토픽 분포와 단어 분포를 찾는 방법론
텍스트 문서와 대중교통 데이터의 유사성
hLDA : Hierarchical Latent Dirichlet Allocation
일반적인 토픽
구체적인 토픽
Blei et al., Hierarchical topic models and the nested Chinese restaurant process., 2004
대중교통 데이터에 hLDA 를 적용
• 9 Semantic Clusters : 8 clusters for each semantic category + CBD
•
사용자 구분
:성인
,학생
,경로
•
시간대 구분
: T1 ~ T6• 출근, 오전, 점심, 오후, 퇴근, 밤
•
이동 방향
: from / to 324 corpora에 hLDA 적용
324
이동 토픽 트리
Urban Mobility Dynamics 분석
28
중심업무지구 성인의 이동 패턴
•
이동 토픽 트리의 시간적 변화
중심업무지구 성인의 이동 패턴
•
이동 토픽 트리의 Top2 Level의 분포
퇴근시간, 어느 지역에서 오는가? 30
출근시간, 어느 지역에서 오는가?
주거지역 (R2) 의 학생과 노인의 이동 패턴
•
이동 토픽 트리의 시간적 변화
주거지역 (R2, C14) 의 성인 , 학생 및 노인의 이동 패턴
•
이동 토픽 트리의 Root 토픽 분포
32
성인, 출근시간, 어디로 가는가?
학생, 출근시간, 어디로 가는가?
학생, 오전시간, 어디로 가는가?
노인, 오전시간, 어디로 가는가?
출발지역 R2, C14
결론
• Urban Mobility Dynamics 분석 방법 제시
• 데이터에 기반한 방법론을 사용
• 공공데이터를 사용하여 지역의 의미 추출
• 대중교통 스마트 카드데이터를 사용하여 이동 패턴 추출
• 공공데이터와 대중교통데이터가 있는 다른 나라 및 도시에 쉽게 적용 가능함
• 단순한 통계수치가 아닌 잠재되어있는(latent) 이동 토픽 분석을 통해 도시 계획과 도 시 행정에 새로운 통찰을 줄 수 있음
• 방법론을 하루치의 데이터가 아닌 장기적인 데이터에 쉽게 적용 가능함