Analysis of the Seoul public bikes usage for new rental locations
Yesool Kima Sion Parka Gunwoong Parka,1
aDepartment of Statistics, University of Seoul
(Received August 4, 2020; Revised September 9, 2020; Accepted September 21, 2020)
Abstract
Seoul public bike program facilitates access to bicycles and offers potential for greater mobility and health for users.
Furthermore, it would have positive impacts on transport congestion, energy use, and the environment. Hence, it is important to find future rental locations by taking to account both bike-demand and regional imbalance. This paper first finds eligible candidates of rental locations with the required spatial conditions such as a sufficient sidewalk width and accessibility of bike pick-up vehicles. And then, estimates public bike daily usage for each selected location via random forest based on Seoul public bike historical usage, Seoul geographical features, regional characteristics, and populations. This study contributes to a better comprehension of the Seoul public bike program, and would be useful in determining new public bike rental locations.
Keywords: new rental location, public bike, public transportation, random forest, usage estimation
1. 서문
최근 에너지 및 환경에 대한 중요성이 부각되면서 각 국가 및 도시들은 이산화탄소 저감과 대중교통 접근 성 문제를 보완 및 대체할 수 있는 교통수단으로서 공공자전거에 주목하였다. 우리나라에서도 이러한 흐 름에 맞추어 서울특별시의 따릉이, 대전광역시의 타슈, 고양시의 피프틴, 창원시의 누비자 등 공공자전거 시스템의 구축 사례가 점차 확대되고 있는 추세이다. 특히, 서울시 공공자전거 따릉이의 경우 2015년 도입 된 이후로 현재 사용자 수가 매년 88% 이상 증가하며, 2019년 12월 31일 기준으로 171만 명의 누적 회원 수 와 3,589만 건의 연간 이용건수를 기록하고 있다. 누적 이용거리로만 보아도 1억 4000만km에 육박하며 이 에 따르는 온실가스 저감량은 1km 당 약 0.192kg으로 추정된다 (Kim, 2010).
초기 대여소는 시간적, 공간적 제약과 공공자전거 관련 데이터의 부재로 인하여 유동인구가 많은 한강과 시청을 중심으로 배치되었으며, 2016년을 기점으로 서울시 전역에 배치되기 시작하였다. 현재 공공자전 거 시스템은 그 규모가 커짐에 따라 사용자의 만족과 자원의 효율적 사용을 위한 운영관리의 필요성이 부 각 되고 있다. 예를 들어, 초기 대여소의 위치 선정은 민원과 현장 답사를 바탕으로 보도폭 4m(유효보도 폭 2m) 이상인 보도에 설치되었다. 대여소마다 거치되는 자전거 수 역시 관리자의 경험에 의존하는 방법 을 택하여 자전거가 남거나 부족한 경우가 많았다. 이러한 문제점을 해결하기 위하여 기존의 경험적인 방
This work was supported by the 2020 Research Fund of the University of Seoul.
1 Corresponding author: Department of Statistics, University of Seoul, 163 Seoulsilipdae-ro, Seoul 02504, Korea.
E-mail: [email protected]
식에서 벗어나, 자전거 및 도보 네트워크와 교통수단, 교육시설, 상업시설 등 도시 전체의 시설들을 고려 하는 과학적이고 객관적인 자전거 수요 예측에 대한 연구가 활발히 진행되고 있다 (Jung 등, 2018; Lee와 Son, 2019).
본 연구에서는 수요 예측 기반 공공자전거 신규 대여소 입지 선정을 위하여 서울시 전지역의 자전거 이용 량을 예측하는데 초점을 맞추었다. 이를 위해 2019년 1월 1일부터 12월 31일까지의 공공자전거 이용내역 18,882,563건과 자전거 도로 및 보도 데이터, 건물, 하천, 고도 등의 지형지물 데이터, 대중교통(지하철과 버스) 위치 및 이용량 데이터와 생활인구 및 주거인구 데이터를 이용하였다.
신규 대여소 입지에 대한 자전거 이용량을 예측하기 위하여 본 연구에서는 선형 회귀 모형(linear regression model)과 랜덤 포레스트(random forest)를 고려하였다. 선형 회귀 모형은 종속변수와 독립변수 간의 선형 성 가정하에 계산이 쉽고 빠르며, 결과에 대한 설명이 용이하다는 장점이 있다. 반면 랜덤 포레스트는 해 석이 어렵다는 단점은 있지만, 예측력에서 우수한 성능을 보인다. 특히 랜덤 포레스트는 종속변수와 독립 변수 간의 선형성 가정이 필요하지 않고, 변수들의 교호작용(interaction) 역시 설명 가능한 장점이 있다.
자전거 이용량 예측을 위해 고려한 두 모형을 객관적으로 평가 및 비교하기 위하여 K-겹 교차검증 (K-fold cross validation) 방법을 이용하였다. 특히 본 연구는 공공자전거 이용량 예측에 초점을 두고 두 모형을 비 교하였으며, 이를 통해 선형 회귀 모형보다 랜덤 포레스트가 더 나은 결과를 도출 하는 것을 확인할 수 있 었다. 뿐만 아니라 평균 경사도가 낮고, 지하철 이용량과 유동 및 거주인구가 많으며 지하철역, 하천, 특화 구역 등과의 거리가 가까운 후보지에서 높은 자전거 이용량이 예측됨을 확인 할 수 있었다.
본 연구의 구성은 다음과 같다. 2절에서는 공공자전거와 관련된 선행 연구의 방법과 결과에 대해 간단히 설명하고, 3절에서는 본 연구에서 사용한 데이터와 전처리 방법 그리고 분석 방법 및 결과에 대해 설명한 다. 그리고 4절에서는 연구의 결과를 요약하며 결론을 맺는다.
2. 선행 연구
공공자전거에 관련된 선행 연구들은 크게 공공자전거 이용특성 분석, 재고관리 시스템 분석을 중심으로 이루어졌다. 예를 들어 Jang 등 (2016)은 지역적 특성에 따른 자전거 통행 형태를 분석하기 위하여 서울시 주거업무 중심 지역인 여의도 및 상암 지구를 대상으로 공공자전거 대여소 위치 선정에 대한 정책적 시사 점을 제시하였다. Jang 등 (2016)은 대여소 명을 기준으로 대여소가 위치한 지역을 업무지구, 지하철지구, 주거지구로 구분하였으며 이를 바탕으로 대여 및 반납 위치, 대여소 인근의 지역적 특성, 이용 시간대 등 에 따라 통행 특성을 구분하여 분석하였다. 분석 결과, 주거업무 복합지구 내에서의 자전거 이용은 업무 및 환승 목적으로 이용되며, 대여소와 지하철역의 거리가 멀어질수록 자전거 이용량은 증가하지만, 1km 를 기준으로 멀어질수록 이용량이 감소한다는 것을 확인할 수 있었다. 이러한 지역적 특성과 이용시간대 에 따른 대여소 이용량을 바탕으로 여의도의 경우 오전엔 주거지역, 점심에 공원 인근 지역, 저녁에 주거 및 지하철 지역에 위치한 대여소에 자전거 배치의 필요성을, 상암의 경우 오전에 지하철 지역, 점심에 공 원 인근 지역, 저녁에 업무지역에 위치한 대여소에 자전거 배치의 필요성을 확인할 수 있었다.
Kim 등 (2012)은 고양시 공공자전거 이용 데이터와 기상 데이터를 활용하여 날씨와 자전거 이용의 관계에 대하여 회귀 분석 모형을 이용하여 분석하였다. 특히 온도변수의 경우 23℃를 기준으로 낮은 온도에서 23℃
까지는 자전거 이용이 증가하지만 23℃를 넘으면 자전거 이용이 감소하는 경향을 보이며, 강수량과 구름 량은 자전거 이용에 부정적인 영향을 주는 것으로 나타났다. 또한 Kim 등 (2012)은 추가적으로 기상 데이 터 이외에 휴일 여부에 대한 더미변수를 이용하였으며, 그 결과 휴일에 자전거 이용이 평일보다 높음을 확 인하였다.
Table 3.1. Descriptions of considered data sets
데이터 셋명 수집기간 및 등록일 데이터 설명
공공자전거 대여이력 2019.01.01–2019.12.31 대여 위치, 시간 및 사용자 정보 대여소 정보 2015.09.06–2020.03.04 대여소 ID 및 위경도 좌표 대중교통
버스 승객수 2019.01.01–2019.12.31 노선/정류장별 승하차 인원
버스 정류장 위치 2020.03.06 위경도 좌표
지하철 승객수 2019.01.01–2019.12.31 역별 승하차 인원
지하철역 위치 2020.04.21 역/출구별 위경도 좌표
인구 서울시 생활인구 2017.01–2017.05 집계구별 인구
주거인구 2016.01 셀(100×100m)별 인구
지형지물
도로명 주소 건물 2020.03 건물 모양 및 위치
영화관 정보 2019.01.01–2019.12.31 위경도 좌표
하천망도 2016.01.21 하천 모양 및 위치
수치표고모형(DEM) 2015.11.06 표고 좌표
자전거 도로 2018.07.26 도로 모양 및 위치
보도 2020.03.22 보도 모양 및 위치
최근 Lee 등 (2016)은 덕양구를 제외한 고양시를 대상으로 시간대별 공공자전거 이용량에 대해 기상 데이 터와 지역적 특성을 모두 고려하여 회귀 분석 모형을 통해 분석하였다. 이 때 Lee 등 (2016)은 기상조건 변 수와 요일 변수, 입지특성 변수에 추가적으로 고온, 풍속, 강수량 더미변수를 이용하였으며 각 더미변수가 일정 수 치 이상인 경우 자전거 이용량이 감소한다는 현상을 반영함으로써 모형의 결정계수 수치를 높였 다. 이를 바탕으로 평균 기온이 높아질수록 대여량은 증가하지만 평균 기온 29℃ 이상, 강수량 10mm 이상, 풍속 7m/s 이상인 경우 평균 대여량은 감소함을 확인하였다.
선행 연구들은 공공자전거 이용 특성과 기후 및 지역적 특성을 이용하여 공공자전거 이용량을 분석하였 다는 점에서 의의가 있다. 하지만 선행 연구들은 서울시 전 지역이 아닌 특정 지구 또는 타지역의 공공자 전거 이용특성 파악에 초점을 맞추었다. 또한 신규 대여소 설치 가능 지역에 대한 분석이 아닌 기존 대여 소의 자전거 추가 배치의 필요성 및 기후와 지역적 특성에 따른 공공자전거 이용량 변화에 집중하여 신규 대여소 입지 선정에 직접적으로 활용되기 어렵다. 따라서 본 연구에서는 서울시 공공자전거 신규 대여소 입지 선정을 목적으로, 공공자전거 대여소 설치를 위한 공간적 조건을 만족하는 대여소 후보지를 찾고 각 각의 일평균 예상 이용량을 추정하였다.
3. 연구의 내용 및 방법
이 절에서는 본 연구에서 사용한 데이터와 전처리 과정 그리고 선형 회귀 모형, 랜덤 포레스트를 이용하여 분석한 결과를 설명한다.
3.1. 데이터 전처리
본 연구에서 사용한 데이터는 서울시 공공자전거 데이터, 대중교통 데이터, 인구 데이터, 지형지물 데이터 로 구분할 수 있으며, Table 3.1은 데이터의 이름과 수집기간 및 등록일, 간단한 데이터 설명을 나타낸다.
공공자전거 데이터는 서울시 자전거정책과에서 제공하는 데이터로, 2019년도 일일 공공자전거 이용내역 과 대여소 정보로 구분된다. 자전거 대여 및 반납 장소, 날짜, 시간을 비롯하여 이용객 연령대(10대, 20대,
…, 70대 이상)과 지불형태(7일(1시간권), 30일(1시간권), …, 종일권(비회원)), 사용자 정보(회원, 비회원, 외국인) 등이 이용내역에 포함되고, 각 대여소의 ID 및 위치 등이 대여소 정보에 포함되어 있다.
대중교통과 인구 데이터는 서울 열린데이터 광장(https://data.seoul.go.kr/)과 국가공간정보포털(http://
www.nsdi.go.kr/)에서 제공하는 데이터로, 대중교통 데이터는 버스 정류장과 지하철역 위치, 그리고 버스 와 지하철의 노선 정보 및 일일 이용량으로 이루어져 있다. 이에 추가적으로 지리정보체계 프로그램인 QGIS를 이용하여 2020년 4월 21을 기준으로 지도를 통해 지하철역과 출입구 위치 데이터를 생성하였다.
그리고 인구 데이터는 생활인구와 주거인구로 구성되며, 여기서 생활인구의 경우 집계구에 따라 시간대 및 연령대별 생활인구 정보가 포함되어 있다. 또한 주거인구의 경우 100m×100m 셀로 나누어진 형태로 각 셀에 연령대별 주거인구 정보가 포함되어 있다.
마지막으로 지형지물 데이터는 서울 열린데이터 광장과 국가공간정보포털, 한국에스리 오픈데이터 (https://data-esrikrmkt.opendata.arcgis.com/), 영화관 입장권 통합전산망(http://www.kobis.or.kr/kobis/
business/main/main.do)에서 서울시 건물의 위치 및 용도가 명시된 데이터와 영화관 위치, 하천망도 모양 및 위치, 수치표고모형, 자전거 도로, 인도 모양 및 위치 데이터를 수집하였다. 여기서 수치표고모형이란 좌표에 따른 지형의 고도값이 수치로 저장된 데이터이다.
건물 데이터의 경우 유형이 주거인 건물에 대하여 아파트, 오피스텔, 기숙사를 주거건물로, 그 외의 단독 주택, 연립주택 등을 기타주거건물로 구분하였다. 그리고 관광구역은 테마파크 및 역사 관련 명소로 정의 하였고, 특화구역의 경우 서울시 젠트리피케이션(gentrification) 종합대책을 기반으로 상업 젠트리피케이 션 현상이 발생한 지역으로 정의하였다. 여기서 상업 젠트리피케이션 현상이란, 상대적으로 임대료가 저 렴한 주거 지역을 중심으로 소상공인과 예술가들의 유입에 따른 독창적인 문화가 형성되어 소규모, 부티 크 상점과 유동인구의 증가로 인해 골목 상권이 활성화되는 한편, 지가 및 임대료 상승으로 인해 거주민과 사업체가 다른 지역으로 밀려나는 현상을 의미한다 (Lee 등, 2018).
본 연구에서는 각 대여소가 가진 주변 환경 정보를 할당하고자 다음과 같이 데이터를 가공하였다. 첫 번째 로 각 대여소와 모든 주요 시설물(지하철역, 자전거 도로, 공공구역, 문화구역, 관광구역, 교육구역, 상업구 역, 의료구역, 주차구역, 체육시설구역, 하천구역 등) 사이의 거리를 각각 구하였다. 두번째로 주거 유형 건 물에 대하여 각 대여소 반경 200m 내에 위치하는 각 주거 건물들의 면적 합을 이용하였다. 그리고 세번째 로 각 대여소의 중심을 기준으로 200m 반경 내에 위치하는 주거 및 유동인구와 버스 및 지하철 이용량, 버 스 경유 노선 수의 합을 이용하였다. Figure 3.1은 대여소 인근의 지역적 특성을 파악하기 위해 대여소와 시설물 간의 접근성을 수치화한 데이터 전처리 과정을 나타낸다.
Figure 3.1(a)는 대여소를 기준으로 모든 시설물 및 구역과의 최단거리를 구한 과정을 나타낸다. 대여소로 부터 주요 시설물 사이의 최단거리(m)를 계산함으로써 공공자전거 대여소와 각 시설물별 접근성을 수치 화하였다. Figure 3.1(b)는 대여소를 기준으로 200m 반경 내에 위치한 주거건물(아파트, 오피스텔, 기숙사), 기타주거건물(단독주택, 주택, …) 각각의 면적의 합계(∑b∈B Ab, b∈B)를 이용하였다. 여기서 B는 대여소 반경 200m 내에 위치하는 건물들을, Ab∈B는 대여소 반경 200m 내에 위치하는 b (기타) 주거건물의 면적을 의미한다.
Figure 3.1(c)는 대여소를 기준으로 200m 반경 내에 위치한 버스 및 지하철 이용량, 버스 경유 노선 수의 합 과 주거 및 유동인구의 합을 구하는 방법이다. 이를 상세히 설명하면, 우선 버스 데이터의 경우 대여소 기 준 200m 내에 위치하는 버스 정류장에서 집계된 일평균 이용량의 합계와 경유 노선 수의 합계를 산출하 였다. 이와 마찬가지로 지하철 데이터의 경우 대여소 반경 200m 내에 위치하는 지하철 출입구와 대응하는 지하철역의 일평균 이용량의 합계를 이용하였다. 그리고 주거인구의 경우 대여소 반경 200m 내에 위치하
(a) 주변 시설물과의 거리 계산 (b) 200m 반경 내 주거면적 계산 (c) 200m 반경 내 승하차수 계산 Figure 3.1. Examples of Data Preprocessing Procedures.
는 100m×100m로 이루어진 셀들에 할당된 주거인구의 합을 계산하였으며, 유동인구의 경우 생활인구 데 이터와 건축물 각 층 의 바닥면적을 합한 총면적인 연면적(gross floor area) 데이터를 이용 하였다. 본 연구 에서 각 대여소 반경 200m 내의 연령대 유동인구 는 다음의 식을 통해 계산하였다.
,∈
GFA
∑∈GFA
1
| |
∈
∈
| ,, ,,| , ∈ , ∈ . (3.1)
이때 는 날짜, 는 시간대 (0, 1, …, 23), 는 연령대(10대미만, 10대, …, 70대이상), 은 집계구에 속한 건물들의 집합을 나타내며, GFA∈는 집계구의 건물의 연면적을, ,,는 집계구 날짜 시간 연령 대의 생활인구를 의미한다. 또한 , | 대여소 반경 200m 내에 속하는 집계구의 번째 건물}이다.
다시 말해, 집계구별 생활인구 데이터를 바탕으로 각 시간대, 연령대별 생활인구의 절대차의 합을 통해 시 간대, 연령대별 집계구의 유동인구를 계산하였다. 그리고 건물들의 연면적에 비례하여 유동인구를 건물에 할당하였으며, 이를 바탕으로 대여소 반경 200m 내의 건물들에 할당된 유동인구의 합을 계산하였다.
추가적으로 Figure 3.1(c)의 방법과 수치표고모형의 규칙적인 픽셀 크기를 가진 격자형 데이터인 래스터 (raster) 데이터를 이용하여 각 셀에 대한 고도 변화율을 통해 픽셀 크기의 경사를 계산하였다. 그리고 이 를 바탕으로 대여소 반경 200m 내의 경사도의 평균을 산출하였으며, 본 연구에서 이를 평균 경사도로 정 의하였다.
3.2 기초 통계 분석
높은 이용량을 보이는 대여소들의 특징을 살펴보기 위해 Figure 3.2에서 이용량이 많은 서로 다른 특징을 갖는 6개 대여소를 소개한다. 여기서 빨간색은 해당 대여소의 일평균 대여량을, 파란색은 일평균 반납량 을 나타낸다. 따라서 Figure 3.2의 모든 대여소들은 일평균 대여량과 반납량이 평균(대여: 34, 반납: 34)보 다 많은 것을 볼 수 있다. 그리고 Figure 3.2(a)를 제외한 5개 대여소들은 대여소 반경 200m 내의 20대 유동 인구가 다른 연령대 유동인구에 비해 많고, 버스 이용량 역시 평균적으로 22,640회로 매우 많다. 또한 Figure 3.2(e)를 제외한 5개 대여소들은 평균 경사도 0.81˚로 평지에 가깝고, Figure 3.2(e)의 경우에도 평균 경사도 1.95 ∘로 비교적 완만한 지역에 위치한다.
특히 Figure 3.2(a)는 대여소로부터 자전거 도로, 공원까지의 거리가 각각 4.38m, 89.59m로 접근성이 높으 며, Figure 3.2(b)는 대여소 반경 200m 내의 버스 경유 노선이 39개로 가장 많고 버스 이용량 역시 43,601회 로 가장 많으며, 대여소로부터 특화구역까지의 거리가 62.6m로 접근성 또한 높다. 그리고 Figure 3.2(c)는
(a) 뚝섬유원지역 1번 출구 앞 (b) 홍대입구역 2번 출구 앞 (c) 롯데월드타워(잠실역 2번 출구 쪽)
(d) 고속터미널역 8-1, 8-2번 출구 사이 (e) 안암로터리 버스 정류장 앞 (f) 마포구민체육센터 앞 Figure 3.2. Examples of public bike rental locations with high-level bike usages and different regional characteristics.
대여소 반경 200m 내의 지하철 이용량은 195,777회로 가장 많고, 대여소로부터 지하철역과 관광구역까지 의 거리가 각각 22.2m, 79.76m로 접근성이 높으며, Figure 3.2(d) 또한 대여소로부터 지하철역까지의 거리가 28.21m로 접근성이 높고 대여소 반경 200m 내의 버스 정류장에서 버스 이용량은 39,903회로 많은 이용량을 보인다. Figure 3.2(e)는 대여소로부터 대학교와 초⋅중⋅고등학교, 의료구역까지의 거리가 각각 110.91m, 157.27m, 279.72m로 접근성이 높으며, Figure 3.2(f)는 대여소 반경 200m 내의 기타 주거건물의 면적이 12,531m2로 가장 넓고 대여소로부터 자전거 도로까지의 거리가 66.17m로 접근성이 높다는 특징을 볼 수 있다.
앞서 설명한 변수들이 자전거 이용량과 연관성이 높은지 확인하기 위하여 Figure 3.3에서 기존 대여소 1,551 개의 일평균 이용량과 대여소 주변 특성을 지도 위에 나타내었다. 자세히 설명하면 Figure 3.3(a)는 공공자 전거 대여소별 일평균 대여량과 반납량을 합한 값인 일평균 이용량을 나타내고, Figures 3.2 (b){(e)는 각각 대여소 반경 200m 내의 버스와 지하철 이용량, 유동인구, 평균 경사도의 분포를 나타낸다. 마지막으로 Figure 3.3(f)는 대여소별 가장 가까운 하천까지 거리를 나타낸다. 여기서 Figures 3.3 (a){(f)는 등분위수를 이용하여 총 5단계를 구분하였으며, 특히 Figure 3.3(c)에서 약 66%의 공공자전거 대여소 인근에 지하철역 이 위치하지 않기 때문에 해당 대여소의 지하철 이용량이 0으로 집계되었다.
Figure 3.3(a)의 공공자전거 일평균 이용량 상위 20% 대여소들은 Figures 3.3 (b){(f)에서 공통적으로 대여 소 인근에서 버스와 지하철 이용량, 유동인구가 많으며, 대여소들은 하천과의 거리가 가깝고, 평균 경사도 가 낮은 지역에 위치한다는 것을 확인할 수 있다. 이와 반대로 Figure 3.3(a)의 공공자전거 일평균 이용량 하위 20% 대여소들 중 강남구에 위치한 대여소를 제외하면 Figures 3.3 (b){(f)에서 버스와 지하철 이용량, 유동인구가 적으며, 대여소와 하천 사이의 거리가 멀고 평균 경사도가 높은 지역에 위치해 있다는 것 역시 확인할 수 있다.
(a) 공공자전거 이용량(회) (b) 버스 이용량(회) (c) 지하철 이용량(회)
(d) 유동인구(명) (e) 평균 경사도(∘) (f) 하천과의 거리(m)
Figure 3.3. The average daily bike usages of 1,551 rental locations and their surrounding facilities’ distributions.
Table 3.2. The characteristics and correlation coefficient of the surrounding facilities (buses and subway usage, the number of floating population, average gradient, and distance between rental location and stream) by the quantile of public bike rental locations use
공공자전거 이용량(회) 버스 이용량(회) 지하철 이용량(회) 유동인구(명) 평균 경사도(∘) 하천과의 거리(m)
상위 20% 미만 8509.05 28362.11 20824.18 1.05 766.17
상위 20% 이상 40% 미만 6435.84 19481.44 18597.33 1.34 719.87 상위 40% 이상 60% 미만 6071.78 14762.68 16968.28 1.82 908.28 상위 60% 이상 80% 미만 5062.89 10253.24 14285.34 2.36 1002.83
상위 80% 이상 3257.52 5574.89 10578.41 3.65 1108.68
상관계수 0.28 0.29 0.39 {0.49 {0.14
이러한 지역적 특성을 대여소 이용량 분위수에 따른 수치로 표현하면 Table 3.2와 같다. 이용량 상위 20%
미만에 해당하는 대여소들은 평균적으로, 대여소 반경 200m 내의 버스와 지하철 이용량이 각각 8,509회, 28,362회이고 유동인구는 약 20,824명으로 가장 많고, 평균 경사도는 1.05 ∘로 평지에 위치하며, 대여소와 하천 사이의 거리가 약 766m로 매우 가까운 것을 확인 할 수 있다. 이와 반대로 이용량 상위 80% 이상인 대여소들은 평균적으로, 버스와 지하철 이용량이 각각 3,258회, 5,575회이고 유동인구는 약 10,578명으로 가장 적은 것을 확인 할 수 있다. 또한 평균 경사도가 3.65 ∘로 가장 높고, 대여소와 하천과의 거리 역시 약 1,109m로 가장 먼 것을 볼 수 있다.
이러한 공공자전거 대여소 이용량과 지역적 특성들 사이의 상관관계를 확인하기 위하여 본 연구에서는 변 수들의 단조 관계를 파악하는 방법인 스피어만의 순위 상관계수를 이용하였다. 그 결과 공공자전거 이용 량은 유동인구와 0.39, 지하철 이용량과 0.29, 버스 이용량과 0.28으로 양의 상관관계를 가지며, 평균 경사 도와 하천과의 거리는 각각 {0.49, {0.14의 음의 상관관계를 가짐을 볼 수 있었다. 이를 통하여 대여소 반경
Table 3.3. All 39 variables used in the analysis
데이터 변수명
대중교통 버스(개, 회) 버스 이용량, 버스 경유 노선 지하철(회) 지하철 이용량
시설물
면적(m2) 주거건물, 기타주거건물
거리(m) 지하철역, 자전거 도로, 공공구역, 문화구역, 관광구역, 교육구역(대학), 교육구역(초•중•고), 상업구역, 의료구역, 주차구역, 체육시설구역, 공원구역, 특화구역, 교통구역, 하천구역
지형(°) 평균 경사도
인구(명) 주거인구(10대, 20대, …, 60대 이상), 유동인구(10대 미만, 10대, …, 70대 이상) 자전거 대여소(개) 반경 300m 내 대여소 수, 반경 600m 내 대여소 수, 반경 1000m 내 대여소 수
200m 내의 지하철 및 버스 이용량, 유동인구가 많으며, 하천과의 거리가 멀고, 평균 경사도가 낮을수록 공 공자전거 이용량이 높은 경향이 있음을 확인할 수 있다.
Table 3.3은 앞서 설명한 방법으로 가공하여 학습에 사용된 39개의 변수들이다. 대중교통 데이터의 경우 버스와 지하철 이용량, 버스 경유 노선으로 구분된다. 여기서 버스 경유 노선은 대여소 반경 200m 내의 버 스 정류장을 경유하는 버스 노선 수의 합, 버스와 지하철 이용량은 대여소 반경 200m 내의 정류장별, 역별 승⋅하차 승객 수의 합을 나타낸다. 그리고 시설물 데이터의 경우 크게 시설물의 면적과 대여소와의 거리로 구분된다. 면적 데이터의 경우 주거건물과 기타주거건물로 구분되며 대여소 반경 200m 내 각각의 면적 (m2)합을 이용하였다. 거리 데이터의 경우 대여소와 시설물 사이의 최단거리(m)로 지하철역과의 거리, 자 전거 도로와의 거리 등으로 구분된다. 또한 지형 데이터는 공공자전거 대여소 반경 200m 내의 평균 경사 도 ( ∘) 이며, 인구 데이터는 대여소 반경 200m 내의 100m×100m 셀 단위로 구성된 연령대별 주거인구의 합 과 식 (3.1)을 통해 유동인구를 계산하였다. 추가적으로 주변 공공자전거 대여소 역시 교통시설로 판단하 여 공공자전거 대여소 일정 반경 내에 설치되어 있는 대여소 수를 변수에 포함하였다.
종합해보면 본 연구에서는 공공자전거 대여이력 데이터를 학습 데이터로, 공공자전거 대여소가 설치 가능 한 서울시 전역을 예측 데이터로 이용하였다. 이때 학습데이터는 2019년도를 기준으로 이용내역이 있는 1,551개 대여소의 정보와 그 주변 지역적 특성에 해당한다. 그리고 예측 데이터의 경우 다음과 같은 과정을 통해 생성하였다. 우선 신규 대여소 후보지를 선정하기 위하여 서울시를 242,085개의 셀(50m×50m)로 분할 하고, 각 셀의 중심점을 신규 자전거 대여소 후보지로 고려하였다. 이때 서울시설공단에서 정한 공간적 제 약조건과 기존 대여소 위치와의 중복을 피하기 위해 보도폭 4m(유효보도폭 2m) 이상인 보도로부터 25m 내 에 위치하고, 기존 대여소로부터 50m 이상 떨어진 곳에 위치한 후보지 18,318개를 신규 대여소 설치 가능 후 보지로 고려하였다. 따라서 예측 데이터는 18,318개 대여소 후보지의 정보와 그 주변 특성에 해당한다.
3.3 분석 방법 및 결과
본 연구에서는 공공자전거 이용량 예측을 위하여 대표적인 지도학습(supervised learning) 알고리즘인 선형 회귀 모형과 랜덤 포레스트를 고려하였다. 선형 회귀 모형은 종속변수와 독립변수들 사이의 선형 관계를 분석하는 방법으로, 다음의 형태를 가진다.
ݕ= ߚ+ ߚଵݔଵ+ ߚଶݔଶ+ ⋯ + ߚଷଽݔଷଽ+ ߳.
이때 종속변수 ݕ는 ݅번째 공공자전거 대여소 평균 이용량을 나타내고, 독립변수 ݔ는 Table 3.3의 변수들
Table 3.4. The comparison of accuracy between linear regression model and random forest with the K-fold cross validation in terms of root mean square of error
Linear regression model Random forest Root mean square error Training data Test data Training data Test data
42.58 43.76 18.05 41.90
을 나타낸다. 선형 회귀 모형은 계산이 쉽고 빠르며, 결과에 대하여 설명이 용이하다는 장점이 있다. 하지 만 종속변수와 독립변수가 선형관계가 아닌 경우에는 정확한 추정이 어려우며, 독립변수들간의 교호 작 용(interaction)이 존재하는 모형의 경우 고려해야 하는 모수의 수가 매우 많아지는 단점이 있다.
랜덤 포레스트는 앙상블 학습(ensemble learning) 방법인 배깅(bagging)과 의사결정나무(decision tree) 모형 을 이용한다. 랜덤 포레스트에서 표본추출시 원 데이터로부터 재표본추출방법(resampling methods)의 일 종인 부트스트랩(boostrap) 기법을 이용하여 크기가 같은 표본을 복원추출(sampling with replacement)한 다. 이 과정에서 표본의 랜덤성을 확보할 수 있으며, 각각의 의사결정나무 모형 적합시 노드를 분할하는 과정에서 모든 독립변수를 고려하는 것이 아닌, 독립변수의 부분집합만 고려하는 과정에서 랜덤성이 확 보된다.
이러한 랜덤 포레스트의 랜덤성 확보는 각각의 의사결정나무들 사이의 상관성을 낮추며, 이는 단순히 배 깅된 의사결정나무들보다 더 나은 성능을 보인다 (Breimanm, 2001; James 등, 2013). 다시 말해, 독립변수 의 크기보다 작은 크기의 독립변수의 부분집합을 이용함으로써 의사결정나무들 간의 상관관계가 낮아지 며, 예측오차가 줄어드는 장점으로 작용한다. 또한 랜덤 포레스트에서 의사결정나무 수가 증가함에 따라 예측오차가 줄어들며, 그 수가 많더라도 과대적합의 문제가 발생하지 않는다 (Yoo, 2015). 이 외에도 많은 독립변수에 대하여 변수의 삭제 없이 정확도와 예측력이 높은 모형 적합이 가능하며, 비선형성 데이터에 대해 적합이 가능하고, 누락된 데이터의 비율이 높을 때에도 높은 예측력을 보인다는 장점이 있다. 하지만 랜덤 포레스트는 그래프를 통해 해석이 가능한 의사결정나무와 달리 결과에 대한 해석이 어려우며, 노이 즈가 많은 데이터의 경우 과대적합의 문제가 발생하는 등의 단점이 있다.
본 연구에서는 두 모형의 객관적인 평가 및 비교를 위해 ܭ-겹 교차 검증 방법을 이용하였으며, 이때 ܭ = 10으로 지정하였다. 그리고 모형의 정확도를 측정하기 위하여 오분류표(confusion matrix)와 평균 제곱근 오차(root mean square error; RMSE)를 계산하였다. 오분류표의 경우 이용량 상위 30% 대여소와 하위 70%
대여소로 나누어 정확도를 확인하였다. 이때 사용된 평균 제곱근 오차는 실제 관측값과 예측값 사이의 오 차를 나타내는 측도로 이 값이 작을수록 모형의 정확도가 높음을 의미한다.
Table 3.4는 선형 회귀 모형과 랜덤 포레스트를 이용하여 학습 데이터와 검증 데이터에 적합하였을 때 평 균 제곱근 오차를 나타낸 표이다. 학습 데이터의 경우 랜덤 포레스트의 평균 제곱근 오차는 18.05로 선형 회귀 모형을 적합하였을 때의 평균 제곱근 오차 42.58보다 낮게 추정되었으며, 검증 데이터의 평균 제곱근 오차는 랜덤 포레스트를 적합하였을 때 41.90로 선형 회귀 모형을 적합하였을 때인 43.76보다 낮게 추정되 었다. 따라서 RMSE를 기준으로 볼 때 비선형 상관관계 및 교호작용의 효과를 설명할 수 있는 랜덤 포레 스트가 선형 회귀 모형보다 더 우수하다고 할 수 있다. 이러한 현상은 오분류표에서 더욱 뚜렷히 나타난다.
Table 3.5는 선형 회귀 모형과 랜덤 포레스트를 통해 기존 대여소들의 예측 이용량을 상위 30%, 하위 70%
로 분 류한 결과에 대한 오분류표이다. 선형 회귀 모형의 경우 검증 데이터에서 실제 상위 30%인 대여소 들 중 상위 30%로 예측된 대여소들은 전체의 약 29.1%이며, 실제 이용량 하위 70%인 대여소들 중 하위 70%
로 예측된 대여소들은 전체의 약 90.2%이다. 랜덤 포레스트의 경우 실제 상위 30%인 대여소들 중 상위 30%
로 예측된 대여소들은 전체의 약 30.1%이며, 실제 이용량 하위 70%인 대여소들 중 하위 70%로 예측된
Table 3.5. Confusion matrix of linear regression model and random forest classifier with K-fold cross validation in the test data
Predicted
Linear regression model Random forest Top 30% Lower 70% Top 30% Lower 70%
Actual Top 30% 29.1 17.9 30.1 16.9
Lower 70% 17.9 90.2 16.9 91.2
대여소들은 전체의 약 91.2%로 선형 회귀 모형보다 더 정확함을 보인다. 즉, 랜덤 포레스트가 선형 회귀 모 형에 비해 약 200개 가량 더 수요량이 높은 대여소를 찾는다. 해석의 용이성 측면에서 비교해보면 선형 회 귀 모형은 적절한 가정 하에 설명력이 우수하다고 알려져 있다. 하지만 진단 그림(diagnostic plot)과 분산 팽창인자(variance inflation factor) 등을 바탕으로 선형 회귀 모형에서 필요한 선형성, 정규성, 등분산성 가 정이 만족하지 않고, 다중공선성 문제가 있음을 확인하였다. 이러한 문제를해결하기 위해 박스-칵스 변환, 변수선택법 등 여러가지 해결 방법들을 고려하였지만, 랜덤 포레스트보다 더 정확한 모형을 찾을 수 없었 다. 따라서 본 연구에서는 예측 정확도가 비교적 높은 랜덤 포레스트가 선형 회귀 모형보다 더 적절하다고 판단하여, 18,318개의 대여소 후보지들에 대한 공공자전거 대여소 일평균 예측 이용량을 Figure 3.4에 표현 하고 그 결과를 설명한다.
Figure 3.4는 공공자전거 신규 대여소 후보지들에 대한 예측 이용량과 추가적으로 수요 및 접근성을 모두 고려한 6개 지역에 위치한 대여소들을 나타낸다. Figure 3.4에서 일평균 이용량이 높게 예측된 상위 20%(93 회 이상)에 해당하는 대여소 후보지들은 주변 지형지물을 나타낸 Figure 3.3의 (b){(f)과 비교하였을 때 버 스 및 지하철의 이용량이 높고, 유동인구가 많으며, 하천과의 거리가 가깝고 평균 경사도가 낮은 곳에 위치 함을 볼 수 있다. 또한 Table 3.2에서처럼 대여소 후보지들의 예측 이용량과 인근 버스, 지하철 이용량, 유 동인구, 평균 경사도, 하천과의 거리에 대한 스피어만의 순위 상관계수 구했을 때 각각 0.28, 0.37, 0.56, {0.7, {0.14로 나타났다. 즉, 버스, 지하철 이용량과 유동인구는 예측 이용량과 양의 상관관계를 보이며, 하천과의 거리와 평균 경사도는 음의 상관관계를 보인다는 앞선 기초 통계 분석 결과와 일치함을 볼 수 있다.
Figures 3.4 (a){(f)는 예측 이용량 상위 30%(82회 이상)인 대여소 후보지들 중 기존 대여소와 200m 이상 떨 어져 있는 후보지로 각각 마포구, 여의도, 고속터미널, 잠실역, 중랑천, 시청과 청량리 사이에 위치한다. 위 지역들은 모두 인근에 이용량이 많은 지하철역과 인접하고 완만한 지대에 위치하고 있으며 유동인구가 상 대적으로 많아 높은 자전거 이용량이 예측된다고 추정된다. 특히 Figure 3.4에서 (a)는 망원 유수지 체육공 원, (b)는 의료구역(가톨릭대학교 여의도 성모병원), (c)는 주거건물(아파트), (d)는 초 · 중 · 고등학교와 주 거건물(아파트), 석촌호수와 인접한 대여소에서 높은 이용량이 예측된다. 그리고 (e)는 중랑천 인근에 위치 한 대여소 후보지들로 지하철역(노원역, 창동역)과 주거건물, 대형마트 인근 대여소 후보지에서 높은 이용 량이 예측된다. 마지막으로 (f)는 시청과 청량리역 사이에 위치한 대여소 후보지들로 청계천과 지하철역(을 지로4가역, 동묘앞역, 동대문역사문화공원역 등), 문화구역(동대문디자인플라자)와 인접한 대여소에서 높 은 이용량이 예측된다.
위 지역들의 대여소 후보지는 200m 반경 내에 자전거 대여소가 없는 지역이므로 공공자전거 대여소가 설 치되지 않아 발생할 수 있는 소외현상을 해소하기 위해 신규대여소 입지 선정시 우선적으로 고려하면 좋 을 것으로 판단된다. 뿐만 아니라 본 연구에서는 모든 자전거 대여소 설치 가능 지역에 대하여 자전거 수 요량을 예측하였으므로, 서울시 공공자전거 신규 대여소 입지 선정시 통계를 기반으로한 객관적인 지표 로 활용될 수 있다고 생각한다.
(a) 마포구 (b) 여의도 (c) 고속터미널
(d) 잠실역 (e) 중랑천 (f) 시청-청량리
Table 3.4. Estimated usage of candidates of rental locations in Seoul, and corresponding to 6 candidates of new rental locations (a)–(f) with the top 30% estimated usage and no existing rental location within the 200m radius.
4. 결론 및 토의
서울시는 친환경 교통수단으로써 저탄소 녹색성장 실현과 시민의 건강 증진을 목표로 공공자전거 시스템 을 도입하였으며, 이를 지속적으로 확장하고 있다. 공공자전거에 대한 이용량은 매년 증가하고 있으며, 이 에 따라 기존의 경험적이고 직관적인 대여소 설치 방법에서 더 나아가 높은 수요를 보이고 대여소가 설치 되어 있지 않은 지역을 모두 고려한 신규 대여소 입지에 대한 수요량을 예측해야 할 필요가 있다. 이에 본 연구는 서울시 지리정보체계(geographic information system; GIS) 데이터를 수집 및 가공하여 지형지물에 대한 분석을 바탕으로 공공자전거 이용량에 영향을 미치는 지역적 특성들을 파악하였다. 공공자전거 이 용의 활성화를 위하여 서울시 전역에 설치 가능한 모든 공공자전거 신규 대여소 후보지를 고려하였으며, 앞서 파악한 지역적 특성을 바탕으로 랜덤 포레스트를 통해 대여소 후보지별 이용량을 예측하였다. 이를 바탕으로 본 연구에서는 높은 수요량이 예측되는 대여소 후보지를 중심으로 추가적인 입지 요건(장애인 유도블럭 및 차량 진출입 여부 등)을 확인하여 보다 적절한 위치에 신규 대여소가 설치되기를 기대한다.
하지만 본 연구에서는 몇 가지 개선되어야 할 한계점이 존재한다. 첫 번째로 주거인구와 생활인구 데이터 의 경우 데이터 수집기간이 각각 2016년과 2017년으로 다른 데이터에 비해 오래되어 최신 동향을 반영하 지 못할 가능성이 있다. 두 번째로 자전거 대여소와 시설물 간의 최단거리 계산시, 시설물의 규모에 따른 가중치를 부여하지 않았다. 예를 들어, 공원 구역의 경우 면적이 10,000m2이상인 공원에 대하여 대여소와 의 거리 계산시, 면적에 따른 가중치 없이 단순 최단거리만을 계산하여 분석에 이용하였다. 마지막으로 자 전거를 탈 수 있는 공원과 없는 공원을 구별하지 않았다. 따라서 최신의 유동인구, 생활인구, 주거인구 데 이터와 시설물의 규모에 따른 가중치 및 특성을 이용하고, 대여소와 모든 시설물까지의 직선거리보다 실 제 도로를 기준으로 실질적 거리를 고려한다면 더욱 현실적이고 예측 정확도가 높은 결과가 도출될 것으 로 기대한다. 더 나아가 본 연구에서 사용된 데이터에 적합한 모델을 개발하여 공공자전거 이용량을 예측 한다면, 예측력과 설명력 모든 측면에서 더 향상된 결과를 도출할 수 있으리라 판단된다.
References
Breimanm, L. (2001). Random forest, Machine Learning, 45, 5{32.
James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R., Springer, New York.
Jang, J. M., Gim, T. H. T., and Lee, MY. (2016). A study on the Seoul public bikes use characteristics-a case of the districts of Yeouido and Sangam, Seoul Studies, 17, 77{91.
Jung, I. W., Uhm, H. S., and LEE, Y. H. (2018). Demand driven reallocation in bike sharing system, Journal of the Korean Operations Research and Management Science Society, 43, 17{31.
Lee, C. H., Jeong, G. O., and Shin, H. C. (2016). Impace analysis of weather condition and locational characteristics on the usage of public bike sharing system, Journal of Korean Society of Transportation, 34, 394{408.
Lee, E. T. and Son, B. S. (2019). Optimal rebalancing strategy for public bike-sharing system in Seoul, Journal of Korean Society of Transportation, 37, 27{38.
Lee, G. H., Lee, S. G., and Cheon, S. H. (2018). An analysis of locational characteristics and business change in the commercially gentrified residential areas in Seoul, Korea, Journal of the Korean Regional Science Association, 34, 31{47.
Kim, E. M. (2010). Service for bicycle use information based on low carbon green growth, Journal of Korean Society for Geospatial Information Science, 18, 75{81.
Kim, D. J., Shin, H. C., Park, J. S., and Im, H. J. (2012). The impact of weather on bicycle usage-focus on usage of bike-sharing system in Goyang, Journal of Transport Research, 19, 77{88.
Yoo, J. E. (2015). Random forest, an alternative data mining technique to decision tree, Journal of Educational Evaluation, 28, 427{448.
서울 공공자전거 신규 대여소를 위한 수요량 예측 분석
김예술a 박시온a 박건웅a,1
a서울시립대학교 통계학과
(2020년 8월 4일 접수, 2020년 9월 9일 수정, 2020년 9월 21일 채택)
요 약
서울시는 시민의 건강 증진과 이산화탄소 저감을 통한 저탄소 녹색성장 실현을 목표로 2015년부터 2020년 현 재까지 공공자전거 대여소를 확장하고 있다. 매년 공공자전거에 대한 시민들의 접근성과 이용률이 증가하고 있 으며, 이에 서울시는 수요와 접근성을 모두 고려한 공공자전거 대여소 신규 입지를 확장하고자 노력하고 있다.
공공자전거 대여소 위치는 주변 지형지물에 영향을 받으며, 수요량은 지역적 특성에 영향을 받으므로 이들을 고 려한 신규 대여소 입지를 선정해야 할 필요성이 있다. 따라서 본 연구는 서울시 공공자전거의 새로운 입지 선정 을 위하여 2019년 서울시 공공자전거 데이터와 지리정보체계, 대중교통, 인구 등의 데이터를 전처리하여 신규 대여소 거치가 가능한 장소를 선별하고, 랜덤 포레스트를 이용하여 신규 대여소의 이용량을 예측하였다. 이를 바탕으로 평균 경사도, 대중교통과의 거리, 특화 시설과의 거리, 하천과의 거리 등이 자전거 이용량에 영향을 미치는 주요한 요소임을 도출할 수 있었다. 본 결과는 신규 대여소 설치 지역을 결정하는데 객관적인 통계적 지 표가 될 것으로 기대한다.
주요용어: 신규 대여소, 공공자전거, 대중교통, 랜덤 포레스트, 이용량 예측
이 논문은 2020년도 서울시립대학교 교내학술연구비에 의하여 지원되었음.
1 교신저자: (02504) 서울 동대문구 서울시립대로 163, 서울시립대학교 통계학과. E-mail: [email protected]