이 논문은 지식경제부 우정사업본부의 우정기술연구개발사 업의 일환으로 수행하였음.[2006-X-001-02, 실시간 우편 물류 운영기술 개발]
*****
ETRI 우정물류기술연구부 선임연구원 [email protected]
*****
ETRI 우정물류기술연구부 선임연구원 [email protected] (교신저자)
*****
ETRI 우정물류기술연구부 선임연구원 [email protected]
*****
ETRI 우정물류기술연구부 팀장 [email protected]
*****
ETRI 우정물류기술연구부 부장 [email protected]
시간 및 공간마이닝 기술을 이용한 GIS기반의
홍보우편 시스템 개발
Development of GIS-based Advertizing Postal System Using
Temporal and Spatial Mining Techniques
이 헌 규
*나 동 길
**Heon Gyu Lee Dong-Gil Na 최 용 훈
***정 훈
****Yong Hoon Choi Hoon Jung 박 종 흥
*****Jong Heung Park
요 약 홍보우편 서비스의 활성화와 효율적인 마케 팅 캠페인을 위해서 GIS 및 시간/공간마이닝을 접목한 홍보우편 시스템을 개발하였다. 이 시스템은 정확한 고객 선정을 위해서 순차/주기패턴을 이용한 구매 성향 정보 와 RFM 분석 및 군집화 기법을 이용한 라이프스타일 군집 정보를 제공한다. 제안한 홍보우편 시스템을 통해 원청업체는 고객의 요구사항에 맞는 마케팅 캠페인이 가 능하며, 온라인상에서 고객 선정, 홍보물 제작 및 배달까 지의 “one-stop” 서비스가 가능하다.
키워드 : 홍보우편, 시간마이닝, 공간마이닝
Abstract Advertizing postal system combined with GIS and temporal/spatial mining techniques has been developed to activate advertizing service and conduct marketing campaign efficiently. In order to select customers accurately, this system provide pur- chase propensity information using sequential, cyclic
patterns and lifesytle information through RFM anal- ysis and clustering technique. It is possible for corpo- rate mailer to do customer oriented marketing cam- paign with the advertizing postal system as well as 'one-stop' service including target customer se- lection, mail production, and delivery request.
Keywords : Advertizing Mail, Temporal Mining, Spatial Mining
1. 서 론
일반적으로 홍보우편이란 잠재 또는 기존 고객에 게 우편을 통한 상품/서비스 홍보를 의미한다. 이런 마케팅 방법은 우편배달주소를 이용한 CRM, GIS 및 시간, 공간정보 분석기술을 활용하여 원청고객이 요구하는 특정 배달지역과 배달주소를 분석, 제공하 는 새로운 우편서비스이다[4]. 홍보우편 서비스의 성공 요인은 내/외부 고객리스트를 활용한 상품 제 안 방법, 광고물의 형태, 제품의 가격이며 특히 적 절한 고객 확보가 홍보에 대한 성패의 40%-80%를 차지한다고 알려져 있다[8]. 또한, 기존의 타겟마케 팅 전략을 활용한 업체들의 서비스는 자체 보유 고 객 데이터만을 이용하므로 신규·잠재 고객 유치가 어렵고, 대용량의 데이터에 대한 분석 능력 부족과 분석 비용 증가로 인해 과거 데이터 분석 결과를 갱신 없이 적용하고 있어 그 결과의 신뢰성에 대한 문제점을 가지고 있다. 잠재고객 리스트 선정을 위 하여 시간 및 공간 정보를 포함한 효율적인 분석 기술이 홍보우편 서비스에 필요하다[5,7,9].
이 논문에서는 기존 마케팅 서비스에 GIS, 시간 및 공간마이닝 기술을 접목한 온라인 홍보우편 시 스템을 제안한다. 제안한 시스템은 마케팅 캠페인을 원하는 원청업체를 대상으로 우정사업본부의 국내 우편주소 데이터베이스인 배달점 DB와 마케팅에 유용한 센서스, 부동산, 신용정보 등을 연계한 홍보 우편용 통합 DB로부터 시간마이닝을 통한 구매패 턴 예측과 GIS 기반의 공간마이닝 분석을 통한 유 사 라이프스타일 지역 정보를 제공한다. 이를 위해 서 그림 1과 같이 시스템은 내/외부 데이터를 연계 하여 공간정보화를 통한 시간, 공간마이닝을 수행한 다. 본 시스템에서 제공되는 기능은 다음과 같다.
∙구매 성향 정보 기반 고객 선정 기능
시간마이닝 기법을 적용하여 블록단위
1)구매이력
분석을 통한 상품선호도와 구매패턴 정보 제공
L
1= {Large 1-sequence}
for (k=2;L
(k-1);k++) do begin
C
k= New candidate generated form L
(k-1); Foreach customer-sequence c in database do Increment the count of all candidates in C
kthat are contained in c
L
k= Candidates in C
kwith minimum support.
end
Answer = Maximal Sequences ∈∪
kL
k그림 3. AprioirAll 알고리즘 ∙라이프스타일 기반 고객 선정 기능
인구통계학적 특성 정보와 공간 분석을 통한 유사 라이프스타일을 가진 블록들의 그룹 정보 제공 ∙경제활동 정보 기반 고객 선정 기능
블록 단위 신용정보를 집계하여 생활수준에 따른 고객 정보 제공
[외부 공공 DB] [우체국 내부 DB]
택배접수 데이터 우편주소 신용
정보
부동산 기
업 정 보 센서스 [우편물류시스템]
시간/공간 마이너
그림 1. 홍보우편 시스템 개념도
2. 시스템 설계
제안한 시스템은 4계층 구조로 설계한다. 최상위 웹서비스 층은 주문/접수의 비즈니스 기능과 홍보 지역 검색, GIS 활용을 위한 GIS ActiveX 엔진, 시 간/공간 마이닝 결과 제공 기능을 포함한다. 내부/
외부 데이터 및 공간 데이터의 조작/관리 및 공간 연산, 질의처리, 공간/속성 데이터 전송, 시간/공간 마이닝 분석 등의 기능은 GIS 미들웨어 서비스 층 에서 담당한다. 공간 DB 서비스 계층은 공간 데이 터 관리를 포함하며, 대용량의 우편주소 정보와 택 배접수 데이터 연계 정보, 고객관리 정보는 독립적 인 DB로 분류하여 설계한다. 홍보우편 시스템의 기 능설계는 그림 2와 같고, 개발 환경은 표 1과 같다.
구성 세부항목
서버 웹 개발 언어
웹 개발 툴 UX 컴포넌트
DBMS GIS 엔진 웹서버 / 서블릿
Unix 서버 HTML, JSP Eclipse J2EE Flex, 익스트림 빌더 Oracle 10g, PostGIS
GeoBus
Apache/Tomcat, Weblogic 표 1. 시스템 개발 환경
1) 개인정보보호를 위한 약 60 가구 크기의 행정동 보다 작 은 소지역
Spatial DB Service Tier Spatial
Relation DB
맵네임 매칭 정보 레이어 구성 정보 지형도 벡터 데이터 DB 연결 정보 Spatial DB Service Tier
Spatial Relation DB
맵네임 매칭 정보
맵네임 매칭 정보 레이어 구성 정보레이어 구성 정보 지형도 벡터 데이터지형도 벡터 데이터 DB 연결 정보DB 연결 정보
택배주소 매칭 정보 우편주소 정보
Postal Addr./Customer Mgt. DB Service Tier Postal Address DB
고객 관리 정보 주문/접수 처리 정보 Customer Mgt DB
택배주소 매칭 정보 택배주소 매칭 정보 우편주소 정보
Postal Addr./Customer Mgt. DB Service Tier Postal Address DB
고객 관리 정보
고객 관리 정보 주문/접수 처리 정보주문/접수 처리 정보 Customer Mgt DB
Middleware Service Tier
Server
GIS ActiveX 연동 DB 검색 공간/속성 데이터클라이언트 전송 (oracle & PostGIS)DB 연동 레이어스타일 관리 커넥션 풀 관리 지형도 벡터 처리 공간 연산
질의 처리 주기성 분석 순차패턴 분석 라이프스타일 분석 Middleware Service Tier
Server
GIS ActiveX 연동
GIS ActiveX 연동 DB 검색DB 검색 공간/속성 데이터공간/속성 데이터클라이언트 전송클라이언트 전송 (oracle & PostGIS)DB 연동 DB 연동 (oracle & PostGIS) 레이어스타일 관리
레이어스타일 관리 커넥션 풀 관리커넥션 풀 관리 지형도 벡터 처리지형도 벡터 처리 공간 연산공간 연산 질의 처리
질의 처리 주기성 분석주기성 분석 순차패턴 분석순차패턴 분석 라이프스타일 분석라이프스타일 분석 Client Web Service Tier
Web
GIS ActiveX Engine
센서스 정보 검색 사용자 인증
지역 검색 고객정보 관리 구매이력 관리
주문/접수 카드결재
Flex 차트 표시
검색 결과 통계 구매패턴 검색 신용정보 검색
내역 조회 지도 이동
레이어 제어
영역 선택
공간인덱스 생성 (B+ tree) 공간연산
맵네임 생성 GeoBus 연동 도면내 차트표시
지형도화면제어 인덱스 맵
Client Web Service Tier
Web
GIS ActiveX Engine
센서스 정보 검색 센서스 정보 검색 사용자 인증 사용자 인증
지역 검색 지역 검색 고객정보 관리 고객정보 관리 구매이력 관리
구매이력 관리 주문/접수
주문/접수 카드결재카드결재 Flex 차트 표시 Flex 차트 표시
검색 결과 통계 검색 결과 통계 구매패턴 검색
구매패턴 검색 신용정보 검색신용정보 검색
내역 조회 내역 조회 지도 이동
지도 이동 레이어 제어 레이어 제어
영역 선택 영역 선택
공간인덱스 생성 (B+ tree) 공간인덱스 생성
(B+ tree) 공간연산
공간연산 맵네임 생성
맵네임 생성 GeoBus 연동
GeoBus 연동 도면내 차트표시도면내 차트표시
지형도화면제어 지형도화면제어 인덱스 맵
그림 2. 시스템 구성 응용 설계
3. 시간마이닝을 통한 구매 성향 분석
3.1 순차패턴 분석
택배 주문 일자를 시간 변수로 하여 특정 상품을
구매한 후에 어떤 상품품목에 해당하는 제품을 구
매할지를 분석한다. “A이면 B이다”라는 규칙에서
시간적으로 A가 B에 시간적으로 선행하지 않으면
아무 의미가 없는 경우에 사용하며 신뢰도와 지지
도 등을 활용한다는 점에서 연관성 규칙과 동일하
다[5]. 시간에 따른 상품군의 이동을 파악하기 위해
필요하고 시간적 추이에 따른 고객의 패턴이 발견
되면 비슷한 특성을 갖고 있는 고객들을 대상으로
구매 가능한 상품의 추천을 위해 사용된다. 총
11,036,940건의 구매 트랜잭션에 대해, 순차패턴의
주요 임계값인 지지도와 신뢰도를 각각 1%, 80%로
설정하여 순차적 구매패턴을 발견한다. AprioriAll
[1] 알고리즘은 그림 3이며, 알고리즘 적용 결과 발
견된 순차패턴들의 예는 표 2와 같다.
구매패턴 (순차구매 상품)
1. 의료/건강식품 > 축산물 → 농산물
“의료/건강식품을 구매한 후에 축산물을 구매한 고 객은 농산물을 구매한다.”
2. 아동/유아용품 > 의류/패션상품 → 의류/패션상품 “아동/유아용품을 구매한 후에 의류/패션상품을 구
매한 고객은 의류/패션상품을 구매한다.”
표 2. 블록단위 순차패턴과 해석
3.2 주기성 분석
주기별로 구매한 상품을 중심으로 구매 주기를 파악하여, 구매 바로 직전 캠페인과 마케팅을 실시 하여, 기업에서 반복적으로 제품을 구매 할 수 있는 전략 정보를 제공하는 분석으로 특정 상품품목의 재판매가 목적이다. 주기성 분석을 위해서는 공간 및 시간 개념 계층상의 발견하고자 하는 주기단위 를 지정해야 하므로, 그림 4와 같이 “분기/월/주”로 주기를 설정한다. 트랜잭션의 구매일자를 “분기/월/
주”로 변환하여 각 시간 단위에서의 주기성을 탐색 한다. 예를 들어, 2008년 12월 22일에 농산물과 서 적이 판매되었을 경우의 데이터 형식은 표 3과 같 고 블록단위 주기패턴 결과는 표 3의 예시와 같다.
특별시 광역시 도
구
시 군
동 읍 면
블록
...
특별시 광역시 도
구
시 군
동 읍 면
블록
...
년
분기
월 주
일
시... 년
분기
월 주
일
시...
공간(주소) 개념계층 블록단위 주기성 분석 시간 개념 계층 블 록
분기
월 주
그림 4. 주기성 분석을 위한 단위 설정
분기 월 주 상품
4 12 4 < 농산물 , 서적 >
표 3. 주기성 분석을 위한 입력 데이터 형식
주기성분석 알고리즘은 [7]에서 제안한 시간마이 닝 기법을 적용한다. “분기/월/주”의 각 시간 단위 에 대해, 모든 도메인값을 포함할 경우, 그 단위에 서 주기성을 표현한다. 예를 들어, 블록 A지역의 고 객들이 {<1,1,1>, <1,1,2>, <1,1,3>, <1,1,4>} 시간 에서 “의류/패션상품”을 구매한다면, “주” 단위의 도메인값을 모두 포함하므로 “의류/패션상품은 1사 분기, 1월에 매주(*)
2)구매“라고 해석한다.
의류패션상품 상품
* 1 1
A 블록 1
2 3 4 1 1 1 1 1 1 1 1
소지역 주
월 분기
의류패션상품 상품
* 1 1
A 블록 1
2 3 4 1 1 1 1 1 1 1 1
소지역 주
월 분기
“주” 단위에서 구매주기 발견
4. 공간마이닝을 통한 라이프스타일 분석 유사한 생활방식을 가진 고객들 미리 그룹화 할 경우마케팅에 유용한 정보가 된다. 따라서 블록 단 위의 타겟 고객을 쉽게 식별하기 위해서 인구통계 학적 정보, 상품선호도, 경제활동 정보를 이용한 고 객/지역 세분화를 수행한다. 인구통계학적 특성 정 보는 센서스 데이터를 활용하며, RFM (Recency, Frequency, Monetary)[2] 분석을 통한 수치화된 상 품선호도 정보와 경제활동 정보인 신용평가 정보를 활용하여 유사 군집을 발견한다. RFM 분석의 경우 에 먼저 블록별 RFM 선호도 점수를 부여한 후에 군집화를 수행한다. 유사 라이프스타일 블록 군집화 절차는 다음과 같다.
① 블록단위 RFM 상품선호도 계산
② 센서스, 신용정보, 선호도를 활용한 군집화 ③ 군집별 특성정보 추출과 라이프스타일 가시화 4.1 RFM을 통한 상품선호도 분석
RFM은 최근성(recency), 빈도성(frequency), 총 구매액(monetary)의 세가지 지표들의 선형결합의 점수로 표현할 수 있으며 모형은 (식1)과 같다.
RFM=A×Recency+B×Frequecny+C×Monetary (식 1) 여기서 A, B, C는 각 요인에 대한 가중치가 되고, 각 요인들과 가중치의 선형결합에 의한 점수가 된 다. 구매이력 정보에는 총구매액 정보가 없으므로 C를 ‘0’으로 하여 반영되지 않게 설정한다. 또한, 상 품선호도 분석 중 최근성보다 구매빈도수가 더 중 요한 요소이므로 A, B의 가중치를 0.75, 0.25로 설 정한다.
4.2 라이프스타일 군집화
군집화를 위해서는 대규모 수치형 데이터에 적합 한 다단계 계층적 군집 기법인 BIRCH[3] 알고리즘
2) 심볼 “*” 은 해당 시간단위의 주기 (cycle) 를 의미함 .
라이프스타일 유형 제 1 군집
1 군집
고학력의 40, 50 대 인구 밀집지역으로 중 / 대형 아파트 밀집지역임 . 높은 신용등급의 고소득 계층 인구가 많음 . 선호 상품은 농 산물 , 의류 / 패션상품임
표 4. 군집화를 통한 라이프스타일 유형 정보
구분 주요 기능
DB 관리 모듈
배달점 주소 갱신 모듈
․배달점 DB에 대한 주소의 갱신
․운영자 갱신 대상의 주소 검색
․신규 주소의 이력 관리 기능 공간정보화
모듈
․배달점 DB의 주소에 대한 지오코딩 기능
GIS 기반 마케팅
정보 관리 모듈
GIS 연동 인터페이스
․웹 GIS 플랫폼과 관리 인터페이스를 중계 배달점 검색
모듈
․마케팅 영역의 소지역 단위 검색
․홍보 대상 상품의 마이닝 결과를 만족하는 소지역 검색 기능
․홍보 대상 지역의 배달점 검색
공간 연산 모듈
․공간 데이터의 연산
․공간 및 비공간 속성 연산 기능
․GIS S/W를 활용한 공간 영역과 주소 정보 연산
․사용자 기반의 공간 질의 처리 마케팅 정보
연동 모듈
․시간/공간마이닝 분석 결과에 대한 마케팅 정보 가시화 기능
서비스 관리 모듈
주문/제작 모듈
․디자인 의뢰 내용에 대해 디자인 업체로 정보 전송 기능
․홍보우편물 시안에 대한 확인
․고객이 선택한 접수내용과 디자인 시안을 통한 주문 기능
고객/운영자 관리 모듈
․고객 정보 수정 기능
․운영자 정보 수정 기능
․운영자별 접수내역에 대한 현재 상황 입력 기능
홍보시안 관리 모듈
․디자인 시안 이용 실적 누계
․각 고객별 홍보우편 디자인 시안 이용 내역 저장
요금정산 모듈 ․디자인 제작, 배달 통수에 대한 요금 계산 기능
표 5. 홍보우편 시스템의 S/W 기능별 개발 내역 을 사용한다.
알고리즘의 첫 단계에서 CF-tree는 모든 데이터 에 대해 동적으로 생성되며, 새로운 데이터 객체는 가장 가까운 부분군집에 삽입된다. 삽입 이후 단말 노드에 저장된 부분군집의 크기가 임계값 보다 크 면 노드를 분할하고 그 정보는 트리의 루트로 이동 된다. 두 번째 단계에서는 계층적 군집화의 병합적 방법을 사용하여 첫 번째 단계에서 생성된 부분군 집들을 최종 하나의 군집이 형성될 때까지 그룹화 한다. 서울시 25개구의 총 16,357개 블록에 대한 BIRCH 알고리즘의 생성된 군집개수는 20개이다.
군집분석 후 각 군집의 라이프스타일 유형 정보를 추출하고 인구통계학적, 상품선호도, 신용정보를 활 용하여 프로파일링 한다. 예를 들어 표 4는 서울시 강남구 일대의 라이프스타일 유형 제1군집의 프로 파일 정보와 해당 지역을 보여준다.
그림 5. BIRCH 알고리즘
5. 홍보우편 시스템 구현
홍보우편 시스템 개발은 GIS를 활용하였으며, 시 간 및 공간마이닝 기술을 통한 구매성향, 라이프스 타일 및 경제활동 정보를 사용자에게 제공하여
‘one-stop’ 마케팅 캠페인 활동을 지원할 수 있다.
표 5는 홍보우편 시스템의 S/W 개발 내역이다.
시스템의 빠른 이해를 위해서 홍보우편 시스템 사용자 관점의 서비스 신청 절차에 따라 설명한다.
① 대상 지역을 지도상에 설정 한다(그림 6).
② 홍보에 관심이 높을 가능성 지역을 라이프스타 일, 구매성향, 경제활동 정보를 분석하여 타겟 블록 검색을 위해 조건을 입력 한다(그림 7).
③ 사용자가 입력한 검색조건에 대한 상세정보를
블록단위로 제공하며, 검색결과를 구간화하여
등급별로 지도상에 표현 한다(그림 8).
④ 홍보대상 지역을 선택하면 그 지역에 대한 배달 주소 개수 및 위치정보를 표시 한다(그림 8).
⑤ 최종 홍보 지역을 확정하면, 서비스를 웹을 통 해 접수 한다(그림 9).
본 시스템의 서비스 접수 후에 사용자는 타겟팅 한 고객들의 주소에 대해 주문/결제 단계를 거치며, 홍보우편물 제작의뢰 서비스를 이용할 수 있다.
홍보 대상 영역 설정
그림 6. 초기 홍보대상 영역 설정(1단계)
구매 성향 정보 상품품목별 선호도
구매 성향 정보 상품품목별 선호도
라이프스타일 유형정보
제2그룹 프로파일
유사 라이프스타일 위치정보 라이프스타일 유형정보
제2그룹 프로파일
유사 라이프스타일 위치정보
그림 7. 마이닝 결과 및 검색조건 입력(2단계)
최종 홍보대상 지역 선택
홍보우편물 배달 주소지 개수
그림 8. 검색 결과 가시화(3, 4단계)
홍보우편 서비스 신청