2021, 32
(1)
,199–212
신용카드 사용내역을 통한 해외여행 예측 모형의 개발
†
ᄋ
ᅵ혜리
1
·강석우2
· 김민희3
123하나금융융합기술원
ᄌ ᅥ
ᆸᄉ ᅮ 2020ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 31ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 3ᄋ ᅵ ᆯ
요 약
ᄇ
ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄉ ᅵ ᆫᄋ ᅭ ᆼ ᄏ ᅡᄃ ᅳ ᄉ ᅡᄋ ᅭ ᆼ ᄂ ᅢᄋ ᅧ ᆨᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄀ ᅩᄀ ᅢ ᆨᄋ ᅴ ᄅ ᅡᄋ ᅵᄑ ᅳ ᄋ ᅵᄇ ᅦ ᆫᄐ ᅳ ᄌ ᅮ ᆼ ᄒ ᅢᄋ ᅬᄋ ᅧᄒ ᅢ ᆼᄋ ᅳ ᆯ ᄋ ᅨᄎ ᅳ ᆨ ᄒ ᅡᄂ ᅳ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄆ
ᅡ ᆫᄃ ᅳ ᆯ ᄀ ᅩ, ᄋ ᅨᄎ ᅳ ᆨᄅ ᅧ ᆨᄋ ᅵ ᄂ ᅩ ᇁᄋ ᅳ ᆫ ᄆ ᅩᄃ ᅦ ᆯᄋ ᅳ ᆯ ᄀ ᅮᄉ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅦ ᄋ ᅵ ᆻᄋ ᅥᄉ ᅥ ᄐ ᅦ ᆨᄉ ᅳᄐ ᅳ ᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅵ ᆫ FastText ᄇ ᅡ ᆼᄇ ᅥ ᆸᄅ ᅩ ᆫ ᄀ ᅪ ᄉ ᅢᄅ ᅩ ᆸ ᄀ ᅦ ᄌ ᅦ ᄋ
ᅡ ᆫᄒ ᅡᄂ ᅳ ᆫ adaptive weighted sum of term scoring (AWST score)ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄆ ᅥᄉ ᅵ ᆫᄅ ᅥᄂ ᅵ ᆼ ᄆ ᅩᄃ ᅦ ᆯᄀ ᅪ ᄒ ᅡ ᆷᄁ ᅦ ᄇ
ᅵᄀ ᅭᄒ ᅡ ᆫᄃ ᅡ. ᄉ ᅩᄇ ᅵ ᄋ ᅣ ᆼᄉ ᅡ ᆼᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄉ ᅩᄇ ᅵᄌ ᅮᄎ ᅦᄋ ᅴ ᄉ ᅡ ᆱᄋ ᅵ ᄀ ᅩᄉ ᅳᄅ ᅡ ᆫᄒ ᅵ ᄂ ᅡᄐ ᅡᄂ ᅡᄂ ᅳ ᆫ ᄉ ᅵ ᆫᄋ ᅭ ᆼ ᄏ ᅡᄃ ᅳ ᄂ ᅢᄋ ᅧ ᆨ ᄃ ᅦᄋ ᅵᄐ ᅥᄂ ᅳ ᆫ ᄀ ᅡ ᆨ ᄀ ᅩᄀ ᅢ ᆨᄋ ᅴ ᄅ
ᅡᄋ ᅵᄑ ᅳ ᄋ ᅵᄇ ᅦ ᆫᄐ ᅳᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄋ ᅨᄎ ᅳ ᆨ ᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅦᄋ ᅦ ᄌ ᅮ ᆼ ᄋ ᅭᄒ ᅡ ᆫ ᄃ ᅡ ᆫᄉ ᅥᄀ ᅡ ᄃ ᅬᄆ ᅧ, ᄋ ᅵᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄆ ᅡ ᆫᄃ ᅳ ᆯ ᄋ ᅥᄌ ᅵ ᆫ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄀ ᅩᄀ ᅢ ᆨᄋ ᅵ ᄋ ᅱᄎ ᅵ ᄒ ᅡ
ᆫ ᄒ ᅧ ᆫᄌ ᅢ ᄉ ᅡ ᆱᄋ ᅴ ᄃ ᅡ ᆫᄀ ᅨᄂ ᅡ ᄉ ᅡ ᆼ ᄒ ᅪ ᆼᄋ ᅳ ᆯ ᄃ ᅥᄋ ᅮ ᆨ ᄑ ᅮ ᆼ ᄇ ᅮᄒ ᅡᄀ ᅦ ᄋ ᅵᄒ ᅢᄒ ᅡᄃ ᅩᄅ ᅩ ᆨ ᄃ ᅩᄋ ᅮ ᆷᄋ ᅳ ᆯ ᄌ ᅮ ᆫ ᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄅ ᅡᄋ ᅵᄑ ᅳ ᄋ ᅵ ᄇ ᅦ
ᆫᄐ ᅳ ᄀ ᅡᄋ ᅮ ᆫ ᄃ ᅦ, ‘ᄒ ᅢᄋ ᅬᄋ ᅧᄒ ᅢ ᆼ’ᄋ ᅳ ᆯ ᄀ ᅨ ᄒ ᅬ ᆨ ᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅩᄀ ᅢ ᆨᄋ ᅳ ᆯ ᄋ ᅨᄎ ᅳ ᆨ ᄒ ᅡᄂ ᅳ ᆫ ᄂ ᅢᄋ ᅭ ᆼᄋ ᅳ ᆯ ᄉ ᅩᄀ ᅢᄒ ᅡ ᆫᄃ ᅡ. ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄆ ᅥᄉ ᅵ ᆫᄅ ᅥᄂ ᅵ ᆼ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡ
ᆫ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼ ᄆ ᅵ ᆾ ᄉ ᅢᄅ ᅩ ᆸ ᄀ ᅦ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅴ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩ, ᄌ ᅥ ᆼᄆ ᅵ ᆯᄃ ᅩ, ᄌ ᅢᄒ ᅧ ᆫᄋ ᅲ ᆯ, ᄀ ᅩ ᆨᄉ ᅥ ᆫᄒ ᅡᄆ ᅧ ᆫᄌ ᅥ ᆨ, F1 ᄌ
ᅥ ᆷᄉ ᅮ, ᄋ ᅣ ᆼᄉ ᅥ ᆼᄋ ᅮᄃ ᅩᄇ ᅵᄋ ᅴ ᄌ ᅵᄑ ᅭᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄇ ᅵᄀ ᅭᄒ ᅡᄀ ᅩ, ᄀ ᅢᄇ ᅧ ᆯ ᄆ ᅩᄒ ᅧ ᆼᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄋ ᅡ ᆼᄉ ᅡ ᆼᄇ ᅳ ᆯ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳᄅ ᅩ ᄀ ᅧ ᆯᄒ ᅡ ᆸᄒ ᅡᄋ ᅧ ᄎ ᅬᄌ ᅩ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅨᄎ ᅳ ᆨ ᄆ
ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄀ ᅢᄇ ᅡ ᆯᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄆ ᅩ ᆨ ᄑ ᅭᄅ ᅩ ᄒ ᅡ ᆫᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄉ ᅵ ᆫᄋ ᅭ ᆼ ᄏ ᅡᄃ ᅳᄂ ᅢᄋ ᅧ ᆨ, CRM, FastText, life event prediction model, marketing Modeling, TF- IDF.
1. 서론 ᄉ
ᅵᆫ용카드는현대 사회의 가장 보편적인 결제 수단으로써 이를 통해 재화 또는서비스를제공받는것은 이
ᆯ상이 되었다. 특히 대한민국사회에서는 신용카드 및 체크카드의 사용이확대되면서 더욱보편화된 겨
ᆼ향이 있다. 스마트폰의 MST (magnetic secure transmission) 방식을이용한 결제나 QR코드를활용 ᄒ
ᅡᆫ 결제와 같은간편 결제 시스템이 발전하며 온오프라인 모든영역에서 카드 결제가 손쉽게 이루어지 ᄀ
ᅩ 있다.
ᄒ
ᅡᆫ편으로 소비와관련된행위는개인의 삶을투영하는 일기장 같은역할을한다. 개인의 취향이 반영 ᄃ
ᅬ기도 하고, 개인의 라이프 사이클을포함하고 있기도 한다. 개인이 소비하는재화나 서비스의 ’목적’
ᄋ
ᅵ 당사자인 고객의 삶이 현재 어떠한 상황에 있는지를 설명해주고 있기 때문이다. 따라서 신용카드사 ᄋ
ᅭ
ᆼ내역은그 자체로 개인의 상황을나타내고 있으며, 행동의 의도와 목적까지 유추할 수 있는 중요하고 ᄀ
ᅵ본적인 자료가된다.
†
ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄒ ᅡᄂ ᅡ ᄀ ᅳ ᆷᄋ ᅲ ᆼ ᄀ ᅳᄅ ᅮ ᆸ DTᄀ ᅩ ᆼᄃ ᅩ ᆼᄋ ᅧ ᆫᄀ ᅮᄀ ᅨᄋ ᅣ ᆨᄋ ᅦ ᄋ ᅴᄒ ᅢ ᄒ ᅡᄂ ᅡ ᄀ ᅳ ᆷᄋ ᅲ ᆼᄋ ᅲ ᆼ ᄒ ᅡ ᆸᄀ ᅵᄉ ᅮ ᆯᄋ ᅯ ᆫ ᄀ ᅪ ᄒ ᅡᄂ ᅡᄏ ᅡᄃ ᅳᄋ ᅴ ᄀ ᅩ ᆼᄃ ᅩ ᆼ ᄋ ᅧ ᆫᄀ ᅮᄅ ᅩ ᄌ
ᅵ ᆫᄒ ᅢ ᆼᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ.
1
(06133) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄀ ᅡ ᆼᄂ ᅡ ᆷᄀ ᅮ ᄐ ᅦᄒ ᅦᄅ ᅡ ᆫᄅ ᅩ 127, ᄒ ᅡᄂ ᅡ ᄀ ᅳ ᆷᄋ ᅲ ᆼᄋ ᅲ ᆼ ᄒ ᅡ ᆸᄀ ᅵᄉ ᅮ ᆯᄋ ᅯ ᆫ , ᄎ ᅢ ᆨᄋ ᅵ ᆷᄋ ᅧ ᆫᄀ ᅮᄋ ᅯ ᆫ .
2
(06133) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄀ ᅡ ᆼᄂ ᅡ ᆷᄀ ᅮ ᄐ ᅦᄒ ᅦᄅ ᅡ ᆫᄅ ᅩ 127, ᄒ ᅡᄂ ᅡ ᄀ ᅳ ᆷᄋ ᅲ ᆼᄋ ᅲ ᆼ ᄒ ᅡ ᆸᄀ ᅵᄉ ᅮ ᆯᄋ ᅯ ᆫ , ᄉ ᅥ ᆫᄋ ᅵ ᆷᄋ ᅧ ᆫᄀ ᅮᄋ ᅯ ᆫ .
3
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ : (06133) ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄀ ᅡ ᆼᄂ ᅡ ᆷᄀ ᅮ ᄐ ᅦᄒ ᅦᄅ ᅡ ᆫᄅ ᅩ 127, ᄒ ᅡᄂ ᅡ ᄀ ᅳ ᆷᄋ ᅲ ᆼᄋ ᅲ ᆼ ᄒ ᅡ ᆸᄀ ᅵᄉ ᅮ ᆯᄋ ᅯ ᆫ, ᄉ ᅮᄉ ᅥ ᆨᄋ ᅧ ᆫᄀ ᅮᄋ ᅯ ᆫ.
E-mail: [email protected]
ᄉ
ᅵᆫ용카드 내역을 통해 고객의 라이프를 유추해보는 것은 CRM (customer relationship manage- ment) 영역에서 오래전부터 논의되는 요소 중에 하나이다. 하지만, 개별 마케팅 목적에 부합하는 고 개
ᆨ을 선별하기 위해서는 마케터의 역량에 의존하여 생성한 몇 가지 간단한 규칙을적용하는 것이 가장 이
ᆯ반적으로활용된 방법이었다. 일시적인 개별 마케팅의 단기적 성공보다 더 나아가 지속적인 고객의 ᄅ
ᅩ열티를상승시키고자 하는 목적에 있어서는 고객이 앞으로 어떤 소비를할 것인지 혹은어떤 행동을 ᄒ
ᅡᆯ 것인지를 ’예측’할 수 있는영역까지확장할 수 있어야 한다. 이 때 예측의 가장 기본적인 축이 되는 저
ᆼ보가 고객의 라이프 이벤트가될수 있을것이고 이와 같이 가공된2차 데이터를마케팅에활용함으로 ᄉ
ᅥ 더욱 풍부하고 입체적인 마케팅 메시지를전달할 수 있을것이다.
ᄄ
ᅩ한 시간의 경과에 따라 고객의 상황은변할 것이며, 이에 대한 정보를다시 수집하는데 소요되는시 ᄀ
ᅡᆫ과 비용을절감하고자 한다면, 2차 데이터를 직접 수집하는것보다 예측모델링을활용하는것이 더욱 ᄒ
ᅭ과적인 마케팅 운영 방법일 수 있다. 따라서 2차 데이터를생성하는예측모델링에 대한 기술적인확 ᄇ
ᅩ 및활용에 대한 방법에 대한 연구는매우활발히 진행되고 있다.
ᄆ
ᅡ케팅에 효율적이며, 고객을다각도로 이해하는방법으로서 우리는고객의 라이프 이벤트 예측에 대 ᄒ
ᅢ 주목한다. 첫 번째 이유는,고객이 염두하고 있는이벤트, 즉고객의 상황에 따라 발생한 수요에 대해 ᄀ
ᅢ인화된마케팅이 적기에 가능하다는점이다. 두 번째로, 이를 통해 메시지를 받은고객은 해당 카드 화
ᆯ용에 대한 필요성을느끼면서 우수 고객으로서의 전환이 가능하고, 세 번째로 카드사 입장에서는우수 ᄀ
ᅩ객을확보하고 더 많은매출정보를획득하여 더 깊이 있는고객 이해가 가능하기 때문이다. 마지막으 ᄅ
ᅩ, 개인정보활용에 대한 규제로 인해 고객에게 정보를활용하기 어려운상황 속에서도 고객의 라이프 ᄋ
ᅵ벤트를사전에 예측한 정보를 활용할 수 있다는것은 주요한 이점이된다. 고객의 사생활을 설문 등 으
ᆯ 통해 직접 묻지 않아도, 데이터를반영한 모델의 사전 예측을 통해 고객에게 방해가 되지 않는선에 ᄉ
ᅥ 마케팅이 가능하도록만들수 있다.
ᄋ
ᅮ리는결혼, 출산, 취직, 은퇴와 같은여러 라이프 이벤트 중에 ’해외여행’을 갈 고객을주제로 정하 ᄀ
ᅩ, 이 주제를 통해 데이터기반의 예측모델링을적용하는것에 대해 집중했다. ’해외여행’이란 주제는 ᄋ
ᅧ러 라이프 이벤트 중에서도 비교적 가벼운주제이면서, ’해외여행’은다양한 목적에 의해서 이루어지 느
ᆫ데, 결혼과관련된허니문여행, 출산을앞둔태교여행, 취업 후 개인 여행 등여러 라이프 이벤트에서 ᄃ
ᅩ
ᆼ시에 나타날 수 있다. 따라서 ‘해외여행’을예측함으로써 여러 라이프 이벤트를간접적으로확인할 수 이
ᆻ을것이라고 판단했다.
ᄋ
ᅮ리는다양한 예측모델을검토하면서 두 가지 방법에 대한 실험을 진행했는데, 첫 번째는간단한 계 사
ᆫ 방법으로도 예측력을제안할 수 있는 adaptive weighted sum of term score (AWST score)에 대한 거
ᆺ이며, 두 번째는 텍스트 분석에서 주로활용되는 FastText방법론을예측모형의 형태로 적용하는것 ᄋ
ᅵ다. 이 두 가지 방법에 대한 효과를확인하기 위해서, 가장 보편적으로 많이활용하고 있는로지스틱 ᄒ
ᅬ귀분석과 의사결정나무 모형과 비교하여 제안하고자 하는모형과의 장단점을확인하고자 한다. 마지 ᄆ
ᅡ
ᆨ으로, 여러 방법론결과를결합한 앙상블모형을생성하여, 실제 마케팅에활용이 가능한 라이프 이벤 ᄐ
ᅳ에 대한 예측모델의 최대 가능성을확인하고자 한다.
ᄆ
ᅡ케팅에서 전통적으로 활용되는 예측 모형인 로지스틱 회귀모형 (Logistic regression model)과 의 ᄉ
ᅡ결정나무 모형 (decision tree)은해석이 용이하고, 계산 과정이 비교적 복잡하지 않아 현재까지도 널 ᄅ
ᅵ활용되고 있다. 그러나 복잡한 데이터를적용할수록이와 같은장점이 효과적이지 못하고 예측력 또 ᄒ
ᅡᆫ 비교적 낮은경우가 많다. (Jeon과 Cho, 2019) 따라서 최근에는의사결정나무 모형에 boosting방법 ᄋ
ᅳᆯ적용하는 Random Forest나 XGBoost와 같은모형이나 deep neural network (DNN), convolution neural network (CNN)과 같이 딥러닝을이용한 모델 개발을 통해 더 나은예측력을확보하기도 한다.
ᄆ
ᅡ케팅을활용하는 입장에서 개발/운영에 따른환경적인 상황에 따라 선택적으로활용되고 있는경향을 ᄇ
ᅩ인다.