2021, 32
(4)
,781–797
딥러닝 기술을 활용한 금융거래 실소유주 구별에 대한 연구
ᄋ
ᅵ승언
1
· 김현세2
· 김남호3
· 엄정윤4
·우지환5
12345
ᄉ
ᅵᆫ한은행 AI Competency Center ·5기술경영전문대학원
ᄌ ᅥ
ᆸᄉ ᅮ 2021ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 26ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ
요 약
ᄃ ᅵ
ᆸᄅ ᅥᄂ ᅵ ᆼᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄌ ᅡᄋ ᅧ ᆫᄋ ᅥ ᄎ ᅥᄅ ᅵ ᄀ ᅵᄉ ᅮ ᆯ ᄋ ᅵ ᄇ ᅡ ᆯᄌ ᅥ ᆫᄒ ᅡ ᆷᄋ ᅦ ᄄ ᅡᄅ ᅡ, ᄀ ᅳ ᆷᄋ ᅲ ᆼ ᄉ ᅡ ᆫᄋ ᅥ ᆸᄋ ᅦᄃ ᅩ ᄆ ᅮ ᆫ ᄌ ᅡᄋ ᅵ ᆫᄉ ᅵ ᆨ, ᄀ ᅩᄀ ᅢ ᆨ ᄉ ᅡ ᆼᄃ ᅡ ᆷ, ᄌ ᅡᄅ ᅭ ᄀ ᅥ ᆷ ᄉ ᅢ
ᆨ ᄃ ᅳ ᆼ ᄃ ᅵ ᆸᄅ ᅥᄂ ᅵ ᆼ ᄀ ᅵᄇ ᅡ ᆫ ᄌ ᅡᄋ ᅧ ᆫᄋ ᅥ ᄇ ᅮ ᆫ ᄅ ᅲ ᄆ ᅵ ᆾ ᄆ ᅮ ᆫ ᄌ ᅡ ᆼ ᄋ ᅵᄒ ᅢ ᄀ ᅵᄉ ᅮ ᆯᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄂ ᅳ ᆫ ᄉ ᅡᄅ ᅨᄃ ᅳ ᆯ (Choᄋ ᅪ Kim, 2021) (Chun ᄃ ᅳ ᆼ, 2021)ᄋ ᅵ ᄌ ᅳ ᆼ ᄀ ᅡᄒ ᅡᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄀ ᅳ ᆷᄋ ᅲ ᆼ ᄀ ᅥᄅ ᅢᄋ ᅦᄉ ᅥ ᄀ ᅥᄅ ᅢᄋ ᅴ ᄉ ᅵ ᆯᄌ ᅦ ᄉ ᅩᄋ ᅲᄌ ᅡᄀ ᅡ ᄇ ᅥ ᆸᄋ ᅵ ᆫᄋ ᅵ ᆫᄌ ᅵ ᄄ ᅩᄂ ᅳ ᆫ ᄌ ᅡᄋ ᅧ ᆫᄋ ᅵ ᆫᄋ ᅵ ᆫᄌ ᅵ ᄑ ᅡ ᆫᄃ ᅡ ᆫᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺ ᄋ
ᅳ
ᆫ ᄀ ᅩᄀ ᅢ ᆨᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄌ ᅦᄃ ᅩᄋ ᅴ ᄒ ᅢ ᆨᄉ ᅵ ᆷᄉ ᅡᄒ ᅡ ᆼᄋ ᅵᄃ ᅡ. ᄒ ᅡᄌ ᅵᄆ ᅡ ᆫ, ᄋ ᅡ ᇁᄉ ᅥ ᄀ ᅵᄌ ᅩ ᆫ ᄃ ᅵ ᆸᄅ ᅥᄂ ᅵ ᆼ ᄀ ᅵᄇ ᅡ ᆫᄋ ᅴ ᄌ ᅡᄋ ᅧ ᆫᄋ ᅥ ᄎ ᅥᄅ ᅵᄀ ᅵᄉ ᅮ ᆯᄋ ᅳ ᆫ ᄃ ᅡ ᆫᄋ ᅥᄅ ᅳ ᆯ ᄎ ᅬᄉ ᅩ ᄃ
ᅡ ᆫᄋ ᅱᄅ ᅩ ᄌ ᅡᄋ ᅧ ᆫᄋ ᅥᄅ ᅳ ᆯ ᄋ ᅵ ᆫᄉ ᅵ ᆨᄒ ᅡᄀ ᅵ ᄄ ᅢᄆ ᅮ ᆫ ᄋ ᅦ ᄌ ᅮᄋ ᅥᄌ ᅵ ᆫ ᄃ ᅡ ᆫᄋ ᅥᄀ ᅡ ᄌ ᅡᄋ ᅧ ᆫᄋ ᅵ ᆫ ᄋ ᅵᄅ ᅳ ᆷᄋ ᅵ ᆫᄌ ᅵ ᄇ ᅥ ᆸᄋ ᅵ ᆫᄆ ᅧ ᆼᄋ ᅵ ᆫᄌ ᅵ ᄋ ᅧᄇ ᅮᄅ ᅳ ᆯ ᄑ ᅡ ᆫᄃ ᅡ ᆫᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅦ ᄌ ᅥ ᆨ ᄋ
ᅭ
ᆼ ᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅥ ᆹᄃ ᅡᄂ ᅳ ᆫ ᄃ ᅡ ᆫᄌ ᅥ ᆷᄋ ᅵ ᄌ ᅩ ᆫ ᄌ ᅢᄒ ᅡ ᆫᄃ ᅡ. ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄃ ᅵ ᆸᄅ ᅥᄂ ᅵ ᆼ ᄀ ᅵᄇ ᅡ ᆫᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄋ ᅥᄋ ᅦᄉ ᅥ ᄃ ᅡ ᆫᄋ ᅥᄅ ᅳ ᆯ ᄀ ᅮᄉ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄎ ᅬᄉ ᅩ ᄃ
ᅡ ᆫᄋ ᅱᄋ ᅵ ᆫ ᄋ ᅳ ᆷᄌ ᅥ ᆯᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢᄉ ᅥ, ᄌ ᅮᄋ ᅥᄌ ᅵ ᆫ ᄃ ᅡ ᆫᄋ ᅥᄋ ᅦ ᄃ ᅢᄒ ᅢᄉ ᅥ ᄌ ᅡᄋ ᅧ ᆫᄋ ᅵ ᆫ ᄋ ᅵᄅ ᅳ ᆷ ᄋ ᅧᄇ ᅮᄅ ᅳ ᆯ ᄑ ᅡ ᆫᄃ ᅡ ᆫᄒ ᅡᄂ ᅳ ᆫ ᄆ ᅩᄃ ᅦ ᆯᄋ ᅳ ᆯ ᄀ ᅳ ᆷᄋ ᅲ ᆼ ᄀ
ᅯ
ᆫ ᄎ ᅬᄎ ᅩᄅ ᅩ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢᄉ ᅥ, ᄀ ᅳ ᆷᄋ ᅲ ᆼ ᄀ ᅥᄅ ᅢ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅦᄉ ᅥ ᄇ ᅥ ᆸᄋ ᅵ ᆫᄀ ᅪ ᄌ ᅡᄋ ᅧ ᆫᄋ ᅵ ᆫᄋ ᅳ ᆯ ᄂ ᅩ ᇁᄋ ᅳ ᆫ ᄉ ᅮᄌ ᅮ ᆫ ᄋ ᅴ ᄌ ᅥ ᆼ ᄒ ᅪ
ᆨ ᄃ ᅩᄋ ᅪ ᄈ ᅡᄅ ᅳ ᆫ ᄉ ᅩ ᆨ ᄃ ᅩᄅ ᅩ ᄀ ᅮᄇ ᅮ ᆫ ᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄀ ᅦ ᄃ ᅬ ᆫ ᄃ ᅡ. ᄄ ᅡᄅ ᅡᄉ ᅥ ᄀ ᅵᄌ ᅩ ᆫ ᄀ ᅳ ᆷᄋ ᅲ ᆼ ᄉ ᅥᄇ ᅵᄉ ᅳ ᄌ ᅵ ᆫᄒ ᅢ ᆼᄉ ᅵ ᄌ ᅥ ᆫᄆ ᅮ ᆫ ᄋ ᅵ ᆫᄅ ᅧ ᆨᄋ ᅴ ᄀ ᅧ ᆼᄒ ᅥ ᆷᄋ ᅦ ᄋ ᅴᄌ ᅩ ᆫ ᄒ
ᅡᄃ ᅥ ᆫ ᄌ ᅡ ᆨᄋ ᅥ ᆸᄋ ᅳ ᆯ ᄋ ᅵ ᆫᄀ ᅩ ᆼ ᄌ ᅵᄂ ᅳ ᆼ ᄋ ᅳᄅ ᅩ ᄃ ᅢᄎ ᅦᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄋ ᅳᄆ ᅧ ᄎ ᅥᄅ ᅵᄅ ᅣ ᆼ ᄄ ᅩᄒ ᅡ ᆫ ᄂ ᅳ ᆯ ᄋ ᅥᄂ ᅡ ᆯ ᄀ ᅥ ᆺᄋ ᅳᄅ ᅩ ᄀ ᅵᄃ ᅢ ᄃ ᅬ ᆫ ᄃ ᅡ. ᄄ ᅩᄒ ᅡ ᆫ, ᄋ ᅵ ᆫᄀ ᅩ ᆼ ᄌ ᅵᄂ ᅳ ᆼ ᄀ ᅵ ᄇ
ᅡ ᆫᄋ ᅴ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄆ ᅩᄃ ᅦ ᆯᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄀ ᅩ ᄀ ᅩᄀ ᅢ ᆨᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄆ ᅩᄒ ᅧ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄇ ᅵᄀ ᅭ ᄉ ᅵ ᆯᄒ ᅥ ᆷᄋ ᅳ ᆯ ᄌ ᅦᄀ ᅩ ᆼ ᄒ ᅡᄋ ᅧ, ᄒ ᅣ ᆼᄒ ᅮ ᄀ ᅳ ᆷᄋ ᅲ ᆼ ᄉ ᅡ ᆫᄋ ᅥ ᆸᄋ ᅦᄉ ᅥ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄇ
ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄃ ᅩᄋ ᅵ ᆸᄒ ᅡ ᆯ ᄄ ᅢ ᄎ ᅡ ᆷᄀ ᅩᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄇ ᅦ ᆫᄎ ᅵᄆ ᅡᄏ ᅳᄅ ᅳ ᆯ ᄌ ᅦᄀ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡᄂ ᅳ ᆫ ᄌ ᅥ ᆷᄋ ᅦᄉ ᅥ ᄏ ᅳ ᆫ ᄋ ᅴᄆ ᅵᄀ ᅡ ᄋ ᅵ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅩᄀ ᅢ ᆨᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄌ ᅦᄃ ᅩ, ᄃ ᅵᄌ ᅵᄐ ᅥ ᆯ ᄀ ᅳ ᆷᄋ ᅲ ᆼ, ᄋ ᅥ ᆫᄋ ᅥᄆ ᅩᄃ ᅦ ᆯ.
1. 서론 ᄉ
ᅦ계적으로금융거래가 증가함에 따라 자금세탁에 대한 문제 역시 증가하고 있다. 이에 따라 각국정 ᄇ
ᅮ들은 금융실명제도를 비롯한 각종 제도를 도입하여 자금세탁을방지하고 자금거래의 투명성과 건전 서
ᆼ을 강화하기 위해 노력하고 있다. 국내에서도 1993년, 금융실명법 도입을시작으로금융거래의 투명 서
ᆼ을 강화하기 위한 다양한 제도들이금융권에 도입되고 있다. 그 중하나로 고객확인제도 (Customer Due Diligence, 이하 CDD)는 금융회사가 고객과 거래 시 고객의 신원을검증하고 실제 소유자, 거래 ᄆ
ᅩᆨ적, 자금의 원천을확인하여금융거래가 불법적인 목적에 이용되지 않도록고객에 대해 합당한 주의를 ᄀ
ᅵ울이도록하는제도이다 (Kim, 2019).
그
ᆷ융회사의 입장에서는 CDD를수행하여 자금세탁 등의 리스크를방지해야 할 필요가 있다. 특금법 ᄌ
ᅦ 5조의 2에 따라 법인의 실제소유자 (고객을최종적으로 지배하거나 통제하는사람)는주주명부 등을 화
ᆨ인한 후 자연인 (개인)으로 입력되어야 한다. 은행 내규에 따라 1∼3년 주기로 법인 CDD가 반복적으
1
(04513) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅮ ᆼ ᄀ ᅮ ᄉ ᅦᄌ ᅩ ᆼ ᄃ ᅢᄅ ᅩ 55, ᄉ ᅵ ᆫᄒ ᅡ ᆫᄋ ᅳ ᆫᄒ ᅢ ᆼ AI Competency Center, ᄒ ᅢ ᆼᄋ ᅯ ᆫ.
2
(04513) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅮ ᆼ ᄀ ᅮ ᄉ ᅦᄌ ᅩ ᆼ ᄃ ᅢᄅ ᅩ 55, ᄉ ᅵ ᆫᄒ ᅡ ᆫᄋ ᅳ ᆫᄒ ᅢ ᆼ AI Competency Center, ᄒ ᅢ ᆼᄋ ᅯ ᆫ.
3
(04513) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅮ ᆼ ᄀ ᅮ ᄉ ᅦᄌ ᅩ ᆼ ᄃ ᅢᄅ ᅩ 55, ᄉ ᅵ ᆫᄒ ᅡ ᆫᄋ ᅳ ᆫᄒ ᅢ ᆼ AI Competency Center, ᄒ ᅢ ᆼᄋ ᅯ ᆫ.
4
(04513) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅮ ᆼ ᄀ ᅮ ᄉ ᅦᄌ ᅩ ᆼ ᄃ ᅢᄅ ᅩ 55, ᄉ ᅵ ᆫᄒ ᅡ ᆫᄋ ᅳ ᆫᄒ ᅢ ᆼ AI Competency Center, ᄒ ᅢ ᆼᄋ ᅯ ᆫ.
5
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (04513) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅮ ᆼ ᄀ ᅮ ᄉ ᅦᄌ ᅩ ᆼ ᄃ ᅢᄅ ᅩ 55, ᄉ ᅵ ᆫᄒ ᅡ ᆫᄋ ᅳ ᆫᄒ ᅢ ᆼ AI Competency Center, ᄇ ᅮᄇ ᅮᄌ ᅡ ᆼ, ᄀ ᅩᄅ ᅧᄃ ᅢ ᄀ
ᅵᄉ ᅮ ᆯᄀ ᅧ ᆼᄋ ᅧ ᆼᄌ ᅥ ᆫᄆ ᅮ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫ, ᄀ ᅧ ᆷᄋ ᅵ ᆷᄀ ᅭᄉ ᅮ. Email: jihwan [email protected]
ᄅ
ᅩ 수행되고 있으며, 해당 항목이 허위로 기재되었을경우 과태료 건당 18백만원부과 및 임직원제재가 이
ᆻ다. 그러나 업무 담당자에 따라 실제 소유자가 법인명으로 오류 기재되는사례가 적지 않다. 그 까닭 ᄋ
ᅳ
ᆫ업무 담당자의 실수가 발생하여도 이를사후적으로 검증하는프로세스가 부재했기 때문이다. 기존에 느
ᆫ 실제소유자 법인명 오류 입력 사례를방지하기 위해금지어, 주의어 필터링만으로 전산 입력 제어를 ᄒ
ᅡ는 방식으로 사전 검증을 하였다. 하지만 고유명사의 특징상 새로운 이름들이 많이 생겨나므로 단순 피
ᆯ터링으로는 한계가 있다. 이러한 한계로 은행 내부적으로는사후 점검을수기로 진행하며 오류 항목 ᄋ
ᅦ 대한 전산 수정 및 장표 수정을수행하는데, 이에는많은시간과 비용이 소요되고 있다.
보
ᆫ 논문에서는고객 거래확인 과정에서 법인의 실제 소유자가 자연인으로 기재되었는지 검증하는 딥 ᄅ
ᅥ닝 기반 모형을제안하고자 한다. 다시 말해, 실제 소유자가 법인명으로 잘못 입력되었는지 여부를검 ᄌ
ᅳ
ᆼ하는 인공지능모형에 대하여 설명하고자 한다. 이러한 모형 개발을 통해 실제 소유자에 대한 올바른 ᄀ
ᅵ재를 실시간으로 사전 검증할 수 있다면, 사후 검증프로세스를 진행하는비용을 줄이고 고객확인제도 르
ᆯ 준수하는 동시에 자금세탁으로 발생할 수 있는금융회사의 리스크를 줄이고 자금거래의 투명성과 건 ᄌ
ᅥᆫ성을강화할 수 있을것으로 기대된다.
2. 문헌연구 ᄌ
ᅡ연어 처리 분야에서 단어 또는 문장을 분류하는 문제는 주된 관심사 중 하나로 계속해서 연구되 ᄋ
ᅥ 왔다. 이에 따라 단어 또는 문장을 분류하는 다양한 방법론들 (Smaili 등, 1996; Ushioda, 1996;
Joachims, 1998; Pekar와 Saab, 2003)이 제안되었다. 특히 컴퓨터과학 및 응용수학의 발전에 발맞추어 ᄉ
ᅢ로운접근을취한 연구들 (Kim, 2014; Vaswani 등, 2017; Devlin 등, 2018)이 제시되어왔다. 본연 ᄀ
ᅮ에서는이러한 방법론들을크게 네 가지로 분류하여 검토하여 보았다.
2.1. 동시 등장 (co-occurrence)을 고려한 방법론
Joachims (1998)가 제안한 동시 등장 (co-occurrence)을 고려한 방법론은 아래 식 (2.1)과 같이 문 ᄉ
ᅥ 안에서 단어별 등장 빈도를기록한 동시 등장 행렬 (co-occurrence matrix)을구성한 뒤, 문서에 대 ᄋ
ᅳ
ᆼ되는 행벡터로 문서를수학적으로 표현한다. 이후, 문서 벡터들을 입력으로 하는 SVM (soft vector machine) 분류기를이용해서 문서들을 분류한다.
T1 T2 T3
D1 w11 w12 w13
D2 w21 w22 w23 D3 w31 w32 w33
, (2.1)
Wang 등 (2012)은이와 동일한 방법을차용하되, 문서 분류에 따라 단어의 분포가 다른점에 착안하 ᄋ
ᅧ, 분류 간 빈도 차이가 선명하게 나타나는단어에 높은가중치를 부여한다. Swetha 등 (2020)은 같 ᄋ
ᅳ
ᆫ접근을 문장이 아닌 단어 분류의 문제에 취한 경우이다. 해당 연구에서는아래 수식과 같이 계산되는 TF-IDF (term frequency-inverse document frequency)수치로 동시 등장 행렬을구성한 뒤, 단어에 대 ᄋ
ᅳ
ᆼ되는열벡터를단어의 수학적 표현으로 삼아 군집화 (clustering)를한다. TF-IDF는 식 (2.2)에서 알 ᄉ
ᅮ 있듯 문서에서 나타나는단어의 빈도뿐아니라 단어의 범용성을함께 고려하므로, 분류에 중요한 역 ᄒ
ᅡᆯ을하는단어에 더큰가중치를주는 특징이 있다.
T F − IDF (x, y) = T F (x, y) × log( N
DF (x)), (2.2)