금융권 데이터 중심 인프라 도입 전략

(1)

금융권 데이터 중심 인프라 도입 전략

-AI/ML 플랫폼 도입 전략

효성인포메이션시스템

클라우드사업팀 김형섭 컨설턴트

(2)

앞서 나가는 금융권의 데이터 기반 혁신

(3)

각광받는 AI/ML

1. AI / ML Business 가치

AI는 2021년에 전 세계적으로 2.9조 달러의

(3,475조원)

비즈니스 가치와, 620억 시간의 근로자 생산성을 창출 할 것 - 가트너 (Gartner, Inc.)

2. 왜 AI / ML?

기존환경 대비 44% 생산성, 42% 운영효율, 35% 의사결정 효율 향상

AI를 채택한 조직은 2020 년까지 평균 수익 39% 증가, 평균 비용 37% 감소 예상

3. AI/ ML 전망

AI/ML은 3년 안에 Cloud 컴퓨팅, App. 현대화, 예측 분석 및 IoT 능가 예상

비즈니스 의사 결정권자의 71%가 AI의 부상이 불가피하고 비즈니스 전망에 긍정적

4. AI / ML 도입이 어려운 이유?

AI를 도입하는 데있어 가장 큰 과제는 기술 부족 (56%),

AI 사례 이해 (42%), 데이터 정의 및 품질(34%) 에 대한 우려

The Economist

Intelligence Unit Limited

2019

(4)

AI/ML 기반 금융 서비스

한정된 분야에 AI가 일부 적용되었으나, 신용평가 등 전통적 업무영역에도 AI가 적극 도입

AI기반 금융서비스

AI기반 혁신적 금융 서비스 발굴 노력

규제 준수 및 금융업무에 AI기술 접목 시도 증가

소비자와 가까워진 AI (Front Office Service) 챗봇(AI 상담사), AI 스피커,

로보어드바이저

AI를 활용한 규제준수 (Middle Office Service)

레그테크, 자금세탁방지, 이상거래탐지, 약관 자동 비교 분석

AI가 수행하는 금융업무 (Back Office Service)

AI 기반 신용평가, 업무 자동화(RPA),

기업 위험관리, 고객 데이터 분석

(5)

데이터 업무 프로세스

데이터과학자, 데이터분석가, 데이터엔지니어 IT 관리자

빅데이터/AI/Machine Learning을 활용하여 다양한 분석 및 결과 도출

Digital Transformation 환경의 효율적 공급

모델링 모델평가

문제인식 데이터

수집

데이터 전처리

할당 배포 인프라 요청

관리 모니터링

요청검토 분석환경 가용리소스체크

구성설계

분석환경구성 (Framework, Library, OS, Data) 배포

배포요청

Data

정형, 비정형(SNS, e-Mail, 사진, 영상, Voice)

Library

CUDA(Deep Learning, Machin Learning, Analysis)

Tool

Jupyter Notebook, R Studio, Splunk, Datarobot

OS

SUSE, Red Hat

Framework

Tensorflow, Pytorch, Caffe , Keras, RAPIDS

Hardware

Compute, GPU, 네트워크

(6)

데이터 업무 프로세스

데이터과학자, 데이터분석가, 데이터엔지니어 IT 관리자

빅데이터/AI/Machine Learning을 활용하여 다양한 분석 및 결과 도출

Digital Transformation 환경의 효율적 공급

모델링 모델평가

문제인식 데이터

수집

데이터 전처리

할당 배포 인프라 요청

관리 모니터링

요청검토 분석환경 가용리소스체크

구성설계

분석환경구성 (Framework, Library, OS, Data) 배포

배포요청

Data

정형, 비정형(SNS, e-Mail, 사진, 영상, Voice)

Library

CUDA(Deep Learning, Machin Learning, Analysis)

Tool

Jupyter Notebook, R Studio, Splunk, Datarobot

OS

SUSE, Red Hat

Framework

Tensorflow, Pytorch, Caffe , Keras, RAPIDS

Hardware

Compute, GPU, 네트워크

- 적합한 분석 환경을 적시에 제공받지 못함 - 한정된 예산 내 다양한 분석환경 필요

- 데이터과학자 및 IT팀간 협업 공동작업 공간 요구

- 요청된 환경의 적기 제공 어려움 (복잡한환경의빈번한요청)

- 연산 및 시스템 자원의 낮은 활용도

- 데이터과학자와 IT관리자간 커뮤니케이션

문제점

(7)

데이터 업무 프로세스의 개선방향

요구사항

연산 자원 동적 할당 및 가상화 기반 탄력적 자원운영으로 리소스 활용 최적화

데이터 과학자가 사전 정의된 서비스 모델을 활용해

필요리소스 적시 요청/제공 환경

분석 팀을 위한 공동작업 공간과, IT관리자와의 상호 업무처리 효율을 위한 환경 제공

비용

시간

협업

구현방향 해결과제

- 연산 및 저장 리소스 효율

- 다양한 분석 플랫폼과 ML 프레임워크간 상호 운용성

- 서로 다른 업무 및 기술을 보유한 팀/부서간 협업

- ML모델 관리, 성능, 리소스 모니터링

1. 자원 및 비용효율 2. 업무자동화

3. ML모델 관리

업무속도 및 효율성 개선  AI/ML 플랫폼 형태로 제공

(8)

효성인포메이션시스템의 AI/ML 플랫폼

분석모형 카탈로그

예지정비 품질분석 금융시계열예측

이상치탐지

불량거래 탐지 고객분석

텍스트분석 부정적발 이상치탐지 수요예측 부동산가격예측

이미지분석

헬스데이터분석

Python TensorFlow CUDA 11.0 V100

RPyTorch CUDA 11.0 V100

Python MXNet CUDA 10.0 V100

Python PyTorch CUDA 11.0 V100

RTensorFlow CUDA 11.0 V100

RPyTorch CUDA 10.2 T4

RTensorFlow CUDA 10.1 V100

Python PyTorch CUDA 11.0 T4

Python PyTorch CUDA 10.0 V100

RPyTorch CUDA 10.0 T4

분석결과도출 및 개선

데이터 과학자 개발자

데이터 분석가

사용자

클라우드 운영자

시스템 엔지니어

운영자

모니터링 GPU Pool

…

분석환경 - Compute Pool

컨테이너/VM

CUDA M/L프레임워크

분석언어

GPU Driver

분석모델

분석 데이터

정형 반정형 비정형

GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU

15%

30%

20%

50%

210%

20%

50%

70% 140%

GPU 서버1 GPU 서버2 GPU 서버3

분석환경요청

분석&모델링

분석결과도출

배포승인

권한/정책설정

리소스모니터링

사전정의 분석 모형

Remote GPU 가상화

배포

GPU 할당

불량거래탐지 고객분석 GPU서버 레벨 클러스터레벨

클라우드 관리시스템

모델 개선 반복 ML 분석

1. 자원 및 비용효율

빅데이터 AI/ML을 위한 플랫폼 및 인프라

(Cloud, ETL, 데이터레이크, 분석플랫폼, GPU가상화)

2. 업무자동화

사전정의 12가지 분석모형 Workflow기반 업무요청/배포

3. ML모델 관리

전체 AI/ML Work Flow의 One-stop 관리

예측모형 Train/Tune,/Test /업데이트 자동화

(9)

장점1. 자원 및 비용 효율성 제고 - 연산가속 및 효율 (Remote GPU)

GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU

15%

30%

20%

50% 210%

20%

50%

컴퓨팅POOL (No GPU)

Container

VM

Container

VM

Container

VM

Container

VM

App.

VM

App.

VM

가상화 가상화

App.

VM

컴퓨팅POOL

GPU GPU GPU GPU

개발TOOL

JUPYTER NOTEBOOK

R studio

…

TensorFlow Pytorch Caffe Keras

…

Cloud 포탈

…

GPU 가상화컨트롤

70% 140%

사용

배포

요청

GPU POOL

데이터과학자 IT 관리자

GPU자원 동적 할당

가상 GPU 분할

다수컴퓨팅풀GPU 자원공유

(10)

장점1. 자원 및 비용 효율성 제고 - 하둡 데이터의 오브젝트 아카이빙

• 하둡은 데이터 저장공간 증설 시 연산자원과 S/W 비용 같이 추가

• 저장 공간만 늘리고 싶을 경우 오브젝트 스토리지 활용한 아카이빙으로 해결가능

→ 스토리지 증설비용만 발생

서버

스토리지/HDFS

(11)

장점2. 업무자동화 – 개발자와 IT관리자 모두를 만족하는 AI/ML 환경

Data소스 (정형, 비정형

실시간)

1. 오브젝트(HCP) 2. Hadoop 3. 파일(NAS) 4. RDBMS

저장자원

수집 ETL

정제/가공 (모델링 가능 포멧)

분석용 Data

모델링 (R, Python, ML알고리즘Set)

모델평가 (예측치 검증)

추출 ETL

리모델링 프레임워크설정 변경여부 Yes

검토 및 승인

반복

운영 배포 요청 (모델 알고리즘,

GPU자원, ML 프레임워크)

추론 (예측결과 값, 비즈니스 적용)

개발환경

운영환경 배포 할당/배포

(기간,권한,정책)

관리 모니터링

No

Data 저장/수집 Data 가공/정제 모델링 학습/평가

구분 / 프로세스 배포/모니터링 비즈니스 분석

업무 자동화

자원 효율 /성능

개선

지능형 운영 관리 IT

관리자

모델완성

개발/테스트 환경 배포

재해복구 관리

지능형 성능·용량 관리 통합로그 관리 통합 네트워크 분석

Client 개발VM 분석 DataSet

자원배포

개발/테스트 환경배포 프레임워크 변경

클라우드 포탈

운영환경 컨테이너

GPU Driver CUDA

프레임워크 컨테이너

GPU Driver CUDA 프레임워크

운영자원 (서버, 스토리지,

네트워크, 보안) VM

Data 과학자,

Data 분석가,

Data 엔지니어

업무자동화

(12)

장점2. 업무자동화 – 사전정의 모델 및 협업 환경

서비스 카탈로그

- 요청한 개발환경에서 모델링 개발 환경제공

데이터 과학자 IT 관리자

카탈로그 항목 요청

카탈로그 항목 사전정의 및

검토, 배포 환경요청

- 사용자 그룹화 및 정책 적용 - 사용기간 할당리소스 등 검토

검토

- 사용자에게 분석환경 배포 승인 승인 배포

정책

프로젝트 또는 조직 단위 리소스 접근권한, 사이즈, 사용기간 할당 사용자 권한 기반

필요분석환경 선택

(13)

장점3. ML모델 관리 자동화 – 빅데이터 분석 플랫폼

- 데이터추출/처리/적재와 머신러닝 기반 예측모형을 하나의 Workflow로 통합하여 End-to-End 자동화 - 전체 AI/ML Work Flow의 One-stop 관리로 예측모형 Train/Tune,/Test /업데이트 자동화

빅데이터 통합 분석 플랫폼

데이터 통합과 검증 고급 분석 / AI-Ops 인사이트 도출 업무의 프로세스 통합

End-to-end 자동화

데이터 소스

데이터통합 (블랜딩) / 스트리밍

경험적 비즈니스 인사이트

리포팅 및 비즈니스 분석기능

현업 및 관리자 시나리오

모델링

리스크 측정

비즈니스 룰엔진

Market Data Instrument Data

Party Data Organizational Data

Transaction Data Collateral Data

Position Data Limits / Scenarios

Risk Factors

Computation,

Advanced Analytics and AI Ops

Limits Management Risk Reporting

Stress Testing Back Testing Risk Analytics

FINREP

Reg & Compliance Back Office

Clients / Counterparties

Regulators Front Office

Audit 데이터

준비

데이터 정제

모델학습 및 튜닝

모델 배포/적용

모델 개선

모니터링

평가

리빌드

비교 모델관리

4단계

(14)

효성인포메이션시스템의 AI/ML 플랫폼 – 프레임워크

저장/처리 분석 추출/정제

데이터 유형

실시간 데이터

비정형 데이터

정형 데이터

데이터 레이크

오브젝트 스토리지

HCP VM

HCP CS

파일 공유시스템

Weka FS

NAS

하둡

Cloudera

데이터 웨어하우스

DW DB

SAP HANA Teradata DB

데이터 마트

고성능 DB

SQREAM SAP HANA

데이터수집

ETL

Pentaho

PDI

데이터분류

분류

Lumada

Data Catalog

OLAP 분석/시각화

OLAP/Ad-Hoc

Pentaho PBA

ML 모델링/분석

분석 Application

Pentaho PBA Teradata Vantage

데이터처리

ETL

Pentaho

PDI

가상머신

vSphere

네트워크 가상화

NSX-T

스토리지 가상화

vSAN

연산가속 및 효율

Remote GPU (Bitfusion)

vGPU

관리/배포

vCenter vRA

컨테이너

vSphere with Tanzu Openshift

Cloud 인프라

데이터 유형

분석 환경

Framework ML

컨테이너

모델 12가지업무별 분석모델

(15)

효성인포메이션시스템의 AI/ML 환경은!

AI/ML 기반 데이터 분석업무 자동화 구현으로

→ AI/ML 업무 속도 및 효율성 개선

업무 자동화 (애널리틱스 클라우드)

1. Cloud Portal 환경에서 분석환경 요청 및 설계, 구성, 배포 프로세스 관리 2. 사전정의 된 컨테이너 기반 GPU 가상화 환경 적시 배포

ML 모델관리 자동화 (빅데이터 플랫폼)

1. 추출/처리/적재/ML모델링을 Workflow로 통합 End-to-End 자동화

전체 ML Workflow를 One-stop으로 관리하면서 예측모형의 Train, Tune, Test 및 업데이트 자동화(스케줄)

자원효율/성능개선 (연산, 저장)

1. Remote GPU 구성 및 GPU 가상화 (GPU당 비용 50% 절감, 사용률 2~4 배 향상)

2. 데이터 유형 및 업무특성에 맞는 저장인프라 제공 (오브젝트 스토리지, Hadoop, NAS)

3. 컨테이너/가상머신 기반 서버자원 리소스 운영효율

(16)

물류 이미지분류 AI 시스템 구축

요구사항

• 시간/비용 손실 최소화를 위한 사전대응 가능한 물류 분석환경 필요

• 이미지 분석기반 택배분류 자동화로 운송자원 사전준비 요구사항

• 빅데이터 분석기반 물동량 예측으로 물류지원 계획 수립

해결방안

• GPU 기반의 AI 머신러닝 물류 분석시스템 인프라 제공

• 머신러닝 분석 효율을 위한 HCI 및 가상 GPU 환경 제공

• 분석 이미지 데이터 저장 효율 제고를 위한 오브젝트 스토리지

결과

• 머신러닝 분석을 통한 운송자원 사전준비로 운송시간 단축

• 물동량 예측환경에서 변화 대응으로 생산성 향상

• 가상화 기반의 IT 구성으로 자원효율성 증대 및 비용부담 감소

GPU 기반의 물류데이터 AI/ML 분석시스템 도입을 위한 ‘이미지 분류 AI용 시스템’ 구축사업

(17)

AI서비스 제공 통합 환경 기획/설계/구현

VDI 관리 가상 데스크톱

…

… 컨테이너 기반

개발 분석

가상화 기반 IaaS 관리 빅데이터·AI 관리

소프트웨어 정의 스토리지 (vSAN) 소프트웨어 정의 컴퓨팅 (ESXi) 소프트웨어 정의 네트워크 (NSX)

클라우드 관리 (vCloud Suite) PaaS 관리

소프트웨어 정의 스토리지 (vSAN)소프트웨어 정의 네트워크 (NSX)소프트웨어 정의 컴퓨팅 (ESXi)클라우드 관리 (vCloud Suite)

GPU GPU GPU

가상 데스크톱 플랫폼 (Horizon) AI 플랫폼 AI 카탈로그 데이터 파이프라인

IaaS 풀

IaaS, PaaS, 스마트 오피스, AI-PaaS, 데이터허브를 활용한 AI 서비스 환경구축 사업을 기획/설계/구현 전 단계에 걸쳐 수행

(18)

금융 데이터통합 플랫폼 구축 ISP 컨설팅

데이터 개방을 통한 데이터 기반 신규 비즈니스 창출 및 혁신 연구를 지원하기 위한 목적의 ‘데이터 통합 시스템’ 구축사업

AI/ML 기반 신기술 적용

가상화 기반 유연한 아키텍처 설계

오픈소스 기반 분석 환경

기존인프라 활용

1

2

3

4 고객 요구사항 ISP 컨설팅 결과

- GPU 기반 AI/ML 고급분석 솔루션 도입 (하둡, 고급분석, CDSW)

- 개방 VDI 영역의 GPU가상화 환경 구축 - 기존 클라우드의 빅데이터 클러스터 증설

(확장 및 변화에 대응 가능한 인프라 구축) - R & Python등 오픈소스 기반 분석 환경 도입 - 기존 클라우드 자원 재활용

(포털 및 분석 등 WEB/WAS/DB 신규업무의

기존자원 활용)

(19)

금융 데이터분석 플랫폼

AI/ML 분석역량 향상 및 대용량 데이터의 처리/분석 업무를 위한 분석 플랫폼

오브젝트스토리지

Pentaho 클라우드

원천데이터수집 저장처리

데이터 웨어하우스 Oracle Exadata

ETL Pentaho 오브젝트 스토리지

추출/적재

추출/적재 실시간 데이터

비정형 데이터

정형 데이터

컨테이너

분석활용

클라우드

관리배포 가상머신 GPU가상화 VM

관리 VM

… 분석가VM1

(R Studio) 분석가VM2

형상관리VM (Nexus, GitLab) 데이터분석

모델업로드

R 서버 VM R서버(운영) 컨테이너 컨테이너 솔루션

모델운영적용 마스터 VM

인프라VM GPU

리소스할당

GPU 리소스할당

200TB

분석가VM20 추출/적재

분석플랫폼 저장 플랫폼

데이터

(20)