일시
주최 및 협력
제14회 굿모닝아이텍(주) 웨비나
2020.03.27 (금) 16:00 ~ 17:00
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
2
CDP(Cloudera Data Platform) on Azure
Cloudera Korea
남영지 Solution Engineer
클라우드 2.0
• 클라우드 데이터 생태계
• 가트너가 올 1월 처음 용어를 만듬
• 애널리스트 회사 451리서치가 작년 말에 ‘엔터프라이즈 인텔리전스플랫폼’이라는 말을 쓰기 시작
• 클라우데라가 지난 여름 ‘엔터프라이즈 데이터 클라우드’라고 명명
• 멀티 클라우드의 등장
• 3대 퍼블릭 클라우드 제공업체는 자체 서비스를 프라이빗 클라우드 배치 장소로 확장하는 프로그램을 각각 공개하거나 강화
• 2017년 고객 데이터센터 자체 클라우드 서비스를 확장하기 위해
애저 스택을 처음 도입했던 마이크로소프트는 이번에는 애저 아크를
출시하여 애저 스택 산하의 다양한 하드웨어 서비스들을 포함
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
4
CDP on Microsoft Azure Marketplace
• Azure 기반의 데이터 생명주기 관리, 보안 및 커넥티드 엔터프라이즈 데이터 클라우드
• Azure – 고객사는 클라우드 제공사를 선택할 수 있는 유연성
• 온프레미스 - 성능, 비용 및 보안을 위해 데이터센터 내 최적화된 인프라 사용
• 하이브리드 클라우드 - 퍼블릭 클라우드 및 온-프레미스 조합으로 일관된 관리 및 제어
• CDP를 통해 쉬운 분석 기능으로 복잡한 유스케이스 구현
• 완결성 : 데이터를 수집, 변환, 쿼리, 최적화 및 예측하는 데 필요한 모든 기능을 사용할 수 있으므로 포인트 제품 필요 없음
• 통합성 : 통합 분석 기능으로 빅 데이터 애플리케이션 및 파이프 라인 생성을 단순화
• 일관성 : 기능 전반에 걸쳐 표준화 된 사용자 경험으로 데이터를 더
빠르고 쉽게 분석 가능
CDP on Microsoft Azure Marketplace
• CDP의 SDX (Shared Data Experience)를 통해 엔터프라이즈 데이터 클라우드의 보안 보장
• 일관성 : 보안 및 거버넌스 정책이 한 번 설정되고 모든 데이터 및 워크로드에 적용됩니다.
• 이식성 : 지원되는 모든 인프라 간에 이동하더라도 정책 데이터 유지
• 셀프 서비스 : 사용자는 효율적으로 데이터를 찾고, 관리하고, 공유할 수 있으며 신뢰할 수 있는 데이터 및 분석에 액세스 할 수 있음
• CDP는 데이터웨어 하우스, 기계 학습 및 데이터 허브의 3가지 기본 서비스로 구성
• CDP 와 Azure 비용 단일 통합 청구 가능
• Azure 주요 서비스 컴포넌트와 긴밀한 통합
• Cloudera Data Platform은 ADLS (Azure Data Lake Storage) Gen2, AKS (Azure Kubernetes Service), Azure Active
Directory 및 기타 핵심 데이터 서비스와 같은 Azure 인프라 서비스
와 긴밀하게 통합
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
6
CDP HOME
• 전체 플랫폼의 최신 통합 UI
• GUI, CLI 또는 API를 통한 액세스
• 인라인 도움말 및 지원
COMPONENTS
Traditional Platform Consumption:
•
Data Hub 클러스터New analytic experiences:
•
Data Warehouse•
Machine Learning•
Data Engineering(TBD)•
Data Flow(TBD)Control Plane services:
•
Workload Manager•
Replication Manager•
Data Catalog•
Management ConsoleCDP Public Cloud에서 제공하는 서비스 목록
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
8
MANAGEMENT CONSOLE
• 1 시간내 전체 보안 기능 포함된 SDX 환경 구축
• 셀프 서비스 워크로드 클러스터 관리
• 사용자는 회사 SSO를 통해 안전한 프로비저닝
• 단일 화면에서 CDH / HDP 클러스터 관리
• CLI 액세스를 통한 운영 자동화
DATA HUB
• 사전 정의된 클러스터 구축
• 몇 분 내에 프로비저닝 / 확장 / 축소
• ‘항상 실행’ 보안 및 거버넌스
• 실패한 노드의 완벽한 복구
• 맞춤형 클라우드 인프라 및 클러스터 구성
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
10
DATA WAREHOUSE
• 자동화된 용량 계획
• 프로비저닝 용이성
• 자동 스케일링
• 리소스 격리
• 높은 동시성
• 성능에 최적화 된 인프라
• 두 개의 DW 엔진 선택 : Hive 및 Impala
MACHINE LEARNING
• 기다림 없는 ML 팀 작업
• 관리 통제하에 데이터 액세스 셀프서비스
• 데이터 과학자들이 선호하는 오픈 도구
• 탄력적이고 자동 중단되는 리소스
• DE를 포함한 엔드 투 엔드 ML을 위한 포괄적이고 집중적인 UX
• 휴대성과 일관성
• 자동화된 용량 계획
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
12
DATA CATALOG
• 최종 사용자를 위한 :
• 데이터 레이크 컨텐츠 검색, 큐레이션, 태그 지정
• 데이터 계보를 통해 신뢰 확보 : 비즈니스 용어집을 통한 컨텍스트
• 데이터 관리자의 위한 :
• 권한 부여 정책 (ABAC, RBAC, 파일, 테이블, 열, 행 등) 생성 및 관리
• 사용자가 액세스 한 데이터를 감사 및
식별
WORKLOAD MANAGER
• Data Hub, CDW, CDH clusters 지원
• Spark, Hive 및 Impala 워크로드 분석
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
14
주요 용어 개념 및 관계
Environment
•
1 Template
•
1 Region
•
1 VPC
•
Multiple Roles/ Buckets
Data Lake
•
SDX: Atlas, Ranger, Knox, IdBroker, CM
•
Associated with groups/ users
Data Hub Cl usters / Exp
eriences
•
DH templates
•
ML Env
•
DW Database Catalogs/ Virtual Compute
1:1
1:N
ENVIRONMENTS
중요 개념 및 구성 요소
일반적인 사용자 작업 흐름
Enterprise IT CDP Control Plane
Management Console 1
Step 1
기업내 계정을 사용 하여 CDP
Management Console에 로그온
Enterprise Cloud Resources (IAM, Network, VMs, Buckets, etc.) Step 2
CDP Management C onsole에서 Environ ment와 Data Lake 생성
2
Environment Data Lake
Atlas Ranger
Knox IdBroker
FreeIPA CM HMS
Step 3
기존 워크로드 마이그레 이션을 위한 Data Hub 클러스터 생성
3
BI Team Cluster Node 1 ETL Team Cluster Node 2 Node 3 Node 1 Node 2 Node 3
4
Step 4
새로운 사용자 경험을 위한 Cloudera Experience 프로비저닝 – Cloudera Data WareHouse 서비스 또는 Cloudera Machine Learning 서비스
Data Warehouse Experience Machine Learning Experience
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
16
ENVIRONMENT
환경 이란?
• CDP가 고객 환경에서 자원 할당 및 위치 정의
• Data Lake라는 장기 실행 영구 클러스터가 여기에 생성
DATA LAKE
데이터 레이크란?
• 여러 클러스터 / 익스피리언스 간에 공유되는 환경 내 공통 서비스 세트 (SDX)
• 보안
• 감사
• 거버넌스
• 데이터 탐색
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
18
DATA HUB CLUSTERS AND EXPERIENCES
어떤 다양한 기능이 있나?
• Data Hub 클러스터는 기존 Hadoop
클러스터처럼 실행되지만 클라우드 스토리지를 활용하도록 설계된 사용자 정의 가능한 환경
• 익스피리언스는 특정 목적을 위한 컨테이너 기반 컴퓨팅 환경
• ML, DW, DE, OD, DF
CONTROL PLANE
컨트롤 플레인이란?
• Control Plane은 여러 환경에서 관리, 작업 부하 분석, 데이터 이동 및 데이터 탐색을 위한 공통 도구 세트
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
20
Environment 상세
Azure 상에 고객사 VPC 환경 구축
데이터 허브 프로비저닝
원하는 클러스터를 사전 정의된 구성으로 설치
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
22
오토 스케일 데이터 웨어하우스
T-shirts 단위로 자동 확장 단위 정의
머신러닝 워크스페이스 프로비저닝
오토스케일 범위 지정
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.
24
클라우데라 배포판 (Cloudera Runtime)
Key enhancements as compared to CDH 6
Ranger
•
Dynamic row filtering
•
Dynamic column masking
•
Attribute-based access control
•
SparkSQLfine-grained access control
Atlas 2.0
•Advanced data discovery
•
Improved performance and scalability
Hive 3
•
Better fit for EDW Optimization use cas es (large joins, analytical style workload s)
Knox
•Gateway-based SSO
Hive on Tez
•Better ETL performance
Key enhancements as compared to HDP 3
Cloudera Manager
•
Virtual private clusters
•
Automated wire encryption setup
•
Fine-grained RBAC for administrators
•
Streamlined maintenance workflows
Atlas 2.0
•Advanced data lineage
•
Faceted search
Impala
•Better fit for Data Mart migration use c ases (interactive, BI style queries)
Hue
•Built-in SQL editor
Kudu
•Better performance for fast changing /
updateable data
컨버지드 배포판
CDH, HDP 중 베스트 기능과 컴포넌트로 구성
Initial CDP Public Cloud Release
Targeted for initial CDP-DC Release•
Hadoop 3.1
•
Spark 2.4
•
Hive 3.1
•
Impala 3.2
•
Oozie 5.1
•
Hue 4.3
•
Ranger 2.1
•
Atlas 2.0
•
Tez 0.9
•
HBase 2.2
•
Sqoop 1.4.7
•
Livy 0.5
•
Parquet 1.10
•
Avro 1.8
•
ORC 1.5
•
Zookeeper 3.4
•
Zeppelin 0.8
•
Knox 1.3
•
Arrow 0.8
•
Kudu
•
Phoenix
•
Druid
•
Pig
•
Solr / Search
• Kafka 2.3
ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.