• 검색 결과가 없습니다.

제14회 굿모닝아이텍(주) 웨비나

N/A
N/A
Protected

Academic year: 2022

Share "제14회 굿모닝아이텍(주) 웨비나"

Copied!
27
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

일시

주최 및 협력

제14회 굿모닝아이텍(주) 웨비나

2020.03.27 (금) 16:00 ~ 17:00

(2)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

2

CDP(Cloudera Data Platform) on Azure

Cloudera Korea

남영지 Solution Engineer

(3)

클라우드 2.0

• 클라우드 데이터 생태계

• 가트너가 올 1월 처음 용어를 만듬

• 애널리스트 회사 451리서치가 작년 말에 ‘엔터프라이즈 인텔리전스플랫폼’이라는 말을 쓰기 시작

• 클라우데라가 지난 여름 ‘엔터프라이즈 데이터 클라우드’라고 명명

• 멀티 클라우드의 등장

• 3대 퍼블릭 클라우드 제공업체는 자체 서비스를 프라이빗 클라우드 배치 장소로 확장하는 프로그램을 각각 공개하거나 강화

• 2017년 고객 데이터센터 자체 클라우드 서비스를 확장하기 위해

애저 스택을 처음 도입했던 마이크로소프트는 이번에는 애저 아크를

출시하여 애저 스택 산하의 다양한 하드웨어 서비스들을 포함

(4)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

4

CDP on Microsoft Azure Marketplace

• Azure 기반의 데이터 생명주기 관리, 보안 및 커넥티드 엔터프라이즈 데이터 클라우드

• Azure – 고객사는 클라우드 제공사를 선택할 수 있는 유연성

• 온프레미스 - 성능, 비용 및 보안을 위해 데이터센터 내 최적화된 인프라 사용

• 하이브리드 클라우드 - 퍼블릭 클라우드 및 온-프레미스 조합으로 일관된 관리 및 제어

• CDP를 통해 쉬운 분석 기능으로 복잡한 유스케이스 구현

• 완결성 : 데이터를 수집, 변환, 쿼리, 최적화 및 예측하는 데 필요한 모든 기능을 사용할 수 있으므로 포인트 제품 필요 없음

• 통합성 : 통합 분석 기능으로 빅 데이터 애플리케이션 및 파이프 라인 생성을 단순화

• 일관성 : 기능 전반에 걸쳐 표준화 된 사용자 경험으로 데이터를 더

빠르고 쉽게 분석 가능

(5)

CDP on Microsoft Azure Marketplace

• CDP의 SDX (Shared Data Experience)를 통해 엔터프라이즈 데이터 클라우드의 보안 보장

• 일관성 : 보안 및 거버넌스 정책이 한 번 설정되고 모든 데이터 및 워크로드에 적용됩니다.

• 이식성 : 지원되는 모든 인프라 간에 이동하더라도 정책 데이터 유지

• 셀프 서비스 : 사용자는 효율적으로 데이터를 찾고, 관리하고, 공유할 수 있으며 신뢰할 수 있는 데이터 및 분석에 액세스 할 수 있음

• CDP는 데이터웨어 하우스, 기계 학습 및 데이터 허브의 3가지 기본 서비스로 구성

• CDP 와 Azure 비용 단일 통합 청구 가능

• Azure 주요 서비스 컴포넌트와 긴밀한 통합

• Cloudera Data Platform은 ADLS (Azure Data Lake Storage) Gen2, AKS (Azure Kubernetes Service), Azure Active

Directory 및 기타 핵심 데이터 서비스와 같은 Azure 인프라 서비스

와 긴밀하게 통합

(6)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

6

CDP HOME

• 전체 플랫폼의 최신 통합 UI

• GUI, CLI 또는 API를 통한 액세스

• 인라인 도움말 및 지원

(7)

COMPONENTS

Traditional Platform Consumption:

Data Hub 클러스터

New analytic experiences:

Data Warehouse

Machine Learning

Data Engineering(TBD)

Data Flow(TBD)

Control Plane services:

Workload Manager

Replication Manager

Data Catalog

Management Console

CDP Public Cloud에서 제공하는 서비스 목록

(8)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

8

MANAGEMENT CONSOLE

• 1 시간내 전체 보안 기능 포함된 SDX 환경 구축

• 셀프 서비스 워크로드 클러스터 관리

• 사용자는 회사 SSO를 통해 안전한 프로비저닝

• 단일 화면에서 CDH / HDP 클러스터 관리

• CLI 액세스를 통한 운영 자동화

(9)

DATA HUB

• 사전 정의된 클러스터 구축

• 몇 분 내에 프로비저닝 / 확장 / 축소

• ‘항상 실행’ 보안 및 거버넌스

• 실패한 노드의 완벽한 복구

• 맞춤형 클라우드 인프라 및 클러스터 구성

(10)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

10

DATA WAREHOUSE

• 자동화된 용량 계획

• 프로비저닝 용이성

• 자동 스케일링

• 리소스 격리

• 높은 동시성

• 성능에 최적화 된 인프라

• 두 개의 DW 엔진 선택 : Hive 및 Impala

(11)

MACHINE LEARNING

• 기다림 없는 ML 팀 작업

• 관리 통제하에 데이터 액세스 셀프서비스

• 데이터 과학자들이 선호하는 오픈 도구

• 탄력적이고 자동 중단되는 리소스

• DE를 포함한 엔드 투 엔드 ML을 위한 포괄적이고 집중적인 UX

• 휴대성과 일관성

• 자동화된 용량 계획

(12)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

12

DATA CATALOG

• 최종 사용자를 위한 :

• 데이터 레이크 컨텐츠 검색, 큐레이션, 태그 지정

• 데이터 계보를 통해 신뢰 확보 : 비즈니스 용어집을 통한 컨텍스트

• 데이터 관리자의 위한 :

• 권한 부여 정책 (ABAC, RBAC, 파일, 테이블, 열, 행 등) 생성 및 관리

• 사용자가 액세스 한 데이터를 감사 및

식별

(13)

WORKLOAD MANAGER

• Data Hub, CDW, CDH clusters 지원

• Spark, Hive 및 Impala 워크로드 분석

(14)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

14

주요 용어 개념 및 관계

Environment

1 Template

1 Region

1 VPC

Multiple Roles/ Buckets

Data Lake

SDX: Atlas, Ranger, Knox, IdBroker, CM

Associated with groups/ users

Data Hub Cl usters / Exp

eriences

DH templates

ML Env

DW Database Catalogs/ Virtual Compute

1:1

1:N

ENVIRONMENTS

(15)

중요 개념 및 구성 요소

일반적인 사용자 작업 흐름

Enterprise IT CDP Control Plane

Management Console 1

Step 1

기업내 계정을 사용 하여 CDP

Management Console에 로그온

Enterprise Cloud Resources (IAM, Network, VMs, Buckets, etc.) Step 2

CDP Management C onsole에서 Environ ment와 Data Lake 생성

2

Environment Data Lake

Atlas Ranger

Knox IdBroker

FreeIPA CM HMS

Step 3

기존 워크로드 마이그레 이션을 위한 Data Hub 클러스터 생성

3

BI Team Cluster Node 1 ETL Team Cluster Node 2 Node 3 Node 1 Node 2 Node 3

4

Step 4

새로운 사용자 경험을 위한 Cloudera Experience 프로비저닝 – Cloudera Data WareHouse 서비스 또는 Cloudera Machine Learning 서비스

Data Warehouse Experience Machine Learning Experience

(16)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

16

ENVIRONMENT

환경 이란?

• CDP가 고객 환경에서 자원 할당 및 위치 정의

• Data Lake라는 장기 실행 영구 클러스터가 여기에 생성

(17)

DATA LAKE

데이터 레이크란?

• 여러 클러스터 / 익스피리언스 간에 공유되는 환경 내 공통 서비스 세트 (SDX)

• 보안

• 감사

• 거버넌스

• 데이터 탐색

(18)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

18

DATA HUB CLUSTERS AND EXPERIENCES

어떤 다양한 기능이 있나?

• Data Hub 클러스터는 기존 Hadoop

클러스터처럼 실행되지만 클라우드 스토리지를 활용하도록 설계된 사용자 정의 가능한 환경

• 익스피리언스는 특정 목적을 위한 컨테이너 기반 컴퓨팅 환경

• ML, DW, DE, OD, DF

(19)

CONTROL PLANE

컨트롤 플레인이란?

• Control Plane은 여러 환경에서 관리, 작업 부하 분석, 데이터 이동 및 데이터 탐색을 위한 공통 도구 세트

(20)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

20

Environment 상세

Azure 상에 고객사 VPC 환경 구축

(21)

데이터 허브 프로비저닝

원하는 클러스터를 사전 정의된 구성으로 설치

(22)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

22

오토 스케일 데이터 웨어하우스

T-shirts 단위로 자동 확장 단위 정의

(23)

머신러닝 워크스페이스 프로비저닝

오토스케일 범위 지정

(24)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

24

클라우데라 배포판 (Cloudera Runtime)

Key enhancements as compared to CDH 6

Ranger

Dynamic row filtering

Dynamic column masking

Attribute-based access control

SparkSQLfine-grained access control

Atlas 2.0

Advanced data discovery

Improved performance and scalability

Hive 3

Better fit for EDW Optimization use cas es (large joins, analytical style workload s)

Knox

Gateway-based SSO

Hive on Tez

Better ETL performance

Key enhancements as compared to HDP 3

Cloudera Manager

Virtual private clusters

Automated wire encryption setup

Fine-grained RBAC for administrators

Streamlined maintenance workflows

Atlas 2.0

Advanced data lineage

Faceted search

Impala

Better fit for Data Mart migration use c ases (interactive, BI style queries)

Hue

Built-in SQL editor

Kudu

Better performance for fast changing /

updateable data

(25)

컨버지드 배포판

CDH, HDP 중 베스트 기능과 컴포넌트로 구성

Initial CDP Public Cloud Release

Targeted for initial CDP-DC Release

Hadoop 3.1

Spark 2.4

Hive 3.1

Impala 3.2

Oozie 5.1

Hue 4.3

Ranger 2.1

Atlas 2.0

Tez 0.9

HBase 2.2

Sqoop 1.4.7

Livy 0.5

Parquet 1.10

Avro 1.8

ORC 1.5

Zookeeper 3.4

Zeppelin 0.8

Knox 1.3

Arrow 0.8

Kudu

Phoenix

Druid

Pig

Solr / Search

• Kafka 2.3

(26)

ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.

26

마지막으로

Data Lake Data Hub Data Warehouse CML

경제적 비용으로 저장/관리 하고,

가공 하여, 쿼리 하고(사용자 선택 CDP on VM)

쿼리 하고(클라우데라 선택 CDP on Container)

머신러닝을 수행하자(자유롭게)

(27)

감사합니다

참조

관련 문서

It is built as the automated fruit warehouse management system based on the wireless sensor network in the fruit warehouse through the RFID/USN can use

11 Mobile and Embedded Machine Learning Systems: Basics 12 Mobile and Embedded Machine Learning Systems:

 Discuss the machine learning background of auto-regressive model to obtain the

programming skills, outstanding research potential in machine learning (e.g, recurrent networks, reinforcement learning,.. evolution, statistical

사용자 경험 측정 사용자 경험 측정 (Measuring User Experience) (Measuring User Experience)6. Self-Recorded Metrics

사용자 경험 측정 사용자 경험 측정 (Measuring User Experience) (Measuring User Experience)6. Self-Recorded Metrics

기존의 형광등과 평균수명에서 차이가 나는지 검정하기 위해 각각의 형광등에서 표본을 30 개씩 추출하여 다음과 같은

 Study Goals, User Goals, Choosing Right