• 검색 결과가 없습니다.

빅데이터 시각화

N/A
N/A
Protected

Academic year: 2022

Share "빅데이터 시각화"

Copied!
55
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2016.09 조완섭

충북대학교 빅데이터센터

wscho@chungbuk.ac.k r

043-261-3258

빅데이터 시각화

(2)

조완섭(wscho@chungbuk.ac.kr)

2016-09-30 2

목차

개요

시각화 기술

시각시각화

분포시각화

관계 시각화

공간시각화

비교시각화

인포그래픽

시각화 도구

(3)

개요

시각화

데이터 시각화(Visualization)는 데이터 분석 결과를 직관 적으로 이해할 수 있도록 표현하는 기술

예: 지역별, 시간대별 일기예보 기상도, 지하철 노선도

자료가 의미하는 바를 직관적으로 이해하도록 지원함으로 써 즉각적인 상황 판단, 정보의 빠른 확산과 기억을 지원

빅데이터를 시각화하면 수많은 데이터들의 무질서 속에 숨겨진 패턴을 발견하여 현상 파악은 물론 정보의 확산과 미래 예측에 기여함

(4)

개요

최근 시각화 동향

빅데이터 분석과 시각화를 반복하면서 방대한 데이터가 의미하는 스트리가 만들어지게 되며, 분석과 시각화는 점 차 하나의 영역으로 통합되어 가는 추세

시각화의 영역확대

빅데이터 분석 결과를 직관적으로 보여주는 것을 넘어 데 이터의 수집, 정제, 분석, 공유하는 전 과정에서 시각화가 중요한 역할을 하는 추세임

시각화 관련 자료

https://www.youtube.com/watch?v=NVwB_of8ZYs

http://www.segye.com/content/html/2015/10/04/20151004000736.html (신문기사)

2016-09-30 4

(5)

시각화 기술

빅데이터 시각화 기술에는 시간 시각화, 분포 시각 화, 관계 시각화, 공간 시각화, 비교 시각화, 인포그 래픽 등이 있음

– 시간 시각화 기술

이산형 : 특정 시점의 값이나 특정 시간 구간의 값을 막대그래프, 누적 막대그래프, 점 그래프 등으로 표현 하는 방식

연속형 : 기온 변화 같이 연속적으로 변화하는 값을

시계열 그래프, 계단식 그래프, LOESS 곡선 추정 등으 로 표현하는 방식

(6)

시각화 기술

누적막대 그래프와 시계열 그래프

2016-09-30 6

(7)

시각화 기술 - 분포

분포 시각화 기술

전체분포 : 최대, 최소, 전체분포를 나타내는 그래프로 전 체의 관점에서 각 부분이 차지하는 정도를 파이 차트, 넛 차트, 누적 막대그래프, 인터랙티브 누적 막대그래프 등으로 시각화

시간에 따른 분포 : 최근 50년간 연령별 인구 분포와 같이 시간에 따라 어떤 변화가 있었는지 나타내는 기술로 누적 연속 그래프, 누적 영역 그래프, 인터랙티브 누적 영역 그 래프, 선 그래프 등

(8)

시각화 기술

2016-09-30 8

도넛차트

누적영역 그래프

(9)

시각화 기술 - 관계

관계 시각화

변수들 사이에 존재하는 관계를 찾는 기술로 상관관계, 분 포, 비교로 구분할 수 있으며, 상관관계는 스캐터플롯, 캐터플롯 행렬, 버블차트 등으로 표현할 수 있음

상관관계는 한 변수의 변화가 다른 변수의 변화에 어떠한 영향을 미치는지를 파악하여 한 변수의 값의 변화를 통해 다른 변수의 변화를 예측할 수 있도록 함 (상관관계는 스 캐트플롯, 버블차트 등으로 표현)

분포는 평균, 중앙값, 최빈값 등을 통해 데이터가 어떤 값 을 기준으로 분포하는가를 표현하는 것으로 스템플롯, 히 스토그램, 밀도함수 그래프 등으로 표현할 수 있음

비교는 분포를 여러개 배치하여 서로 비교할 수 있도록 하 는 시각화 기법으로 히스토그램 등이 사용됨

(10)

시각화 기술

미국 범죄 데이터 시각화

2016-09-30 10

> crime<-read.csv("http://datasets.flowingdata.com/crimeRatesByState2005.csv", sep=",", header=TRUE)

> plot(crime$murder, crime$burglary)

<그림> 스캐트플롯

(11)

시각화 기술

<그림> 스캐트플롯 행렬의 예

(12)

시각화 기술 - 비교

비교 시각화 기술

여러 변수의 데이터 값들을 비교하는 방법으로 히트맵, 체 르노프 페이스, 스타 차트, 평행 좌표 그래프 등이 사용됨

다차원 척도법 : 군집분석과 같이 개체들을 대상으로 변수 들을 측정한 후에 개체들 사이의 유사성과 비유사성을 측 정하여 시각화하는 방법

2016-09-30 12

(13)

시각화 기술

17 18 19시

7월 8월 9월

월별/시간대별 교통사고 발생현황

<그림 > 히트맵 –월별/시간대별 교통사고 발생 현황

(14)

시각화 기술

2016-09-30 14

> require(graphics)

> loc <- cmdscale(eurodist)

> x <- loc[,1]

> y <- loc[,2]

> plot(x, y, type="n", xlab="", main="cmdscale(eurodist)")

> text(x, y, rownames(loc), cex=0.8)

> abline(v=0, h=0)

<그림> 다차원 척도법 - 유럽도시간 거리

(15)

시각화 기술 – 공간(지도)

좌표값을 가진 데이터는 지도상에서 시각화하는 것이 직관적임

야후, 마이크로로소프트 등 글로벌 인터넷 업체들과 네이버나 카카오 등 국내 업체들에서 지도를 제공하고 있으며, 지도상에 서 다양한 정보를 시각화할 수 있도록 지원함

(16)

시각화 기술 - 인포그래픽

인포메이션과 그래픽의 합성어로 차트, 지도 다이어그램, 로 고, 일러스트레이션 등을 활용하여 다량의 정보를 한눈에 파 악할 수 있도록 하는 기술

시각적인 효과와 직관적인 이해를 위해 뛰어난 디자인 감각 이 있어야 하지만 더 중요한 것은 전달의 목적성을 살려 내는 것이며, 데이터 이면에 숨겨진 insight의 전달이 중요함

인포그래픽의 장점은 흥미유발, 정보습득 시간의 절감, 기억 지속시간 연장, 빠른 확산 등임

2016-09-30 16

(17)

시각화 기술 - 인포그래픽

인포그래픽의 종류

통계기반 인포그래픽 : 통계자료를 기반으로 그래프, 버블 차트 등을 직관적으로 표현하여 내용을 한눈에 파악할 수 있게 함

타임라인 기반 인포그래픽 : 시간 순서에 따라 발생한 데이 터를 인프로그래픽으로 직관적으로 표시하여 시간에 따른 변화를 한눈에 파악할 수 있게 함

프로세스 기반 인포그래픽 : 일의 흐름 또는 작동방법을 그 림으로 쉽게 파악할 수 있도록 함

위치기반 인포그래픽 : 지도를 이용하여 공간상에서 직관 적인 정보 습득이 가능하도록 함

(18)

시각화 기술 - 인포그래픽

통계기반 인포그래픽

2016-09-30 18

(출처: columnfivemedia.com)

(19)

시각화 기술 - 인포그래픽

타임라인 기반의 인포그래픽

(출처: awesome.good.is)

(20)

시각화 기술 - 인포그래픽

프로세스 기반의 인포그래픽

2016-09-30 20

(출처: www.facebook.com)

(21)

시각화 기술 - 인포그래픽

지도기반의 인포그래픽 사례

(출처: www.goodenergy.co.uk)

(22)

시각화 도구

상용 도구

2016-09-30 22

업체 제품명

SAS

SAS Visual Analytics

-인메모리 기반 시각화 도구 MicroStrategy MicroStrategy MSTR 9.3.1

Oracle Oracle Endeca Information Discovery

IBM

IBM Inforsphere Data Explorer Concert On Cloud

Project Neo

Tableau Tableau

팁코 팁코 스폿파이어

위세아이텍 WISE Visual

솔트룩스 레인보우, 아이비주얼(i-VISUAL)

(23)

시각화 도구

오픈소스

R Project Statistical analysis Yes With plugin

Linux, Mac OS X, Unix, Windows XP or later

4 Local No

Google Fusion Tables

Visualization

app/service Yes Yes Browser 1 External server Yes

Many Eyes Visualization

app/service Yes Limited Browser 1 Public external

server Yes

Tableau Public Visualization

app/service Yes Yes Windows, OS X 3 Public external

server Yes

VIDI Visualization

app/service Yes Yes Browser 1 External server Yes

Zoho Reports Visualization

app/service Yes No Browser 2 External server Yes

Exhibit Library Yes Yes Code editor and

browser 4 Local or external

server Yes

Google Chart Tools

Library and Visualization app/service

Yes Yes Code editor and

browser 2 Local or external

server Yes

JavaScript InfoVis

Toolkit Library Yes No Code editor and

browser 4 Local or external

server Yes

D3 Library Yes Yes Code editor and

browser 4 Local or external

server Yes

도구 영역

범위

다용도 시각화

지도

기능 플랫폼 기술

수준

데이터 저장방식/

처리방식

Web Designer 위한설계 ?

수많은 도구들이 있음

(24)

시각화 도구

시각화 프로그래밍

Python에서 Matplotlib를 사용하면 파이썬으로 2D 혹은 3D 그래프를 구현할 수 있으며, D3.js나 TopoJSON을 사 용하여 지도 등 다양한 시각화를 할 수도 있음

R, Java, PHP 등 다른 프로그래밍 언어도 시각화 라이브 러리를 사용하여 다양한 시각화를 수행할 수 있다. HTML, 자바 스크립트, CSS 등도 시각화를 지원하는 강력한 패키 지로 사용되고 있다.

특히, D3.js는 손쉽게 웹에서 시각화를 할 수 있는 가장 강 력한 도구이다(http://d3js.org). 이는 데이터 시각화를 위 한 자바스크립트 라이브러리로써 SVG와 CSS를 자바스크 립트와 함께 사용해 데이터를 표시해준다.

2016-09-30 24

(25)

시각화 도구

Tableau

평가판 다운로드 (15일간)

( http://www.tableau.com/ko-kr/products/desktop/download )

- 교육자료

http://www.tableau.com/learn/training

(26)

2015.02

조완섭충북대학교 경영정보학과

대학원 비즈니스데이터융합학과

wscho@chungbuk.ac.kr 043-261-3258

010-2487-3691

ETL & Data Integration

(27)

목차

개요

ETL Architecture

추출

정제

변형 및 통합

로딩

메타데이터

데이터품질

제품

(28)

개요

ETL (Extraction, Transformation, Loading & Data Integration)

다양한 데이터 소스로부터 분석에 필요한 데이터를 추출(Extract)하여 변환 (Transformation) 작업을 거쳐 Target System)에 로딩 (Loading)하는 과정

BI 시스템에서 방대한 운영 데이터를 얻기 위해서 운영시스템(OLTP)에 부담 을 주지 않으면서 분석용 데이터를 ETL 할 수 있어야 함

데이터 소스 시스템들이 서로 다른 운영 시스템, 데이터 베이스, 하드웨어 플 랫폼 및 네트워크 환경을 고려하면 ETL 과정은 복잡함

2016-09-30 Wan-Sup Cho 28

(29)

(출처) Talend 발표자료

(30)

개요

2016-09-30 Wan-Sup Cho 30

(출처) Talend 발표자료

(31)

ETL Architecture

ETL 시스템 구조

빅데이터

(출처) IK솔루션즈(주) ppt자료를 수정함

(32)

ETL Architecture

ETL 프로세스

2016-09-30 Wan-Sup Cho 32

(출처) IK솔루션즈(주) ppt자료를 수정함

(33)

ETL Architecture

ETL의 소스 시스템

Mainframe applications, ERP applications, CRM packages, flat files, Excel spreadsheets, message queue

최근 빅데이터까지 수용 : SNS, IoT, Audio, Video, Documents,…

추출 방법

JDBC, ODBC 기술활용, Program, flat file 생성, CDC(change data capture), Web Robot, …

다양한 도구가 보급 : 국산/외산, 상용/오픈소스

정제 및 통합

추출된 데이터는 정제 후 연계 통합(DW), Refresh 방안 수립

타겟 시스템

관계형 데이터베이스

Hadoop/NoSQL (빅데이터)

(34)

추출

2016-09-30 Wan-Sup Cho 34

(출처) IK솔루션즈(주) ppt자료를 수정함

(35)

정제

(출처) IK솔루션즈(주) ppt자료를 수정함

(36)

변형 및 통합

2016-09-30 Wan-Sup Cho 36

(출처) IK솔루션즈(주) ppt자료를 수정함

(37)

검증

(출처) IK솔루션즈(주) ppt자료를 수정함

(38)

로딩

2016-09-30 Wan-Sup Cho 38

(출처) IK솔루션즈(주) ppt자료를 수정함

(39)

메타 데이터

(출처) IK솔루션즈(주) ppt자료를 수정함

(40)

메타 데이터

2016-09-30 Wan-Sup Cho 40

(출처) IK솔루션즈(주) ppt자료를 수정함

(41)

메타 데이터

(출처) IK솔루션즈(주) ppt자료를 수정함

(42)

데이터 품질

2016-09-30 Wan-Sup Cho 42

(출처) IK솔루션즈(주) ppt자료를 수정함

(43)

데이터 품질

(출처) IK솔루션즈(주) ppt자료를 수정함

(44)

ETL History

최근 빅데이터 ETL 까지 발전함

2016-09-30 Wan-Sup Cho 44

Cobol 언어

Hub 병목현상

제 4세대

빅데이터 플랫폼

빅데이터를 추출하여 하둡,NoSQL 등

빅데이터플랫폼으로 이동시킴

(45)

ETL 도구

도구들의 분류

Major database vendors

IBM, Microsoft, Oracle Independent companies

Informatica – currently among market leaders Open source

Clover ETL

Talend

국산 패키지

DataStreams

(46)

IBM

Product name: InfoSphere DataStage

Main claims:

variety of data sources (almost any database, text, XML, web services)

capable of handling data arriving in real-time

scalability

Unix (Linux) and Windows Platforms

2016-09-30 Wan-Sup Cho 46

(47)

IBM

InfoSphere – product line that includes software from WebSphere and Information Server lines.

Includes lots of other things

application integration and transformation

online marketing tools

mobile, speech middleware

business process management

change data capture

information analyzer

data quality tools

(48)

IBM

InfoSphere Federation Server

Federated (virtual) integration: “Access and integrate diverse data and content sources as if they were a

single resource - regardless of where the information resides.”

Integration across different relational products (db2, Oracle, SQL server)

Integrity and accuracy guarantees

Distributed query optimizer

XML support

Security strategies

These are expensive products (>US$60K license)

2016-09-30 Wan-Sup Cho 48

(49)

IBM

IBM’s view of data integration

Key tasks, with associated products

Tasks:

Connect to information (products: information server; data pub-lisher)

Understand information (data architect, models for ...

(banking, insurance, retail, telecom))

Cleanse information (QualityStage: matching engine, cleaning rules etc)

Transform information (DataStage)

Deliver information (Federation Server, DataStage)

(50)

Microsoft

Integration Services – part of SQL Server (SSIS)

Supports multiple formats; converts everything into tabular format

Transformations:

join, union

sort

aggregate

lookup

convert

Has a data quality tool

Goes beyond traditional ETL: e.g., data and text mining tools

2016-09-30 Wan-Sup Cho 50

(51)

Informatica

Market leader – Informatica PowerCenter

Provides support for

migration

synchronization

warehousing

cross-enterprise integration

Works with multiple data formats

Provides support for metadata management

Real-time capabilities

(52)

Informatica

Main orientation: scalar value transformations

Functions: change data in a mapping

Operators: create transformation expressions

Syntax is SQL-based

Part of it is essentially a programming language in a Java-like syntax for manipulating values.

Roughly: looks at a portion of the source data, modifies it, and changes the target data

accordingly.

2016-09-30 Wan-Sup Cho 52

(53)

Informatica

DD_DELETE and DD_INSERT specify what to do with data items.

E.g., IIF(job=‘CEO’, DD_DELETE, DD_INSERT) says:

items with job being CEO are marked for deleting, others for insertion.

Operators:

Arithmetic

String

Comparisons

Logical

(almost) everything you can imagine

Many functions for dealing with dates in different

formats.

(54)

Informatica

Large number of functions

Aggregates: AVG, COUNT, MIN, MAX, MEDIAN, PERCENTILE, STDDEV, SUM, etc.

Character functions: CONCAT, LENGTH, TRIM, etc

Conversion functions (e.g., TO_CHAR for Date, TO_DECIMAL, TO_FLOAT, TO_DATE)

Date functions: ADD_TO_DATE, DATE_DIFF, DATE_COMPARE, etc

Numerical: the usual suspects.

Scientific: SIN, COS, TAN, etc

Search for a value in the source: LOOKUP

This was quick; full manual – almost 250 pages.

2016-09-30 Wan-Sup Cho 54

(55)

요약

Complex tools; very good at transforming data values, and at working with specific formats (MS Word, Excel, PDF, UN/EDIFACT, RosettaNet, etc) and for specific industries (finance, insurance,

health)

Much better these days at getting real-time data;

very good at bulk loading, supporting multiple formats

Not so good:

virtual integration

complex structural transformation

query answering

metadata management

참조

관련 문서

∙ Always turn off the power supply and unplug the power cord from the power outlet before installing or removing any computer component.. ∙ Keep this user guide

Patterns for extracting narrative information nouns within the text are defined by applying a Korean natural language process technique to story data

It aimed to help students access background information that can facilitate subsequent reading, provide specific information needed for successful

⚫ User-level tools cannot monitor kernel level performance issues.. Performance

 Manipulation of protein’s amino acid sequence to change its function or properties.

 management of the flow of information, products, and services across management of the flow of information, products, and services across a network of customers,

Keywords: information design, dynamic information, static information, wayfinding, sign, kinetic information,.. 전달해야만 했던 사인은 디지털 매체를

Using web page, user sends to web server information about database, web server creates query sentence for database connection. Using created query sentence,