2016.09 조완섭
충북대학교 빅데이터센터
wscho@chungbuk.ac.k r
043-261-3258
빅데이터 시각화
조완섭(wscho@chungbuk.ac.kr)
2016-09-30 2
목차
• 개요
• 시각화 기술
– 시각시각화
– 분포시각화
– 관계 시각화
– 공간시각화
– 비교시각화
– 인포그래픽
• 시각화 도구
개요
• 시각화
– 데이터 시각화(Visualization)는 데이터 분석 결과를 직관 적으로 이해할 수 있도록 표현하는 기술
• 예: 지역별, 시간대별 일기예보 기상도, 지하철 노선도 등
– 자료가 의미하는 바를 직관적으로 이해하도록 지원함으로 써 즉각적인 상황 판단, 정보의 빠른 확산과 기억을 지원
– 빅데이터를 시각화하면 수많은 데이터들의 무질서 속에 숨겨진 패턴을 발견하여 현상 파악은 물론 정보의 확산과 미래 예측에 기여함
개요
• 최근 시각화 동향
– 빅데이터 분석과 시각화를 반복하면서 방대한 데이터가 의미하는 스트리가 만들어지게 되며, 분석과 시각화는 점 차 하나의 영역으로 통합되어 가는 추세
• 시각화의 영역확대
– 빅데이터 분석 결과를 직관적으로 보여주는 것을 넘어 데 이터의 수집, 정제, 분석, 공유하는 전 과정에서 시각화가 중요한 역할을 하는 추세임
• 시각화 관련 자료
– https://www.youtube.com/watch?v=NVwB_of8ZYs
– http://www.segye.com/content/html/2015/10/04/20151004000736.html (신문기사)
2016-09-30 4
시각화 기술
• 빅데이터 시각화 기술에는 시간 시각화, 분포 시각 화, 관계 시각화, 공간 시각화, 비교 시각화, 인포그 래픽 등이 있음
– 시간 시각화 기술
• 이산형 : 특정 시점의 값이나 특정 시간 구간의 값을 막대그래프, 누적 막대그래프, 점 그래프 등으로 표현 하는 방식
• 연속형 : 기온 변화 같이 연속적으로 변화하는 값을
시계열 그래프, 계단식 그래프, LOESS 곡선 추정 등으 로 표현하는 방식
시각화 기술
• 누적막대 그래프와 시계열 그래프
2016-09-30 6
시각화 기술 - 분포
• 분포 시각화 기술
– 전체분포 : 최대, 최소, 전체분포를 나타내는 그래프로 전 체의 관점에서 각 부분이 차지하는 정도를 파이 차트, 도 넛 차트, 누적 막대그래프, 인터랙티브 누적 막대그래프 등으로 시각화
– 시간에 따른 분포 : 최근 50년간 연령별 인구 분포와 같이 시간에 따라 어떤 변화가 있었는지 나타내는 기술로 누적 연속 그래프, 누적 영역 그래프, 인터랙티브 누적 영역 그 래프, 선 그래프 등
시각화 기술
2016-09-30 8
도넛차트
누적영역 그래프
시각화 기술 - 관계
• 관계 시각화
– 변수들 사이에 존재하는 관계를 찾는 기술로 상관관계, 분 포, 비교로 구분할 수 있으며, 상관관계는 스캐터플롯, 스 캐터플롯 행렬, 버블차트 등으로 표현할 수 있음
– 상관관계는 한 변수의 변화가 다른 변수의 변화에 어떠한 영향을 미치는지를 파악하여 한 변수의 값의 변화를 통해 다른 변수의 변화를 예측할 수 있도록 함 (상관관계는 스 캐트플롯, 버블차트 등으로 표현)
– 분포는 평균, 중앙값, 최빈값 등을 통해 데이터가 어떤 값 을 기준으로 분포하는가를 표현하는 것으로 스템플롯, 히 스토그램, 밀도함수 그래프 등으로 표현할 수 있음
– 비교는 분포를 여러개 배치하여 서로 비교할 수 있도록 하 는 시각화 기법으로 히스토그램 등이 사용됨
시각화 기술
• 미국 범죄 데이터 시각화
2016-09-30 10
> crime<-read.csv("http://datasets.flowingdata.com/crimeRatesByState2005.csv", sep=",", header=TRUE)
> plot(crime$murder, crime$burglary)
<그림> 스캐트플롯
시각화 기술
<그림> 스캐트플롯 행렬의 예
시각화 기술 - 비교
• 비교 시각화 기술
– 여러 변수의 데이터 값들을 비교하는 방법으로 히트맵, 체 르노프 페이스, 스타 차트, 평행 좌표 그래프 등이 사용됨
– 다차원 척도법 : 군집분석과 같이 개체들을 대상으로 변수 들을 측정한 후에 개체들 사이의 유사성과 비유사성을 측 정하여 시각화하는 방법
2016-09-30 12
시각화 기술
17 18 19시
7월 8월 9월
월별/시간대별 교통사고 발생현황
<그림 > 히트맵 –월별/시간대별 교통사고 발생 현황
시각화 기술
2016-09-30 14
> require(graphics)
> loc <- cmdscale(eurodist)
> x <- loc[,1]
> y <- loc[,2]
> plot(x, y, type="n", xlab="", main="cmdscale(eurodist)")
> text(x, y, rownames(loc), cex=0.8)
> abline(v=0, h=0)
<그림> 다차원 척도법 - 유럽도시간 거리
시각화 기술 – 공간(지도)
• 좌표값을 가진 데이터는 지도상에서 시각화하는 것이 직관적임
• 야후, 마이크로로소프트 등 글로벌 인터넷 업체들과 네이버나 카카오 등 국내 업체들에서 지도를 제공하고 있으며, 지도상에 서 다양한 정보를 시각화할 수 있도록 지원함
시각화 기술 - 인포그래픽
• 인포메이션과 그래픽의 합성어로 차트, 지도 다이어그램, 로 고, 일러스트레이션 등을 활용하여 다량의 정보를 한눈에 파 악할 수 있도록 하는 기술
• 시각적인 효과와 직관적인 이해를 위해 뛰어난 디자인 감각 이 있어야 하지만 더 중요한 것은 전달의 목적성을 살려 내는 것이며, 데이터 이면에 숨겨진 insight의 전달이 중요함
• 인포그래픽의 장점은 흥미유발, 정보습득 시간의 절감, 기억 지속시간 연장, 빠른 확산 등임
2016-09-30 16
시각화 기술 - 인포그래픽
• 인포그래픽의 종류
– 통계기반 인포그래픽 : 통계자료를 기반으로 그래프, 버블 차트 등을 직관적으로 표현하여 내용을 한눈에 파악할 수 있게 함
– 타임라인 기반 인포그래픽 : 시간 순서에 따라 발생한 데이 터를 인프로그래픽으로 직관적으로 표시하여 시간에 따른 변화를 한눈에 파악할 수 있게 함
– 프로세스 기반 인포그래픽 : 일의 흐름 또는 작동방법을 그 림으로 쉽게 파악할 수 있도록 함
– 위치기반 인포그래픽 : 지도를 이용하여 공간상에서 직관 적인 정보 습득이 가능하도록 함
시각화 기술 - 인포그래픽
• 통계기반 인포그래픽
2016-09-30 18
(출처: columnfivemedia.com)
시각화 기술 - 인포그래픽
• 타임라인 기반의 인포그래픽
(출처: awesome.good.is)
시각화 기술 - 인포그래픽
• 프로세스 기반의 인포그래픽
2016-09-30 20
(출처: www.facebook.com)
시각화 기술 - 인포그래픽
• 지도기반의 인포그래픽 사례
(출처: www.goodenergy.co.uk)
시각화 도구
• 상용 도구
2016-09-30 22
업체 제품명
SAS
SAS Visual Analytics
-인메모리 기반 시각화 도구 MicroStrategy MicroStrategy MSTR 9.3.1
Oracle Oracle Endeca Information Discovery
IBM
IBM Inforsphere Data Explorer Concert On Cloud
Project Neo
Tableau Tableau
팁코 팁코 스폿파이어
위세아이텍 WISE Visual
솔트룩스 레인보우, 아이비주얼(i-VISUAL)
시각화 도구
• 오픈소스
R Project Statistical analysis Yes With plugin
Linux, Mac OS X, Unix, Windows XP or later
4 Local No
Google Fusion Tables
Visualization
app/service Yes Yes Browser 1 External server Yes
Many Eyes Visualization
app/service Yes Limited Browser 1 Public external
server Yes
Tableau Public Visualization
app/service Yes Yes Windows, OS X 3 Public external
server Yes
VIDI Visualization
app/service Yes Yes Browser 1 External server Yes
Zoho Reports Visualization
app/service Yes No Browser 2 External server Yes
Exhibit Library Yes Yes Code editor and
browser 4 Local or external
server Yes
Google Chart Tools
Library and Visualization app/service
Yes Yes Code editor and
browser 2 Local or external
server Yes
JavaScript InfoVis
Toolkit Library Yes No Code editor and
browser 4 Local or external
server Yes
D3 Library Yes Yes Code editor and
browser 4 Local or external
server Yes
도구 영역
범위
다용도 시각화
지도
기능 플랫폼 기술
수준
데이터 저장방식/
처리방식
Web Designer를 위한설계 ?
수많은 도구들이 있음
시각화 도구
• 시각화 프로그래밍
– Python에서 Matplotlib를 사용하면 파이썬으로 2D 혹은 3D 그래프를 구현할 수 있으며, D3.js나 TopoJSON을 사 용하여 지도 등 다양한 시각화를 할 수도 있음
– R, Java, PHP 등 다른 프로그래밍 언어도 시각화 라이브 러리를 사용하여 다양한 시각화를 수행할 수 있다. HTML, 자바 스크립트, CSS 등도 시각화를 지원하는 강력한 패키 지로 사용되고 있다.
– 특히, D3.js는 손쉽게 웹에서 시각화를 할 수 있는 가장 강 력한 도구이다(http://d3js.org). 이는 데이터 시각화를 위 한 자바스크립트 라이브러리로써 SVG와 CSS를 자바스크 립트와 함께 사용해 데이터를 표시해준다.
2016-09-30 24
시각화 도구
• Tableau
– 평가판 다운로드 (15일간)
( http://www.tableau.com/ko-kr/products/desktop/download )
- 교육자료
http://www.tableau.com/learn/training
2015.02
조완섭충북대학교 경영정보학과
대학원 비즈니스데이터융합학과
wscho@chungbuk.ac.kr 043-261-3258
010-2487-3691
ETL & Data Integration
목차
• 개요
• ETL Architecture
• 추출
• 정제
• 변형 및 통합
• 로딩
• 메타데이터
• 데이터품질
• 제품
개요
• ETL (Extraction, Transformation, Loading & Data Integration)
– 다양한 데이터 소스로부터 분석에 필요한 데이터를 추출(Extract)하여 변환 (Transformation) 작업을 거쳐 Target System)에 로딩 (Loading)하는 과정
– BI 시스템에서 방대한 운영 데이터를 얻기 위해서 운영시스템(OLTP)에 부담 을 주지 않으면서 분석용 데이터를 ETL 할 수 있어야 함
– 데이터 소스 시스템들이 서로 다른 운영 시스템, 데이터 베이스, 하드웨어 플 랫폼 및 네트워크 환경을 고려하면 ETL 과정은 복잡함
2016-09-30 Wan-Sup Cho 28
(출처) Talend 발표자료
개요
2016-09-30 Wan-Sup Cho 30
(출처) Talend 발표자료
ETL Architecture
• ETL 시스템 구조
빅데이터
(출처) IK솔루션즈(주) ppt자료를 수정함
ETL Architecture
• ETL 프로세스
2016-09-30 Wan-Sup Cho 32
(출처) IK솔루션즈(주) ppt자료를 수정함
ETL Architecture
• ETL의 소스 시스템
– Mainframe applications, ERP applications, CRM packages, flat files, Excel spreadsheets, message queue
– 최근 빅데이터까지 수용 : SNS, IoT, Audio, Video, Documents,…
• 추출 방법
– JDBC, ODBC 기술활용, Program, flat file 생성, CDC(change data capture), Web Robot, …
– 다양한 도구가 보급 : 국산/외산, 상용/오픈소스
• 정제 및 통합
– 추출된 데이터는 정제 후 연계 통합(DW), Refresh 방안 수립
• 타겟 시스템
– 관계형 데이터베이스
– Hadoop/NoSQL (빅데이터)
추출
2016-09-30 Wan-Sup Cho 34
(출처) IK솔루션즈(주) ppt자료를 수정함
정제
(출처) IK솔루션즈(주) ppt자료를 수정함
변형 및 통합
2016-09-30 Wan-Sup Cho 36
(출처) IK솔루션즈(주) ppt자료를 수정함
검증
(출처) IK솔루션즈(주) ppt자료를 수정함
로딩
2016-09-30 Wan-Sup Cho 38
(출처) IK솔루션즈(주) ppt자료를 수정함
메타 데이터
(출처) IK솔루션즈(주) ppt자료를 수정함
메타 데이터
2016-09-30 Wan-Sup Cho 40
(출처) IK솔루션즈(주) ppt자료를 수정함
메타 데이터
(출처) IK솔루션즈(주) ppt자료를 수정함
데이터 품질
2016-09-30 Wan-Sup Cho 42
(출처) IK솔루션즈(주) ppt자료를 수정함
데이터 품질
(출처) IK솔루션즈(주) ppt자료를 수정함
ETL History
• 최근 빅데이터 ETL 까지 발전함
2016-09-30 Wan-Sup Cho 44
Cobol 언어
Hub 병목현상
제 4세대
빅데이터 플랫폼
빅데이터를 추출하여 하둡,NoSQL 등
빅데이터플랫폼으로 이동시킴
ETL 도구
• 도구들의 분류
– Major database vendors
• IBM, Microsoft, Oracle – Independent companies
• Informatica – currently among market leaders – Open source
• Clover ETL
• Talend
– 국산 패키지
• DataStreams
IBM
• Product name: InfoSphere DataStage
• Main claims:
– variety of data sources (almost any database, text, XML, web services)
– capable of handling data arriving in real-time
– scalability
• Unix (Linux) and Windows Platforms
2016-09-30 Wan-Sup Cho 46
IBM
• InfoSphere – product line that includes software from WebSphere and Information Server lines.
• Includes lots of other things
– application integration and transformation
– online marketing tools
– mobile, speech middleware
– business process management
– change data capture
– information analyzer
– data quality tools
IBM
• InfoSphere Federation Server
– Federated (virtual) integration: “Access and integrate diverse data and content sources as if they were a
single resource - regardless of where the information resides.”
– Integration across different relational products (db2, Oracle, SQL server)
– Integrity and accuracy guarantees
– Distributed query optimizer
– XML support
– Security strategies
– These are expensive products (>US$60K license)
2016-09-30 Wan-Sup Cho 48
IBM
• IBM’s view of data integration
– Key tasks, with associated products
– Tasks:
• Connect to information (products: information server; data pub-lisher)
• Understand information (data architect, models for ...
(banking, insurance, retail, telecom))
• Cleanse information (QualityStage: matching engine, cleaning rules etc)
• Transform information (DataStage)
• Deliver information (Federation Server, DataStage)
Microsoft
• Integration Services – part of SQL Server (SSIS)
– Supports multiple formats; converts everything into tabular format
– Transformations:
• join, union
• sort
• aggregate
• lookup
• convert
– Has a data quality tool
– Goes beyond traditional ETL: e.g., data and text mining tools
2016-09-30 Wan-Sup Cho 50
Informatica
• Market leader – Informatica PowerCenter
• Provides support for
– migration
– synchronization
– warehousing
– cross-enterprise integration
• Works with multiple data formats
• Provides support for metadata management
• Real-time capabilities
Informatica
• Main orientation: scalar value transformations
• Functions: change data in a mapping
• Operators: create transformation expressions
• Syntax is SQL-based
• Part of it is essentially a programming language in a Java-like syntax for manipulating values.
• Roughly: looks at a portion of the source data, modifies it, and changes the target data
accordingly.
2016-09-30 Wan-Sup Cho 52
Informatica
•
DD_DELETE and DD_INSERT specify what to do with data items.
•
E.g., IIF(job=‘CEO’, DD_DELETE, DD_INSERT) says:
items with job being CEO are marked for deleting, others for insertion.
•
Operators:
– Arithmetic
– String
– Comparisons
– Logical
– (almost) everything you can imagine
•
Many functions for dealing with dates in different
formats.
Informatica
•
Large number of functions
•
Aggregates: AVG, COUNT, MIN, MAX, MEDIAN, PERCENTILE, STDDEV, SUM, etc.
•
Character functions: CONCAT, LENGTH, TRIM, etc
•
Conversion functions (e.g., TO_CHAR for Date, TO_DECIMAL, TO_FLOAT, TO_DATE)
•
Date functions: ADD_TO_DATE, DATE_DIFF, DATE_COMPARE, etc
•
Numerical: the usual suspects.
•
Scientific: SIN, COS, TAN, etc
•
Search for a value in the source: LOOKUP
•
This was quick; full manual – almost 250 pages.
2016-09-30 Wan-Sup Cho 54
요약
•
Complex tools; very good at transforming data values, and at working with specific formats (MS Word, Excel, PDF, UN/EDIFACT, RosettaNet, etc) and for specific industries (finance, insurance,
health)
•
Much better these days at getting real-time data;
very good at bulk loading, supporting multiple formats
•
Not so good:
– virtual integration
– complex structural transformation
– query answering
– metadata management