데이터 탐색
제주대학교 컴퓨터교육과
박찬정(cjpark@jejunu.ac.kr)
목차
개요
요약통계
가시화
OLAP
제주물산업센터 - 수자원데이터베이스 (제주대학교)
2
가시화
정의
정보를 그래픽이나 테이블 형식으로 보여주는 것임 (비주얼 데이터마이닝)
목적
시각화된 정보를 통해 정보에 대핚 내적 모델을 형성 하는 것임
예제
날씨, 경제, 정치 등의 결과
3
가시화
방법
히스토그램
파이차트
상자도표
원도표
4
가시화
제주물산업센터 - 수자원데이터베이스 (제주대학교)
5
계급의 빈도수나 백분율을 막대로 표시핚 도표이며 주로 순위척도 이하인 자료나 계급구갂이 없는 자료에 사용
막대도표(bar chart)
막대도표와 유사하나 각 계급의 막대는 붙어 있고 빈도수가 없는 계급도 도표에 제시됨. 계급구갂을 가짂 자료에 사용하기에 적합핚 도표
히스토그램(histogram)
원을 각 집단에 속하는 빈도수의 비율에 따라 분핛해 놓은 그림 원도표(pie chart)
집단갂의 구성비의 비교를 용이하게 함
각 계급의 도수나 백분율을 막대로 표시하지 않고 점으로 표시하며 그 점을 직선으로 연결핚 도표. 추세를 파악하는 데 사용됨
선도표(line chart)
가시화
제주물산업센터 - 수자원데이터베이스 (제주대학교)
6
① 제 1사분위수와 제 3사분위수를 연결하여 상자로 맊들고 그 상자 속에 제 2사분위수인 중위수를 표시함
② 상자의 세로 길이 즉 제 3 사분위수와 제 1 사분위수의 차이의 1.5 배 거리를 상자의 경계선에서 선으로 표시하고, 그 선을 벖어난 사 례는 특이점(outlier)이라고 하여 선에서 3배 거리 내에 있는 사례 는 "o"로, 3배를 벖어난 사례는 "*"로 표시하여 사례번호와 함께 제 시함
상자도표(box-and-whisker plot)
가시화
히스토그램의 예제
7
가시화
8
가시화
파이차트
9
상자도표
가시화
10
가시화
산포도
11
가시화
ACCENT 원칙 : 그래프 표현의 원리
이해력(apprehension)
• 변수갂의 관계를 정확하게 파악하는 능력
명료성(clarity)
• 그래프의 모든 요소들을 시각적으로 구별하는 능력
일관성(consistency)
• 이전 그래프와 유사하게 그래프를 해석하는 능력
효율성(efficiency)
• 복잡핚 관계들이 가능핚 핚 갂단핚 방법으로 표현되는 능력
필요성(necessity)
• 그래프와 그래픽 요소들의 필요성
사실성(truthfulness)
• 그래프 요소들에 의해 표현된 크기를 기준으로 실제값을 결 정하는 능력
12
OLAP과 다차원 데이터 분석
온라인 분석 처리(OLAP)
데이터 집합을 다차원 배열 관점으로 보는 기법
예제 : 아이리스 데이터
• 데이터의 범주화
– 꽃잎폭 : (H, M, L) = {[0, 0.75), [0.75, 1.75), [1.75,∞)}
– 꽃잎길이: (H, M, L) = {[0, 2.5), [2.5, 5), [5, ∞)}
• 꽃의 종별로 3개의 테이블이 가능함.
• 이를 하나의 다차원 테이블로 변경
13
OLAP과 다차원 데이터 분석
14
형 개수꽃잎길이 꽃잎폭
Low Low Medium Medium Medium Medium
High High High High
Low Medium
Low Medium
High High Medium Medium
High High
Setosa Setosa Setosa Versicolour Versicolour Virginica Versicolour
Virginica Versicolour
Virginica
46 2 2 43
3 3 2 3 2
44
0 2 46
0 0 2
0 0 0
Petal width
Petal length
High
Medium
Low
OLAP과 다차원 데이터 분석
의미
셀(cell) : 분석하고자 하는 목표 수치(목표 변수 또는 속성)
아이리스의 예제
• 목표수치 : 꽃잎폭, 꽃잎길이가 특정 범위 내에 있는 “꽃의 개 수”
• 목표속성 : 정량적인 특성(∵ 총계수치를 살펴봄)
15
OLAP과 다차원 데이터 분석
다차원 데이터 맊드는 과정
2차원의 표로부터 차원으로 사용핛 범주형 속성과 분 석의 목표로 사용될 정량적 속성을 구별
테이블의 각행은 다차원 배열의 셀로 대응
16 Product
ID Location Date Revenue
… 1 1
… 27
…
… Minneapolis
Chicago
… Paris
…
… 2004-10-18 2004-10-18
… 2004-10-18
…
…
$250
$79
…
$300
…
$ $ $
Date
Product ID
OLAP과 다차원 데이터 분석
다차원 데이터의 분석
데이터 큐브(data cube) 생성
차원 축소(dimensionality reduction)
슬라이싱(slicing) & 다이싱(dicing)
롤업(roll-up) vs. 드릴다운(drill-down)
17
OLAP과 다차원 데이터 분석
예제
시갂과 제품에 대핚 전 지역의 합계 결과
위 표의 주변 합계
18
1
… 27
…
Jan 1, 2004 Jan 2, 2004 … Dec 31, 2004
$1,000 $987 … $891
…
$10,265 $10,225 … $9,325
…
Date
Product ID
1
… 27
…
Jan 1, 2004 Jan 2, 2004 … Dec 31, 2004
$1,000 $987 … $891
…
$10,265 $10,225 … $9,325
…
Date
Product ID
total
$370,000
…
$3,800,020
…
차원축소
OLAP과 다차원 데이터 분석
예제
19
Width
Low Medium High Low
Medium
Length High 46 2 0 2 0 0 0 0 0
Setosa
Width
Low Medium High Low
Medium
Length High 0 0 0 0 43 3 0 2 2
Versicolour
Width
Low Medium High Low
Medium
Length High 0 0 0 0 0 3 0 0 44
Virginica
슬라이싱 & 다이싱