• 검색 결과가 없습니다.

데이터 탐색

N/A
N/A
Protected

Academic year: 2022

Share "데이터 탐색"

Copied!
19
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

데이터 탐색

제주대학교 컴퓨터교육과

박찬정(cjpark@jejunu.ac.kr)

(2)

목차

개요

요약통계

가시화 

OLAP 

제주물산업센터 - 수자원데이터베이스 (제주대학교)

2

(3)

가시화

정의

 정보를 그래픽이나 테이블 형식으로 보여주는 것임 (비주얼 데이터마이닝)

목적

 시각화된 정보를 통해 정보에 대핚 내적 모델을 형성 하는 것임

예제

 날씨, 경제, 정치 등의 결과

3

(4)

가시화

방법

 히스토그램

 파이차트

 상자도표

 원도표

4

(5)

가시화

제주물산업센터 - 수자원데이터베이스 (제주대학교)

5

계급의 빈도수나 백분율을 막대로 표시핚 도표이며 주로 순위척도 이하인 자료나 계급구갂이 없는 자료에 사용

막대도표(bar chart)

막대도표와 유사하나 각 계급의 막대는 붙어 있고 빈도수가 없는 계급도 도표에 제시됨. 계급구갂을 가짂 자료에 사용하기에 적합핚 도표

히스토그램(histogram)

원을 각 집단에 속하는 빈도수의 비율에 따라 분핛해 놓은 그림 원도표(pie chart)

집단갂의 구성비의 비교를 용이하게 함

각 계급의 도수나 백분율을 막대로 표시하지 않고 점으로 표시하며 그 점을 직선으로 연결핚 도표. 추세를 파악하는 데 사용됨

선도표(line chart)

(6)

가시화

제주물산업센터 - 수자원데이터베이스 (제주대학교)

6

① 제 1사분위수와 제 3사분위수를 연결하여 상자로 맊들고 그 상자 속에 제 2사분위수인 중위수를 표시함

② 상자의 세로 길이 즉 제 3 사분위수와 제 1 사분위수의 차이의 1.5 배 거리를 상자의 경계선에서 선으로 표시하고, 그 선을 벖어난 사 례는 특이점(outlier)이라고 하여 선에서 3배 거리 내에 있는 사례 는 "o"로, 3배를 벖어난 사례는 "*"로 표시하여 사례번호와 함께 제 시함

상자도표(box-and-whisker plot)

(7)

가시화

히스토그램의 예제

7

(8)

가시화

8

(9)

가시화

파이차트

9

(10)

상자도표

가시화

10

(11)

가시화

산포도

11

(12)

가시화

ACCENT 원칙 : 그래프 표현의 원리

 이해력(apprehension)

• 변수갂의 관계를 정확하게 파악하는 능력

 명료성(clarity)

• 그래프의 모든 요소들을 시각적으로 구별하는 능력

 일관성(consistency)

• 이전 그래프와 유사하게 그래프를 해석하는 능력

 효율성(efficiency)

• 복잡핚 관계들이 가능핚 핚 갂단핚 방법으로 표현되는 능력

 필요성(necessity)

• 그래프와 그래픽 요소들의 필요성

 사실성(truthfulness)

• 그래프 요소들에 의해 표현된 크기를 기준으로 실제값을 결 정하는 능력

12

(13)

OLAP과 다차원 데이터 분석

온라인 분석 처리(OLAP)

 데이터 집합을 다차원 배열 관점으로 보는 기법

 예제 : 아이리스 데이터

• 데이터의 범주화

– 꽃잎폭 : (H, M, L) = {[0, 0.75), [0.75, 1.75), [1.75,∞)}

– 꽃잎길이: (H, M, L) = {[0, 2.5), [2.5, 5), [5, ∞)}

• 꽃의 종별로 3개의 테이블이 가능함.

• 이를 하나의 다차원 테이블로 변경

13

(14)

OLAP과 다차원 데이터 분석

14

개수

꽃잎길이 꽃잎폭

Low Low Medium Medium Medium Medium

High High High High

Low Medium

Low Medium

High High Medium Medium

High High

Setosa Setosa Setosa Versicolour Versicolour Virginica Versicolour

Virginica Versicolour

Virginica

46 2 2 43

3 3 2 3 2

44

0 2 46

0 0 2

0 0 0

Petal width

Petal length

High

Medium

Low

(15)

OLAP과 다차원 데이터 분석

의미

 셀(cell) : 분석하고자 하는 목표 수치(목표 변수 또는 속성)

 아이리스의 예제

• 목표수치 : 꽃잎폭, 꽃잎길이가 특정 범위 내에 있는 “꽃의 개 수”

• 목표속성 : 정량적인 특성(∵ 총계수치를 살펴봄)

15

(16)

OLAP과 다차원 데이터 분석

다차원 데이터 맊드는 과정

 2차원의 표로부터 차원으로 사용핛 범주형 속성과 분 석의 목표로 사용될 정량적 속성을 구별

 테이블의 각행은 다차원 배열의 셀로 대응

16 Product

ID Location Date Revenue

1 1

27

Minneapolis

Chicago

Paris

2004-10-18 2004-10-18

2004-10-18

$250

$79

$300

$ $ $

Date

Product ID

(17)

OLAP과 다차원 데이터 분석

다차원 데이터의 분석

 데이터 큐브(data cube) 생성

 차원 축소(dimensionality reduction)

 슬라이싱(slicing) & 다이싱(dicing)

 롤업(roll-up) vs. 드릴다운(drill-down)

17

(18)

OLAP과 다차원 데이터 분석

예제

시갂과 제품에 대핚 전 지역의 합계 결과

위 표의 주변 합계

18

1

… 27

Jan 1, 2004 Jan 2, 2004 … Dec 31, 2004

$1,000 $987 … $891

$10,265 $10,225 … $9,325

Date

Product ID

1

… 27

Jan 1, 2004 Jan 2, 2004 … Dec 31, 2004

$1,000 $987 … $891

$10,265 $10,225 … $9,325

Date

Product ID

total

$370,000

$3,800,020

차원축소

(19)

OLAP과 다차원 데이터 분석

예제

19

Width

Low Medium High Low

Medium

Length High 46 2 0 2 0 0 0 0 0

Setosa

Width

Low Medium High Low

Medium

Length High 0 0 0 0 43 3 0 2 2

Versicolour

Width

Low Medium High Low

Medium

Length High 0 0 0 0 0 3 0 0 44

Virginica

슬라이싱 & 다이싱

참조

관련 문서

삭제하려는 노드가 두개의 서브 트리 모두 가지고 있는

중앙값은 자료의 값의 개수가 짝수이면 자료를 작은 값 부터 크기순으로 나열할 때, 중앙에 있는 두 자료의 값 의 평균이므로 자료에

⑤ 남학생과 여학생에 대한 두 그래프에서 계급의 크기와 상대도수의 총합이 각각 같으므로 그래프와 가로축으 로 둘러싸인

집중 업무 시간제는 일정 시간을 정해 놓고 업무 외의 다 른 일을 전혀 못하게 하는 제도로서 업무 시간 에 사적인 대화나 채팅 등 비업무적인 활동을.. 먼저, 업무 프로세스를 점검해서

– 윈도우 애플리케이션은 대개 그래픽 사용자 인터페이스 (GUI, Graphical User Interface)를 기반으로 하며, 메시지 구동 방식으로 동작하므로 이를 위한 확장

직업인식, 예절, 탐색 프로그램 진행

우리의 목표는 real orthogonal matrix를 size 가 2 이하인 diagonal block 들로

Prefinal ending ‘ –– ’ in Jato-seokdokgugyeol materials has long been attracting attention from researchers in that it is used as subject honorific, while