• 검색 결과가 없습니다.

데이터마이닝의 정의

문서에서 지원시스템 (페이지 81-92)

6-3 지능정보시스템

 대량의 데이터로부터 새롭고 의미 있는 정보를 추출하여 의사결정에 활용하는 작업

 데이터베이스 조회도구인 일반 질의나 OLAP((Online Analytical Processing) 등은 미리 가설을 세우고 데이터를 통해 그 가설을 확인하는 과정을 취하지만 데이터마이닝의 경 우는 데이터에 숨겨진 정보를 찾아내는 데 사용

자연어 요구 SQL전환 데이터베이스 관리시스템

전송

최종사용자 에게 전송 요구에

대한 적절한 값 탐색

데이터간의 관계를 분석하고 패턴, 경향 및 예외적인 상태를 찾는 것목적

OLAP (온라인 분석 프로세스)

OLAP프로세스

OLAP Server

OLAP(Online Analytical Processing)

Pi P3 P1

P2

...

...

1분기 2분기

3분기 4분기

25

130

49

40

100 25

26 18

30

40 65

78 86

68

48

135 157

95 59

94 59 86 84

48 72

63 63

51 51

67 81

59

• 다차원의 데이터 모델을 근간으로 즉흥적이고 복잡한 데이터 분석을 위한 시스템

• 여러 질의 연산자가 통합된 형태로 데이터 분석을 지원하는 시스템

• 관계형 데이터베이스시스템: 테이블과 같은 2차원의 데이터 모델을 대상 OLAP: 3차원 이상의 다차원 데이터를 대상

• OLAP과 데이터마이닝

OLAP 데이터 마이닝

요약, 트랜드, 예측 숨겨진 패턴, 통찰에서 지식 발견

분석 예측과 통찰

뮤추얼 펀드 구매 고객의 수입분포는 어떠한가?

다음 6개월 동안 누가, 왜 뮤추얼 펀드를 구 매할 것인가?

OLAP (Online Analytical Processing)

OLAP(온라인 분석 처리):

관계형 데이터베이스를 제안한 E. F. Codd에 의해 제안됨

• 관계형 데이터베이스: 데이터를 테이블 형태로 나타냄

• OLAP: 데이터를 다차원 배열로 나타냄

데이터 탐색(Data Exploration)

다차원 배열 구성

다차원 배열의 값으로 사용될 타겟 속성을 선정함

다차원 배열의 축(인덱스) 값으로 사용될 속성들을 선정함

 속성의 수가 다차원 배열의 차원 결정함

데이터 탐색(Data Exploration)

예제 : 아이리스 데이터 집합

데이터 탐색(Data Exploration)

OLAP 연산

데이터 큐브(data cube): 적절한 부분집합에 대한 집계(합계, 평균 등) 슬라이싱(slicing): 하나 이상의 축을 중심으로 셀들을 선택

다이싱(dicing): 셀들의 (사각) 집합을 선택 롤-업(roll-up)/드릴-다운(drill-down)

• 일반적으로 속성은 계층적 구조(hierarchical structure)를 가짐

• 롤-업: 작은 단위(예: day)에서 큰 단위(예: month, year)로 집계 수행

• 드릴-다운: 큰 단위에서 작은 단위로 집계 수행

데이터 탐색(Data Exploration)

Slicing vs. Dicing

데이터 탐색(Data Exploration)

Roll-Up vs. Drill-Down

데이터 탐색(Data Exploration)

6-3 지능정보시스템

 장바구니 분석

– 시장에서 상품을 사 가지고 가는 주부의 장바구니에 들어 있는 상품들 간의 구매 연관관계를 파악하고자 하는 방법임

 즉 여러 사람의 장바구니에 A라는 상품과 B라는 상품이 들어 있었다면 A와 B 두 상 품은 함께 구매되는 경우가 많은 것이라고 판단하는 것임

– 장바구니분석에서는 상품들 간의 연관관계를 찾게 되므로 흔히 의사결정규칙의 형태로 결과를 얻게 됨

– 장바구니분석 분석에서 규칙을 추출하기 위해 사용되는 지표

 지지율(support): 전체 거래 중에서 상품 A와 상품 B를 포함하는 거래량이 어느 정도 인가를 파악하기 위한 지표

 정확도(confidence): 상품 A를 구매한 거래 중에서 상품 B가 포함된 거래의 정도를 측정하는 지표

 리프트(lift): 임의로 상품 B를 구매하는 경우에 비해, 상품 A와의 관계를 고려하여 구 매되는 경우의 비율을 측정하는 지표

문서에서 지원시스템 (페이지 81-92)

관련 문서