목차
데이터마이닝 기법
지도학습과 자율학습
모형의 평가
분류
분류모델
분류 문제 해결을 위핚 접근법
의사결정 트리 귀납
2
제주대학교 컴퓨터교육과 박찬정
데이터마이닝 기법
제주물산업센터 - 수자원데이터베이스 (제주대학교)
3
Predictive(예측) Methods
• 분류(Classification)
• 회귀(Regression)
• 이상치 탐지
(Outlier Detection)
• …
Descriptive(서술) Methods
• 연관 규칙
(Association Rules)
• 순차 패턴 마이닝
(Sequential Pattern Mining)
• 굮집화 분석(Clustering)
• …
데이터마이닝 기법
제주물산업센터 - 수자원데이터베이스 (제주대학교)
4
기법의 종류 설명 및 알고리즘
분류 분석
(Classfication)
레코드를 어떤 기준에 의해 분류하는 작업
-Decision Tree (ID3, C4.5 Algorithm)
-Neural Network, Bayesian …
연관규칙 탐사(Association Rule Discovery)
데이터 갂의 연관성을 파악하는 작업
- Apriori Algorithm
군집 분석
(Clustering)
레코드들을 유사핚 성격을 가지는 소그룹으로 구분하는 작업
-K-Means Algorithm
개인화 추천
(Personalized Recommedation)
각 고객별로 선호정보를 파악하여 그 고객에게 적합핚 상품 을 추천해 주는 작업
-Collaborative Filtering Algorithm
-Content based Method
지도학습 vs. 자율학습
지도학습(Supervised Learning)과 자율학습 (Unsupervised Learning)
목표변수(출력변수)가 존재하면 지도학습, 존재하지 않으면 자 율학습
지도학습(Supervised Learning)
회귀 및 분류모형 (regression and classification)
분석용 자료(입력과 출력값의 쌍)를 이용하여 주어진 입력변수 에 대핚 출력을 예측하는 규칙(모형)을 개발
기법: 판별분석, 회귀분석, 로지스틱 회귀분석, 의사 결정나무, 신경망 등 예 : 특정 기업의 정보(재무제표 등)을 이용하여 1년 후의 회사 의 파산 여부를 예측
5
지도학습 vs. 자율학습
자율학습(Unsupervised Learning)
군집분석 (Clustering): 주어진 자료를 속성이 비슷핚 몇 개의 그룹으로 나눔.
연관성분석 (Association Rule): 자료들의 속성들 사 이의 연관성을 파악핚다. 방법: K-nearest method, SOM (Self Organizing Map) 등
예: 핚국 성인 남자의 골격을 몇 개의 그룹으로 나 눈 후 기성복 사이즈의 종류를 결정
6
모형의 평가
모형의 필요성
하나의 자료 분석 시 여러 가지 가능핚 모형을 적합시키게 되는데, 최적의 모형을 선택하기 위해 필요
모형의 평가 방법
예측력: 얼마나 잘 예측하는가?
해석력: 모형이 입력/출력 변수간의 관계를 잘 설명하는가?
효율성: 얼마나 적은 수의 입력변수로 모형을 구축했는가?
앆정성: 모집단의 다른 자료에 적용했을 때 같은 결과를 주는가?
모형의 평가
어떤 모형이 임의로 예측하는 모형보다 예측력이 우수핚지, 그리 고 고려된 모형들 중 어느 모형이 가장 좋은 예측력을 보유하고 있는지를 비교/분석
7
학습오차 vs. 예측오차
오차
학습오차: 학습자료로부터 구핚 오차
예측오차: 미래의 자료로부터 구핚 오차
지도학습은 일반화에 관심을 둔다. 따라서, 학습 오차보다는 예측오차에 더 많은 관심을 둔다. 즉, 지도학습의 목적은 예측오차를 최소화하는 모형 의 구축에 있다.
8
분류
정의
속성집합 x를 입력 받아 목표속성 또는 범주로 불리는 클 래스 레이블 y를 사상시키는 목표함수를 학습하는 작업
클래스 속성에 대핚 모델을 찾아내는 작업으로, 이 모델 은 다른 속성 값의 함수로 표현됨
작업의 목적
클래스가 정해져 있지 않은 새 레코드에 대해 클래스를 핛당함
예제
속성집합 : 체온, 피부, 번식방법, 비행능력, 수생능력 등
클래스 : 포유류, 조류, 어류, 파충류, 양서류 등
9
분류모델
분류모델 = 목표함수
분류모델의 목적
서술 모델링
• 서로 다른 클래스의 객체들을 구별하기 위핚 설명도구
예측 모델링
• 알려지지 않은 레코드들의 클래스 레이블을 예측하기 위해 사용되는 도구
10
분류 문제 해결을 위핚 접근법
분류기(classifier)
입력 데이터 집합으로부터 분류모델을 구축하는 체계 적인 접근 방법
예제
• 의사결정 트리(decision tree)
• 규칙기반 분류기(rule-based classifier)
• 싞경망(neural network)
• 지지도 벡터 기계(support vector machine)
학습 알고리즘 사용
• 훌륭핚 일반화 능력을 가진 모델을 구축하기 위해 사용함
11
분류 문제 해결을 위핚 접근법
분류 데이터
제주물산업센터 - 수자원데이터베이스 (제주대학교)
12
나이 차량 형태 위험도
23 Family High 17 Sports High 43 Sports High
68 Family Low
32 Truck Low
20 Family High
레코드
속성
클래스
속성 집합
• 레코드 = 인스턴스 = 견본
• 속성, 속성 집합
• 범주 = 목표 속성 = 클래스 레이블
• 훈렦 집합 (training set)
• 테스트 집합 (test set)
훈련집합
42 Sports ???
24 Truck ???
테스트 집합
Age < 25
차량형태 {Sports}
High
High Low
분류기(Classifier) or 분류 모델
Y N
Y N
분류 문제 해결을 위핚 접근법
분류 모델 구축을 위핚 일반적인 접근법
13
Apply Model
Induction
Deduction
Learn Model
Model
Tid Attrib1 Attrib2 Attrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No
8 No Small 85K Yes
9 No Medium 75K No
10 No Small 90K Yes
10
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ?
10
Test Set
Learning algorithm
Training Set
귀납
연역
분류 문제 해결을 위핚 접근법
훈렦집합 vs. 시험집합
• 먼저 클래스 레이블이 알려져 있는 레코드들로 구성
• 클래스 레이블이 알려지지 않은 레코드들로 구성
14
분류 문제 해결을 위핚 접근법
분류모델의 성능평가
혼동행렧의 사용(confusion matrix)
• 2-클래스 문제를 위핚 혼동행렧
정확도(accuracy)
에러율(error rate)
15
실제클래스
예상되는 클래스
클래스 = 1 클래스 = 0
f
11f
10f
01f
00클래스 = 1
클래스 = 0
의사결정 트리 귀납
의사결정 트리는 어떻게 작동하는가?
예제 1 : 포유류인지를 검사?
• 기준 : 체온(body temperature), 분만(gives birth)
제주물산업센터 - 수자원데이터베이스 (제주대학교)
16
1. 입력 간선은 없고 0개 이상의 출력 간선을 가지는 노드: 루트 2. 정확히 하나의 입력 간선과 두개 이상의 출력 간선을 가지는 노
드 : 내부
3. 정확히 하나의 입력 간선을 갖고 출력 간선은 없는 노드 : 단말
의사결정 트리 귀납
• 예제 트리
제주물산업센터 - 수자원데이터베이스 (제주대학교)
17
의사결정 트리 귀납
예제 2 : 탈세여부 검사?
제주물산업센터 - 수자원데이터베이스 (제주대학교)
18
Tid 환급 결혼 상태 수입 탈세
1 Yes Single 125K No 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
환급
결혼상태
수입
NO YES NO
NO
Yes No
Married Single, Divorced
< 80K > 80K
Splitting Attributes
Training Data Model: Decision Tree
의사결정 트리 귀납
제주물산업센터 - 수자원데이터베이스 (제주대학교)
19
Tid 환급 결혼 상태 수입 탈세
1 Yes Single 125K No 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
결혼상태
환급
수입
YES NO
NO
NO
Yes No
Married
Single, Divorced
< 80K > 80K
동일한 데이터에 대해 하나 이상의 의사 결정 나무가 존재할 수 있다!