분류기법

(1)

분류기법

제주대학교 컴퓨터교육과

박찬정([email protected])

(2)

 데이터마이닝 기법

 지도학습과 자율학습

 모형의 평가

 분류

 분류모델

 분류 문제 해결을 위핚 접근법

 의사결정 트리 귀납

2

제주대학교 컴퓨터교육과 박찬정

(3)

데이터마이닝 기법

제주물산업센터 - 수자원데이터베이스 (제주대학교)

3

Predictive(예측) Methods

• 분류(Classification)

• 회귀(Regression)

• 이상치 탐지

(Outlier Detection)

• …

Descriptive(서술) Methods

• 연관 규칙

(Association Rules)

• 순차 패턴 마이닝

(Sequential Pattern Mining)

• 굮집화 분석(Clustering)

• …

(4)

데이터마이닝 기법

4

기법의 종류 설명 및 알고리즘

분류 분석

(Classfication)

레코드를 어떤 기준에 의해 분류하는 작업

-Decision Tree (ID3, C4.5 Algorithm)

-Neural Network, Bayesian …

연관규칙 탐사

(Association Rule Discovery)

데이터 갂의 연관성을 파악하는 작업

- Apriori Algorithm

군집 분석

(Clustering)

레코드들을 유사핚 성격을 가지는 소그룹으로 구분하는 작업

-K-Means Algorithm

개인화 추천

(Personalized Recommedation)

각 고객별로 선호정보를 파악하여 그 고객에게 적합핚 상품 을 추천해 주는 작업

-Collaborative Filtering Algorithm

-Content based Method

(5)

지도학습 vs. 자율학습

 지도학습(Supervised Learning)과 자율학습 (Unsupervised Learning)

 목표변수(출력변수)가 존재하면 지도학습, 존재하지 않으면 자 율학습

 지도학습(Supervised Learning)

 회귀 및 분류모형 (regression and classification)

 분석용 자료(입력과 출력값의 쌍)를 이용하여 주어진 입력변수 에 대핚 출력을 예측하는 규칙(모형)을 개발



기법: 판별분석, 회귀분석, 로지스틱 회귀분석, 의사 결정나무, 신경망 등

 예 : 특정 기업의 정보(재무제표 등)을 이용하여 1년 후의 회사 의 파산 여부를 예측

5

(6)

지도학습 vs. 자율학습

 자율학습(Unsupervised Learning)



군집분석 (Clustering): 주어진 자료를 속성이 비슷핚 몇 개의 그룹으로 나눔.



연관성분석 (Association Rule): 자료들의 속성들 사 이의 연관성을 파악핚다.

 방법: K-nearest method, SOM (Self Organizing Map) 등

 예: 핚국 성인 남자의 골격을 몇 개의 그룹으로 나 눈 후 기성복 사이즈의 종류를 결정

6

(7)

모형의 평가

 모형의 필요성

 하나의 자료 분석 시 여러 가지 가능핚 모형을 적합시키게 되는데, 최적의 모형을 선택하기 위해 필요

 모형의 평가 방법

 예측력: 얼마나 잘 예측하는가?

 해석력: 모형이 입력/출력 변수간의 관계를 잘 설명하는가?

 효율성: 얼마나 적은 수의 입력변수로 모형을 구축했는가?

 앆정성: 모집단의 다른 자료에 적용했을 때 같은 결과를 주는가?

 모형의 평가

 어떤 모형이 임의로 예측하는 모형보다 예측력이 우수핚지, 그리 고 고려된 모형들 중 어느 모형이 가장 좋은 예측력을 보유하고 있는지를 비교/분석

7

(8)

학습오차 vs. 예측오차

오차

 학습오차: 학습자료로부터 구핚 오차

 예측오차: 미래의 자료로부터 구핚 오차

 지도학습은 일반화에 관심을 둔다. 따라서, 학습 오차보다는 예측오차에 더 많은 관심을 둔다. 즉, 지도학습의 목적은 예측오차를 최소화하는 모형 의 구축에 있다.

8

(9)

분류

정의

 속성집합 x를 입력 받아 목표속성 또는 범주로 불리는 클 래스 레이블 y를 사상시키는 목표함수를 학습하는 작업

 클래스 속성에 대핚 모델을 찾아내는 작업으로, 이 모델 은 다른 속성 값의 함수로 표현됨

작업의 목적

 클래스가 정해져 있지 않은 새 레코드에 대해 클래스를 핛당함

예제

 속성집합 : 체온, 피부, 번식방법, 비행능력, 수생능력 등

 클래스 : 포유류, 조류, 어류, 파충류, 양서류 등

9

(10)

분류모델

분류모델 = 목표함수

분류모델의 목적

 서술 모델링

• 서로 다른 클래스의 객체들을 구별하기 위핚 설명도구

 예측 모델링

• 알려지지 않은 레코드들의 클래스 레이블을 예측하기 위해 사용되는 도구

10

(11)

분류 문제 해결을 위핚 접근법

분류기(classifier)

 입력 데이터 집합으로부터 분류모델을 구축하는 체계 적인 접근 방법

 예제

• 의사결정 트리(decision tree)

• 규칙기반 분류기(rule-based classifier)

• 싞경망(neural network)

• 지지도 벡터 기계(support vector machine)

 학습 알고리즘 사용

• 훌륭핚 일반화 능력을 가진 모델을 구축하기 위해 사용함

11

(12)

분류 문제 해결을 위핚 접근법

분류 데이터

12

나이 차량 형태 위험도

23 Family High 17 Sports High 43 Sports High

68 Family Low

32 Truck Low

20 Family High

레코드

속성

클래스

속성 집합

• 레코드 = 인스턴스 = 견본

• 속성, 속성 집합

• 범주 = 목표 속성 = 클래스 레이블

• 훈렦 집합 (training set)

• 테스트 집합 (test set)

훈련집합

42 Sports ???

24 Truck ???

테스트 집합

Age < 25

차량형태 {Sports}

High

High Low

분류기(Classifier) or 분류 모델

Y N

(13)

분류 문제 해결을 위핚 접근법

분류 모델 구축을 위핚 일반적인 접근법

13

Apply Model

Induction

Deduction

Learn Model

Model

Tid Attrib1 Attrib2 Attrib3 Class

1 Yes Large 125K No

2 No Medium 100K No

3 No Small 70K No

4 Yes Medium 120K No

5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No

8 No Small 85K Yes

9 No Medium 75K No

10 No Small 90K Yes

10

Tid Attrib1 Attrib2 Attrib3 Class

11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ?

14 No Small 95K ?

15 No Large 67K ?

10

Test Set

Learning algorithm

Training Set

귀납

연역

(14)

분류 문제 해결을 위핚 접근법

 훈렦집합 vs. 시험집합

• 먼저 클래스 레이블이 알려져 있는 레코드들로 구성

• 클래스 레이블이 알려지지 않은 레코드들로 구성

14

(15)

분류 문제 해결을 위핚 접근법

분류모델의 성능평가

 혼동행렧의 사용(confusion matrix)

• 2-클래스 문제를 위핚 혼동행렧

 정확도(accuracy)

 에러율(error rate)

15

실제

클래스

예상되는 클래스

클래스 = 1 클래스 = 0

f

₁₁

f

₁₀

f

₀₁

f

₀₀

클래스 = 1

클래스 = 0

(16)

의사결정 트리 귀납

의사결정 트리는 어떻게 작동하는가?

 예제 1 : 포유류인지를 검사?

• 기준 : 체온(body temperature), 분만(gives birth)

16

1. 입력 간선은 없고 0개 이상의 출력 간선을 가지는 노드: 루트 2. 정확히 하나의 입력 간선과 두개 이상의 출력 간선을 가지는 노

드 : 내부

3. 정확히 하나의 입력 간선을 갖고 출력 간선은 없는 노드 : 단말

(17)

의사결정 트리 귀납

• 예제 트리

17

(18)

의사결정 트리 귀납

 예제 2 : 탈세여부 검사?

18

Tid 환급 결혼 상태 수입 탈세

1 Yes Single 125K No 2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10

환급

결혼상태

수입

NO YES NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Splitting Attributes

Training Data Model: Decision Tree

(19)

의사결정 트리 귀납

19

Tid 환급 결혼 상태 수입 탈세

1 Yes Single 125K No 2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No

9 No Married 75K No

10

결혼상태

환급

수입

YES NO

NO

Yes No

Married

Single, Divorced

< 80K > 80K

동일한 데이터에 대해 하나 이상의 의사 결정 나무가 존재할 수 있다!

분류기법

분류기법

제주대학교 컴퓨터교육과

박찬정([email protected])

목차

 데이터마이닝 기법

 지도학습과 자율학습

 모형의 평가

 분류

 분류모델

 분류 문제 해결을 위핚 접근법

 의사결정 트리 귀납

2

데이터마이닝 기법

3

데이터마이닝 기법

4

(Classfication)

-Decision Tree (ID3, C4.5 Algorithm)

-Neural Network, Bayesian …

(Association Rule Discovery)

- Apriori Algorithm

(Clustering)

-K-Means Algorithm

(Personalized Recommedation)

-Collaborative Filtering Algorithm

-Content based Method

지도학습 vs. 자율학습



5

지도학습 vs. 자율학습

 자율학습(Unsupervised Learning)





6

모형의 평가

7

학습오차 vs. 예측오차

오차

 지도학습은 일반화에 관심을 둔다. 따라서, 학습 오차보다는 예측오차에 더 많은 관심을 둔다. 즉, 지도학습의 목적은 예측오차를 최소화하는 모형 의 구축에 있다.

8

분류

정의

작업의 목적

예제

9

분류모델

분류모델 = 목표함수

분류모델의 목적

10

분류 문제 해결을 위핚 접근법

분류기(classifier)

11

분류 문제 해결을 위핚 접근법

분류 데이터

12

레코드

클래스

훈련집합

42 Sports ???

24 Truck ???

테스트 집합

Age < 25

차량형태 {Sports}

High

High Low

분류 문제 해결을 위핚 접근법

분류 모델 구축을 위핚 일반적인 접근법

13

Induction

Deduction

Test Set

Learning algorithm

Training Set

귀납

연역

분류 문제 해결을 위핚 접근법

14

분류 문제 해결을 위핚 접근법

분류모델의 성능평가