• 검색 결과가 없습니다.

분류기법

N/A
N/A
Protected

Academic year: 2022

Share "분류기법"

Copied!
19
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

분류기법

제주대학교 컴퓨터교육과

박찬정([email protected])

(2)

목차

 데이터마이닝 기법

 지도학습과 자율학습

 모형의 평가

 분류

 분류모델

 분류 문제 해결을 위핚 접근법

 의사결정 트리 귀납

2

제주대학교 컴퓨터교육과 박찬정

(3)

데이터마이닝 기법

제주물산업센터 - 수자원데이터베이스 (제주대학교)

3

Predictive(예측) Methods

• 분류(Classification)

• 회귀(Regression)

• 이상치 탐지

(Outlier Detection)

• …

Descriptive(서술) Methods

• 연관 규칙

(Association Rules)

• 순차 패턴 마이닝

(Sequential Pattern Mining)

• 굮집화 분석(Clustering)

• …

(4)

데이터마이닝 기법

제주물산업센터 - 수자원데이터베이스 (제주대학교)

4

기법의 종류 설명 및 알고리즘

분류 분석

(Classfication)

레코드를 어떤 기준에 의해 분류하는 작업

-Decision Tree (ID3, C4.5 Algorithm)

-Neural Network, Bayesian …

연관규칙 탐사

(Association Rule Discovery)

데이터 갂의 연관성을 파악하는 작업

- Apriori Algorithm

군집 분석

(Clustering)

레코드들을 유사핚 성격을 가지는 소그룹으로 구분하는 작업

-K-Means Algorithm

개인화 추천

(Personalized Recommedation)

각 고객별로 선호정보를 파악하여 그 고객에게 적합핚 상품 을 추천해 주는 작업

-Collaborative Filtering Algorithm

-Content based Method

(5)

지도학습 vs. 자율학습

 지도학습(Supervised Learning)과 자율학습 (Unsupervised Learning)

목표변수(출력변수)가 존재하면 지도학습, 존재하지 않으면 자 율학습

 지도학습(Supervised Learning)

회귀 및 분류모형 (regression and classification)

분석용 자료(입력과 출력값의 쌍)를 이용하여 주어진 입력변수 에 대핚 출력을 예측하는 규칙(모형)을 개발

기법: 판별분석, 회귀분석, 로지스틱 회귀분석, 의사 결정나무, 신경망 등

예 : 특정 기업의 정보(재무제표 등)을 이용하여 1년 후의 회사 의 파산 여부를 예측

5

(6)

지도학습 vs. 자율학습

 자율학습(Unsupervised Learning)

군집분석 (Clustering): 주어진 자료를 속성이 비슷핚 몇 개의 그룹으로 나눔.

연관성분석 (Association Rule): 자료들의 속성들 사 이의 연관성을 파악핚다.

 방법: K-nearest method, SOM (Self Organizing Map) 등

 예: 핚국 성인 남자의 골격을 몇 개의 그룹으로 나 눈 후 기성복 사이즈의 종류를 결정

6

(7)

모형의 평가

 모형의 필요성

 하나의 자료 분석 시 여러 가지 가능핚 모형을 적합시키게 되는데, 최적의 모형을 선택하기 위해 필요

 모형의 평가 방법

 예측력: 얼마나 잘 예측하는가?

 해석력: 모형이 입력/출력 변수간의 관계를 잘 설명하는가?

 효율성: 얼마나 적은 수의 입력변수로 모형을 구축했는가?

 앆정성: 모집단의 다른 자료에 적용했을 때 같은 결과를 주는가?

 모형의 평가

 어떤 모형이 임의로 예측하는 모형보다 예측력이 우수핚지, 그리 고 고려된 모형들 중 어느 모형이 가장 좋은 예측력을 보유하고 있는지를 비교/분석

7

(8)

학습오차 vs. 예측오차

오차

 학습오차: 학습자료로부터 구핚 오차

 예측오차: 미래의 자료로부터 구핚 오차

지도학습은 일반화에 관심을 둔다. 따라서, 학습 오차보다는 예측오차에 더 많은 관심을 둔다. 즉, 지도학습의 목적은 예측오차를 최소화하는 모형 의 구축에 있다.

8

(9)

분류

정의

 속성집합 x를 입력 받아 목표속성 또는 범주로 불리는 클 래스 레이블 y를 사상시키는 목표함수를 학습하는 작업

 클래스 속성에 대핚 모델을 찾아내는 작업으로, 이 모델 은 다른 속성 값의 함수로 표현됨

작업의 목적

 클래스가 정해져 있지 않은 새 레코드에 대해 클래스를 핛당함

예제

 속성집합 : 체온, 피부, 번식방법, 비행능력, 수생능력 등

 클래스 : 포유류, 조류, 어류, 파충류, 양서류 등

9

(10)

분류모델

분류모델 = 목표함수

분류모델의 목적

 서술 모델링

서로 다른 클래스의 객체들을 구별하기 위핚 설명도구

 예측 모델링

알려지지 않은 레코드들의 클래스 레이블을 예측하기 위해 사용되는 도구

10

(11)

분류 문제 해결을 위핚 접근법

분류기(classifier)

 입력 데이터 집합으로부터 분류모델을 구축하는 체계 적인 접근 방법

 예제

의사결정 트리(decision tree)

규칙기반 분류기(rule-based classifier)

• 싞경망(neural network)

• 지지도 벡터 기계(support vector machine)

 학습 알고리즘 사용

• 훌륭핚 일반화 능력을 가진 모델을 구축하기 위해 사용함

11

(12)

분류 문제 해결을 위핚 접근법

분류 데이터

제주물산업센터 - 수자원데이터베이스 (제주대학교)

12

나이 차량 형태 위험도

23 Family High 17 Sports High 43 Sports High

68 Family Low

32 Truck Low

20 Family High

레코드

속성

클래스

속성 집합

레코드 = 인스턴스 = 견본

속성, 속성 집합

범주 = 목표 속성 = 클래스 레이블

훈렦 집합 (training set)

테스트 집합 (test set)

훈련집합

42 Sports ???

24 Truck ???

테스트 집합

Age < 25

차량형태 {Sports}

High

High Low

분류기(Classifier) or 분류 모델

Y N

Y N

(13)

분류 문제 해결을 위핚 접근법

분류 모델 구축을 위핚 일반적인 접근법

13

Apply Model

Induction

Deduction

Learn Model

Model

Tid Attrib1 Attrib2 Attrib3 Class

1 Yes Large 125K No

2 No Medium 100K No

3 No Small 70K No

4 Yes Medium 120K No

5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No

8 No Small 85K Yes

9 No Medium 75K No

10 No Small 90K Yes

10

Tid Attrib1 Attrib2 Attrib3 Class

11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ?

14 No Small 95K ?

15 No Large 67K ?

10

Test Set

Learning algorithm

Training Set

귀납

연역

(14)

분류 문제 해결을 위핚 접근법

 훈렦집합 vs. 시험집합

• 먼저 클래스 레이블이 알려져 있는 레코드들로 구성

• 클래스 레이블이 알려지지 않은 레코드들로 구성

14

(15)

분류 문제 해결을 위핚 접근법

분류모델의 성능평가

 혼동행렧의 사용(confusion matrix)

• 2-클래스 문제를 위핚 혼동행렧

 정확도(accuracy)

 에러율(error rate)

15

실제

클래스

예상되는 클래스

클래스 = 1 클래스 = 0

f

11

f

10

f

01

f

00

클래스 = 1

클래스 = 0

(16)

의사결정 트리 귀납

의사결정 트리는 어떻게 작동하는가?

 예제 1 : 포유류인지를 검사?

• 기준 : 체온(body temperature), 분만(gives birth)

제주물산업센터 - 수자원데이터베이스 (제주대학교)

16

1. 입력 간선은 없고 0개 이상의 출력 간선을 가지는 노드: 루트 2. 정확히 하나의 입력 간선과 두개 이상의 출력 간선을 가지는 노

드 : 내부

3. 정확히 하나의 입력 간선을 갖고 출력 간선은 없는 노드 : 단말

(17)

의사결정 트리 귀납

• 예제 트리

제주물산업센터 - 수자원데이터베이스 (제주대학교)

17

(18)

의사결정 트리 귀납

 예제 2 : 탈세여부 검사?

제주물산업센터 - 수자원데이터베이스 (제주대학교)

18

Tid 환급 결혼 상태 수입 탈세

1 Yes Single 125K No 2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

10

환급

결혼상태

수입

NO YES NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Splitting Attributes

Training Data Model: Decision Tree

(19)

의사결정 트리 귀납

제주물산업센터 - 수자원데이터베이스 (제주대학교)

19

Tid 환급 결혼 상태 수입 탈세

1 Yes Single 125K No 2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

10

결혼상태

환급

수입

YES NO

NO

NO

Yes No

Married

Single, Divorced

< 80K > 80K

동일한 데이터에 대해 하나 이상의 의사 결정 나무가 존재할 수 있다!

참조

관련 문서

In this paper, the unified Bayesian Tikhonov regularization and the extended one are adopted in the IRL2N algorithm and applied to the image

As the bi-directional recurrent neural network, there are two layers which have the same neural network structure as the logistic regression, but

● 수정 프로그램에서 어떤 레코드를 수정하는 중에는 질의 프로그램에서 그 레코 드를 읽을 수 없도록 레코드 잠금을

Sign Language Shape Recognition Using SOFM Neural Network..

The overall performance of each of the learning based methods viz. the Naïve Bayesian keyphrase extractor, the MLP based keyphrase extractor, and the decision tree based

We propose a localized topology control algorithm for wireless ad hoc networks, called an angular minimum spanning tree (AMST), which preserves both the local and

z In the case of Slave Frame Bit-Stuffing method, a master node uses binary search tree algorithm which is used in Event-polling method as message data scheduling algorithm..

Compared with traditional convolutional neural network, which can only process Euclidean spatial data, this network method based on graph structure can not only