• 검색 결과가 없습니다.

분류 기법

N/A
N/A
Protected

Academic year: 2022

Share "분류 기법"

Copied!
26
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

분류 기법

제주대학교 컴퓨터교육과

박찬정(cjpark@jejunu.ac.kr)

(2)

목차

의사결정 트리의 종료 조건

의사결정 트리기법의 장점

모델과잉적합

(3)

의사결정 트리 귀납

의사결정 트리의 종료 조건

 모든 레코드들이 같은 클래스에 속핚 경우 중단

 모든 레코드가 유사핚 속성값을 가지는 경우 트리 확 장 중단

제주물산업센터 - 수자원데이터베이스 (제주대학교) 3

(4)

의사결정 트리 귀납

장점

 구성비용이 저렴

 알려지지 않은 레코드 분류가 매우 빠름

 작은 크기의 트리에 대핚 해석이 용이

 다른 분류기법에 비해 단순핚 데이터 집합에 대해서

는 정확함

(5)

모델과잉적합

Overfitting vs. Underfitting

제주물산업센터 - 수자원데이터베이스 (제주대학교) 5

Underfitting : 트리가 매우 단순하여 훈렦데이터 및 실험데이터에 대핚 오류가 매우 큰 현상

(6)

모델과잉적합

Underfitting과 Overfitting의 정의

 모델이 아직 데이터의 짂정핚 구조를 학습하지 못해 서 발생

 훈렦오류는 적어지나 트리가 지나지게 훈렦데이터에 적합하여 일반화 오류가 증가하는 현상

원인

 대표적인 견본부족

 잡음

의사결정트리 귀납에서 과잉적합 다루기

 사젂 가지치기(pre-pruning)

 사후 가지치기(post-pruning)

(7)

웨카(Weka)

제주대학교 컴퓨터교육과

박찬정(cjpark@jejunu.ac.kr)

(8)

개요

사이트

 http://www.cs.waikato.ac.nz/ml/weka/

정의

 자바 기반의 기계학습 도구

 데이터 젂처리 도구

입력 파일 형식

 ARFF 파일

 단순히 데이터 집합을 제공함

 @attribute

• 속성 부분을 정의

 @data

• 데이터 부분을 정의

(9)

개요

 형식

@attribute attrName {numeric, string, <nominal>, date}

numeric: a number

nominal: a (finite) set of strings, e.g.

{Iris-setosa,Iris-versicolor, Iris-virginica}

string: <arbitrary strings>

date: (default ISO-8601) yyyy-MM-dd’T’HH:mm:ss

제주물산업센터 - 수자원데이터베이스 (제주대학교) 9

(10)

개요

 예제

% 1. Title: Iris Plants Database %

@RELATION iris

@ATTRIBUTE sepallength NUMERIC

@ATTRIBUTE sepalwidth NUMERIC

@ATTRIBUTE petallength NUMERIC

@ATTRIBUTE petalwidth NUMERIC

@ATTRIBUTE class {Iris-setosa,Iris-versicolor, Iris-virginica}

@DATA

5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa

(11)

동작 순서

1.Run weka GUI 2.Click 'Explorer' 3.'Open file...'

4.Select 'Classify' tab 5.'Choose' a classifier 6.Confirm options

7.Click 'Start' 8.Wait...

제주물산업센터 - 수자원데이터베이스 (제주대학교) 11

(12)

웨카 시작하기

Weka GUI Chooser

클릭하기

(13)

웨카 시작하기

Weka Explorer

제주물산업센터 - 수자원데이터베이스 (제주대학교) 13

클릭

(14)

웨카 입력 파일 열기

 iris.arff 다운 받아 저장하기

http://archive.ics.uci.edu/ml/

(15)

입력파일에 대한 기본 화면

제주물산업센터 - 수자원데이터베이스 (제주대학교) 15

클릭

(16)

아이리스 종별 분포보기

(17)

Weka 분류분석 하기

분류 알고리즘 선택하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 17

클릭

(18)

Weka 분류분석 하기

의사결정나무 알고리즘 방식 중에서 J48 선택

(19)

Weka 분류분석 하기

옵션 설정하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 19

클릭

(20)

Weka 분류분석 하기

옵션들

(21)

Weka 분류분석 하기

분석 시작하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 21

클릭

(22)

Weka 분류분석 하기

(23)

Weka 분류분석 하기

트리 가시화

제주물산업센터 - 수자원데이터베이스 (제주대학교) 23

클릭

(24)

Weka 분류분석 하기

의사결정나무 보기

(25)

Weka 분류분석 하기

J48 pruned tree ---

petalwidth <= 0.6: Iris-setosa (50.0) petalwidth > 0.6

| petalwidth <= 1.7

| | petallength <= 4.9: Iris-versicolor (48.0/1.0)

| | petallength > 4.9

| | | petalwidth <= 1.5: Iris-virginica (3.0)

| | | petalwidth > 1.5: Iris-versicolor (3.0/1.0)

| petalwidth > 1.7: Iris-virginica (46.0/1.0) Number of Leaves : 5

Size of the tree : 9

Time taken to build model: 0.03 seconds

제주물산업센터 - 수자원데이터베이스 (제주대학교) 25

(26)

Weka 분류분석 하기

=== Summary ===

Correctly Classified Instances 144 96 % Incorrectly Classified Instances 6 4 % Kappa statistic 0.94

Mean absolute error 0.035 Root mean squared error 0.1586 Relative absolute error 7.8705 % Root relative squared error 33.6353 % Total Number of Instances 150

=== Confusion Matrix ===

a b c <-- classified as 49 1 0 | a = Iris-setosa

0 47 3 | b = Iris-versicolor 0 2 48 | c = Iris-virginica

참조

관련 문서

• 유량 계산 시 유속 측정 지점의 누가거리를 이용하여 단면의 수심을 계산하 므로 시점은 항상 고정되어야함.  싞뢰도

다음과 같 은 엔티티를 고려해야 핚다고 가정핛 때, 발생핛 수 있는 관계를 찾아보고, 이를

 개체관계 모델을 그림으로 나타낸 개체관계도(ERD)는 엔티티, 속성, 관계를 그림으로 표현.  ERD를

치료 기법- “역설적 개입(paradoxical intervention)”.. 치료 기법- 1) 증상처방(symptom prescription).. 내담자가 치료자와의 치료적 약속과 스스 로의 변화에 대핚

매출채권에 있어 회사가 도산하여 채권의 회수가 불가능한 것으로 간주하고 대손 처리하였으나 그 이후 회사가 갱생하여 대손 처리한 매출채권을 회수하게

• Gray-Scale Compression, Gray-Scale Stretching, Gray-Level Slicing, Gray- Level Thresholding, Gray-Level Negation. − 히스토그램

ALTER Enable use of ALTER TABLE LOCK TABLES Enable use of LOCK TABLES on tables for which you have the SELECT privilege ALTER ROUTINE Enable stored routines to be altered

규격과 규정의 구분에