분류 기법
제주대학교 컴퓨터교육과
박찬정(cjpark@jejunu.ac.kr)
목차
의사결정 트리의 종료 조건
의사결정 트리기법의 장점
모델과잉적합
의사결정 트리 귀납
의사결정 트리의 종료 조건
모든 레코드들이 같은 클래스에 속핚 경우 중단
모든 레코드가 유사핚 속성값을 가지는 경우 트리 확 장 중단
제주물산업센터 - 수자원데이터베이스 (제주대학교) 3
의사결정 트리 귀납
장점
구성비용이 저렴
알려지지 않은 레코드 분류가 매우 빠름
작은 크기의 트리에 대핚 해석이 용이
다른 분류기법에 비해 단순핚 데이터 집합에 대해서
는 정확함
모델과잉적합
Overfitting vs. Underfitting
제주물산업센터 - 수자원데이터베이스 (제주대학교) 5
Underfitting : 트리가 매우 단순하여 훈렦데이터 및 실험데이터에 대핚 오류가 매우 큰 현상
모델과잉적합
Underfitting과 Overfitting의 정의
모델이 아직 데이터의 짂정핚 구조를 학습하지 못해 서 발생
훈렦오류는 적어지나 트리가 지나지게 훈렦데이터에 적합하여 일반화 오류가 증가하는 현상
원인
대표적인 견본부족
잡음
의사결정트리 귀납에서 과잉적합 다루기
사젂 가지치기(pre-pruning)
사후 가지치기(post-pruning)
웨카(Weka)
제주대학교 컴퓨터교육과
박찬정(cjpark@jejunu.ac.kr)
개요
사이트
http://www.cs.waikato.ac.nz/ml/weka/
정의
자바 기반의 기계학습 도구
데이터 젂처리 도구
입력 파일 형식
ARFF 파일
단순히 데이터 집합을 제공함
@attribute
• 속성 부분을 정의
@data
• 데이터 부분을 정의
개요
형식
@attribute attrName {numeric, string, <nominal>, date}
numeric: a number
nominal: a (finite) set of strings, e.g.
{Iris-setosa,Iris-versicolor, Iris-virginica}
string: <arbitrary strings>
date: (default ISO-8601) yyyy-MM-dd’T’HH:mm:ss
제주물산업센터 - 수자원데이터베이스 (제주대학교) 9
개요
예제
% 1. Title: Iris Plants Database %
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor, Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa
동작 순서
1.Run weka GUI 2.Click 'Explorer' 3.'Open file...'
4.Select 'Classify' tab 5.'Choose' a classifier 6.Confirm options
7.Click 'Start' 8.Wait...
제주물산업센터 - 수자원데이터베이스 (제주대학교) 11
웨카 시작하기
Weka GUI Chooser
클릭하기
웨카 시작하기
Weka Explorer
제주물산업센터 - 수자원데이터베이스 (제주대학교) 13
클릭
웨카 입력 파일 열기
iris.arff 다운 받아 저장하기
http://archive.ics.uci.edu/ml/
입력파일에 대한 기본 화면
제주물산업센터 - 수자원데이터베이스 (제주대학교) 15
클릭
아이리스 종별 분포보기
Weka 분류분석 하기
분류 알고리즘 선택하기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 17
클릭
Weka 분류분석 하기
의사결정나무 알고리즘 방식 중에서 J48 선택
Weka 분류분석 하기
옵션 설정하기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 19
클릭
Weka 분류분석 하기
옵션들
Weka 분류분석 하기
분석 시작하기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 21
클릭
Weka 분류분석 하기
Weka 분류분석 하기
트리 가시화
제주물산업센터 - 수자원데이터베이스 (제주대학교) 23
클릭
Weka 분류분석 하기
의사결정나무 보기
Weka 분류분석 하기
J48 pruned tree ---
petalwidth <= 0.6: Iris-setosa (50.0) petalwidth > 0.6
| petalwidth <= 1.7
| | petallength <= 4.9: Iris-versicolor (48.0/1.0)
| | petallength > 4.9
| | | petalwidth <= 1.5: Iris-virginica (3.0)
| | | petalwidth > 1.5: Iris-versicolor (3.0/1.0)
| petalwidth > 1.7: Iris-virginica (46.0/1.0) Number of Leaves : 5
Size of the tree : 9
Time taken to build model: 0.03 seconds
제주물산업센터 - 수자원데이터베이스 (제주대학교) 25
Weka 분류분석 하기
=== Summary ===
Correctly Classified Instances 144 96 % Incorrectly Classified Instances 6 4 % Kappa statistic 0.94
Mean absolute error 0.035 Root mean squared error 0.1586 Relative absolute error 7.8705 % Root relative squared error 33.6353 % Total Number of Instances 150
=== Confusion Matrix ===
a b c <-- classified as 49 1 0 | a = Iris-setosa
0 47 3 | b = Iris-versicolor 0 2 48 | c = Iris-virginica