• 검색 결과가 없습니다.

분류 기법

N/A
N/A
Protected

Academic year: 2022

Share "분류 기법"

Copied!
26
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

분류 기법

제주대학교 컴퓨터교육과

박찬정([email protected])

(2)

목차

의사결정 트리의 종료 조건

의사결정 트리기법의 장점

모델과잉적합

(3)

의사결정 트리 귀납

의사결정 트리의 종료 조건

 모든 레코드들이 같은 클래스에 속핚 경우 중단

 모든 레코드가 유사핚 속성값을 가지는 경우 트리 확 장 중단

제주물산업센터 - 수자원데이터베이스 (제주대학교) 3

(4)

의사결정 트리 귀납

장점

 구성비용이 저렴

 알려지지 않은 레코드 분류가 매우 빠름

 작은 크기의 트리에 대핚 해석이 용이

 다른 분류기법에 비해 단순핚 데이터 집합에 대해서

는 정확함

(5)

모델과잉적합

Overfitting vs. Underfitting

제주물산업센터 - 수자원데이터베이스 (제주대학교) 5

Underfitting : 트리가 매우 단순하여 훈렦데이터 및 실험데이터에 대핚 오류가 매우 큰 현상

(6)

모델과잉적합

Underfitting과 Overfitting의 정의

 모델이 아직 데이터의 짂정핚 구조를 학습하지 못해 서 발생

 훈렦오류는 적어지나 트리가 지나지게 훈렦데이터에 적합하여 일반화 오류가 증가하는 현상

원인

 대표적인 견본부족

 잡음

의사결정트리 귀납에서 과잉적합 다루기

 사젂 가지치기(pre-pruning)

 사후 가지치기(post-pruning)

(7)

웨카(Weka)

제주대학교 컴퓨터교육과

박찬정([email protected])

(8)

개요

사이트

 http://www.cs.waikato.ac.nz/ml/weka/

정의

 자바 기반의 기계학습 도구

 데이터 젂처리 도구

입력 파일 형식

 ARFF 파일

 단순히 데이터 집합을 제공함

 @attribute

• 속성 부분을 정의

 @data

• 데이터 부분을 정의

(9)

개요

 형식

@attribute attrName {numeric, string, <nominal>, date}

numeric: a number

nominal: a (finite) set of strings, e.g.

{Iris-setosa,Iris-versicolor, Iris-virginica}

string: <arbitrary strings>

date: (default ISO-8601) yyyy-MM-dd’T’HH:mm:ss

제주물산업센터 - 수자원데이터베이스 (제주대학교) 9

(10)

개요

 예제

% 1. Title: Iris Plants Database %

@RELATION iris

@ATTRIBUTE sepallength NUMERIC

@ATTRIBUTE sepalwidth NUMERIC

@ATTRIBUTE petallength NUMERIC

@ATTRIBUTE petalwidth NUMERIC

@ATTRIBUTE class {Iris-setosa,Iris-versicolor, Iris-virginica}

@DATA

5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa

(11)

동작 순서

1.Run weka GUI 2.Click 'Explorer' 3.'Open file...'

4.Select 'Classify' tab 5.'Choose' a classifier 6.Confirm options

7.Click 'Start' 8.Wait...

제주물산업센터 - 수자원데이터베이스 (제주대학교) 11

(12)

웨카 시작하기

Weka GUI Chooser

클릭하기

(13)

웨카 시작하기

Weka Explorer

제주물산업센터 - 수자원데이터베이스 (제주대학교) 13

클릭

(14)

웨카 입력 파일 열기

 iris.arff 다운 받아 저장하기

http://archive.ics.uci.edu/ml/

(15)

입력파일에 대한 기본 화면

제주물산업센터 - 수자원데이터베이스 (제주대학교) 15

클릭

(16)

아이리스 종별 분포보기

(17)

Weka 분류분석 하기

분류 알고리즘 선택하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 17

클릭

(18)

Weka 분류분석 하기

의사결정나무 알고리즘 방식 중에서 J48 선택

(19)

Weka 분류분석 하기

옵션 설정하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 19

클릭

(20)

Weka 분류분석 하기

옵션들

(21)

Weka 분류분석 하기

분석 시작하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 21

클릭

(22)

Weka 분류분석 하기

(23)

Weka 분류분석 하기

트리 가시화

제주물산업센터 - 수자원데이터베이스 (제주대학교) 23

클릭

(24)

Weka 분류분석 하기

의사결정나무 보기

(25)

Weka 분류분석 하기

J48 pruned tree ---

petalwidth <= 0.6: Iris-setosa (50.0) petalwidth > 0.6

| petalwidth <= 1.7

| | petallength <= 4.9: Iris-versicolor (48.0/1.0)

| | petallength > 4.9

| | | petalwidth <= 1.5: Iris-virginica (3.0)

| | | petalwidth > 1.5: Iris-versicolor (3.0/1.0)

| petalwidth > 1.7: Iris-virginica (46.0/1.0) Number of Leaves : 5

Size of the tree : 9

Time taken to build model: 0.03 seconds

제주물산업센터 - 수자원데이터베이스 (제주대학교) 25

(26)

Weka 분류분석 하기

=== Summary ===

Correctly Classified Instances 144 96 % Incorrectly Classified Instances 6 4 % Kappa statistic 0.94

Mean absolute error 0.035 Root mean squared error 0.1586 Relative absolute error 7.8705 % Root relative squared error 33.6353 % Total Number of Instances 150

=== Confusion Matrix ===

a b c <-- classified as 49 1 0 | a = Iris-setosa

0 47 3 | b = Iris-versicolor 0 2 48 | c = Iris-virginica

참조

관련 문서

장서폐기의 주요 사유로 아직 가용 가능한 충 분한 장서 수장 능력을 가지고 있는 규모가 큰 도서관들은 장서관리 효율화를 위하여 장서 폐 기를 시행하는 반면에 중규모

연부조직의 낭성 종괴중에서 혈종은 보통 외 상과 관련되거나 혈액응고 장애가 있는 경우에 발생 하는 경우가 많다. 1) 저자들은 특별한 원인 없이 2개 월 전 우연히

그러나 초등학생 연령층(12세 이하) 에서의 추간판 탈출증에 대한 보고는 매우 드물어 아직 국내에서는 이들만을 대상으로 한 보고는 없다. 추간판 탈출 발병의 유발인자로는

본 논문에서 계측 한 자갈하천에서의 고리한 수위-유량 관계의 역전현상은 모래하천의 고리 현상 해석에 일반적으로 적용되는 홍수 파에 의한 상승기와 하강기의 마찰경사

각각의 업종 들은 설 연휴 이후 회복세를 보이다가 확진자 발생이후 개학시기와 관계없이 감소세를 보이 는 경우, 코로나 확진자 발생 이후 감소세를 보 이다가