규칙기반 분류기법
제주대학교 컴퓨터교육과
박찬정(cjpark@jejunu.ac.kr)
목차
규칙기반 분류기
규칙기반 분류기 동작원리
규칙기반 분류기의 제작
제주물산업센터 - 수자원데이터베이스 (제주대학교)
2
규칙기반 분류기의 제작
직접적인 규칙 추출방법
• 데이터로부터 규칙 추출
• 순차적 커버링 알고리즘 사용
• e.g.: RIPPER, CN2, Holte’s 1R
갂접적인 규칙 추출방법
• 다른 분류모델(예를 들면, 의사결정트리)에서 규칙 추출 e.g: C4.5rules
3
속성 공간을 더 작은 부분 공간
으로 분할
하나의 분류규칙 을 사용하도록
유도함
규칙기반 분류기 제작
순차적 커버링 알고리즘
4
1. E
는 훈련 항목들의 집합, A는 속성값 쌍들의 집합,{(A j , v j )}
2. Y 0
는 클래스들의 정렬된 집합 {y 1 ,y 2 , …, y k
}3. R = { }
// 공집합4. for 각 클래스
y ∈ Y 0 - {y k }
do5. while 정지조건이 만족되지 않는 경우 do 6.
r ← Learn-One-Rule(E, A, y)
7.
r
에 포함되는 훈련 항목들을 E로부터 제거핚다.8. 규칙 리스트의 끝에
r
을 추가:R ← R ∨ r
9. end while10. end for
11.디폴트규칙,
{} y k
를 규칙 리스트R
의 끝에 추가핚다.규칙기반 분류기 제작
5
(i) Original Data (ii) Step 1
(iii) Step 2
R1
(iv) Step 3
R1
R2
규칙기반 분류기 제작
순차적 커버링 알고리즘의 특성
Learn-One-Rule 함수
• 훈련집합에서 다수의 긍정적 사례들을 포함하면서 부정적인 사례들은 하나도 포함하지 않는 분류 규칙을 추출하는 것
6
•규칙 성장 전략
•규칙 평가
•규칙의 간결화
•정지조건
•규칙 프루닝(가지치기)
규칙기반 분류기 제작
갂접적인 규칙 추출 방법
7
Rule Set
r1: (P=No,Q=No) ==> -
r2: (P=No,Q=Yes) ==> + r3: (P=Yes,R=No) ==> +
r4: (P=Yes,R=Yes,Q=No) ==> - r5: (P=Yes,R=Yes,Q=Yes) ==> + P
Q R
- + + Q
- +
No No
No
Yes Yes
Yes
No Yes
규칙기반 분류기 제작
갂결화
제주물산업센터 - 수자원데이터베이스 (제주대학교)
8
R2 : (P=아니오) (Q = 예) + R3 : (P = 예) (R = 아니오) +
R5 : (P = 예) (R = 예) (Q = 예) +
R2’ : (Q = 예) +
R3’ : (P = 예) (R = 아니오) +
예제
Iris
제주물산업센터 - 수자원데이터베이스 (제주대학교)
9
예제
제주물산업센터 - 수자원데이터베이스 (제주대학교)
10
예제
인터넷중독도
제주물산업센터 - 수자원데이터베이스 (제주대학교)
11
c1 계획보다 더 오랫동안 인터넷에 접속한 경험 c2 인터넷 때문에 숙제를 소홀히 한 경험
c3 가족보다 인터넷에 더 흥미를 느낀 경험 c4 온라인상의 친구를 만들어 본 경험
c5 온라인 접속으로 다른 사람이 불평한 경험
c6 온라인 접속시간으로 학교생활에 문제 있는 경험 c7 다른 일 보다 먼저 전자우편을 점검한 경험
c8 인터넷 때문에 학업에 문제가 있었던 경험
c9 인터넷에서 무엇을 했느냐고 물었을 때 숨기거나 변명을 하며 얼버무린 경험 c10 인터넷 때문에 생활상의 어려운 문제를 생각 하지 못한 경험
c11 인터넷 사용 후 다시 온라인에 접속할 때까지의 기간을 기다린 경험
c12 인터넷이 없는 생활은 따분하고 공허하며 재미없을 것이라고 두려워한 경험
c13 온라인에 접속했을 때 누군가가 방해를 한다면 소리를 지르거나 화를 내거나 귀찮아 한 경험 c14 밤늦게까지 접속해 있느라 잠을 못 잔 경험
c15 오프라인 상태일 때 인터넷에 정신이 팔려 있거나 다시 온라인에 접속해 있는 듯한 환상을 느낀 경험 c16 온라인에 접속해 있을 때 "몇 분만 더" 라고 하며 시간을 허비한 경험
c17 온라인 접속 시간을 줄이는데 실패한 경험 c18 온라인 접속시간을 숨긴 경험
c19 친구나 가족과 밖으로 외출하려고 하기보다 온라인 상태에 더 머무르기 위해 접속하려고 한 경험 c20 오프라인 상태일 때에는 우울하고 침울하며 신경질이 났다가 다시 온라인 상태로 오면 이런 감정들이 모두 사라진 경험
예제
결과
제주물산업센터 - 수자원데이터베이스 (제주대학교)
12
문제
다음과 같은 속성과 속성값을 가짂 이짂문제를 고려하자.
에어컨 = {작동, 고장}
엔짂 = {좋다, 나쁘다}
마일리지 = {많다, 보통, 적다}
녹 = {예, 아니오}
규칙
①
규칙들이 상호배타적인가 포괄적인가?②
규칙집합이 포괄적인가?③
규칙집합에 정렬이 필요한가?④
디폴트 클래스가 필요한가?제주물산업센터 - 수자원데이터베이스 (제주대학교)
13
마일리지 = 많다 가치 = 낮다 마일리지 = 적다 가치 = 높다
에어컨 = 작동, 엔진 = 좋다 가치 = 높다 에어컨 = 작동, 엔진 = 나쁘다 가치 = 낮다 에어컨 = 고장 가치 = 낮다
문제
와인의 질에 관해 규칙기반 분류기법으로 분석 하시오.
제주물산업센터 - 수자원데이터베이스 (제주대학교)