다. 예측 결과 전체

(1)

파이썬 기반의 AI 프로그래밍 11-1

- 1 -

11. 알고리즘 체인과 파이프라인 1강. 평가 지표와 측정(2)

학습내용 - 오차 행렬(2)

- 다중 분류와 회귀의 평가 지표 - 모델 선택에서 평가 지표 사용

학습목표

- 오차행렬의 결과를 요약하는 다양한 방법을 설명할 수 있다.

- 다중 분류의 평가 지표와 회귀의 평가 지표를 설명할 수 있다.

- 모델 선택에서 평가 지표를 머신러닝에 적용할 수 있다.

1. 오차 행렬(2) 1) 정확도와의 관계

가. 오차 행렬의 결과를 요약하는 방법 나. 정확도    



다. 예측 결과 전체중 정확하게 예측된 비율

라. 음성으로 오분류되지 않도록 샘플의 양성을 결정하는 특징을 포착하는 기능과 직접 연결

마. Scikit-learn에서 accuracy_score 함수를 사용하여 구현 2) 정밀도와의 관계

가. 오차 행렬의 결과를 요약하는 방법, 양성 예측도(PPV) 나. 정밀도P r  



다. 실제 양성으로 예측한 결과 중 정말 양성인 비율 라. 얼마나 많은 샘플이 진짜 양성()인지 측정

마. 거짓 양성()의 수를 줄이는 것이 목표일 때 성능 지표로 사용 바. Scikit-learn에서 precision_score 함수를 사용하여 구현 사. 사용 분야: 신약의 치료 효과 예측 모델

(2)

- 2 - 3) 재현율과의 관계

가. 오차 행렬의 결과를 요약하는 방법, 모든 양성 샘플을 식별해야 할 때 성능 지 표로 사용

나. 재현율_{  }





다. 실제 양성인 샘플을 양성으로 제대로 예측한 비율

라. 전체 양성 샘플( + )중에서 얼마나 많은 샘플이 양성 ()로 분류되는지 측정

마. 민감도(Sensitivity), 적중률(Hit rate), 진짜 양성 비율(TPR) 바. Scikit-learn에서 recall_score 함수를 사용하여 구현

사. 사용 분야: 암 진단 (건강한 사람이 일부 포함되더라도 암에 걸린 사람을 빠짐 없이 찾는 것이 중요)

4) f-점수

가. 재현율 최적화와 정밀도 최적화는 상충하여 재현율과 정밀도의 조화 평균인  –점수로 요약

나.

다. 정밀도와 재현율을 모두 반영하는 평가 지표로써 불균형한 이진 분류 데이터 셋에서 정확도보다 더 나은 지표가 될 수 있음

라. Scikit-learn에서 f1_score 함수를 사용하여 구현 5) ROC와 AUC

가. 긍정 데이터 개수와 부정 데이터 개수에 큰 편차가 있는 상황에는 이전에 학 습한 평가 지표가 의미가 없을 때도 있음

나. 불균형 데이터에 대응하는 평가 지표

→ 곡선 아래 면적(Area Under the Curve, AUC)

다. ROC 곡선은 예측 결과에 점수를 할당하는 여러 분류 기준을 비교하는데 유용 한 도구로써 분류기의 모든 임계값을 고려하지만, 정밀도와 재현율 대신 TPR과 FRP를 나타냄

라. TPR(진짜 양성 비율) =

�

_





FRP(거짓 양성 비율) = _





(3)

- 3 - 2. 다중 분류와 회귀의 평가 지표

1) 기본적으로 이진 분류 평가 지표에서 유도 2) 모든 클래스에 평균을 낸 것

3) 다중 분류의 정확도도 정확히 분류된 샘플의 비율로 정의함으로 클래스가 불균형 할 경우에 정확도는 좋지 못한 평가 모델

4) 회귀 평가는 분류(Classification)와 비슷

5) 타킷을 과대 예측한 것 대비 과소 예측한 것을 분석 6) 일반적으로 ^

�

이 회귀 모델을 평가하는데 나은 지표 3. 모델 선택에서 평가 지표 사용

1) GridSearchCV, cross_val_score 사용 모델 선택시 AUC 평가 지표 필요 가능 가. scikit-learn 지원 : scoring 매개 변수 활용

나. 사용하려는 평가지표를 문자열로 전달

(4)

- 4 - 평가하기

1. 전체 양성 샘플중에서 얼마나 많은 샘플이 양성으로 분류되는지 측정하는 동작 은 정밀도와 관련된다.

O X

- 정답 : X

해설 : 전체 양성 샘플 중에서 얼마나 많은 샘플이 양성으로 분류되는지 측정하 는 것은 재현율과 관련됩니다.

2. 아래의 빈 칸을 채우시오

ROC 곡선은 예측 결과에 점수를 할당하는 여러 분류 기준을 비교하는데 분류기의 모든 ( )을 고려하며, 정밀도와 재현율 대신 ( )과 ( )를 나타낸다.

- 정답 : 임계갓, TPR, FRP

해설 : ROC 곡선은 분류기의 예측치를 고려하고, 진짜 양성 비율(TPR)과 거짓 양성 비율(FRP)을 나타냅니다.

학습정리 1. 오차행렬(2)

- 정확도와의 관계 - 정밀도와의 관계 - 재현율과의 관계 - -점수

- ROC와 AUC

2. 다중 분류와 회귀의 평가 지표

- 이진 분류 평가 지표에서 유도되는 다중 분류의 평가 지표

- 타킷을 과대 예측한 것 대비 과소 예측한 것을 분석하는 회귀의 평가 지표 3. 모델 선택에서 평가 지표 사용

- scikit-learn지원 scoring 매개 변수