파이썬 기반의 AI 프로그래밍 11-1
- 1 -
11. 알고리즘 체인과 파이프라인 1강. 평가 지표와 측정(2)
학습내용 - 오차 행렬(2)
- 다중 분류와 회귀의 평가 지표 - 모델 선택에서 평가 지표 사용
학습목표
- 오차행렬의 결과를 요약하는 다양한 방법을 설명할 수 있다.
- 다중 분류의 평가 지표와 회귀의 평가 지표를 설명할 수 있다.
- 모델 선택에서 평가 지표를 머신러닝에 적용할 수 있다.
1. 오차 행렬(2) 1) 정확도와의 관계
가. 오차 행렬의 결과를 요약하는 방법 나. 정확도
다. 예측 결과 전체중 정확하게 예측된 비율
라. 음성으로 오분류되지 않도록 샘플의 양성을 결정하는 특징을 포착하는 기능과 직접 연결
마. Scikit-learn에서 accuracy_score 함수를 사용하여 구현 2) 정밀도와의 관계
가. 오차 행렬의 결과를 요약하는 방법, 양성 예측도(PPV) 나. 정밀도P r
다. 실제 양성으로 예측한 결과 중 정말 양성인 비율 라. 얼마나 많은 샘플이 진짜 양성()인지 측정
마. 거짓 양성()의 수를 줄이는 것이 목표일 때 성능 지표로 사용 바. Scikit-learn에서 precision_score 함수를 사용하여 구현 사. 사용 분야: 신약의 치료 효과 예측 모델
파이썬 기반의 AI 프로그래밍 11-1
- 2 - 3) 재현율과의 관계
가. 오차 행렬의 결과를 요약하는 방법, 모든 양성 샘플을 식별해야 할 때 성능 지 표로 사용
나. 재현율
다. 실제 양성인 샘플을 양성으로 제대로 예측한 비율
라. 전체 양성 샘플( + )중에서 얼마나 많은 샘플이 양성 ()로 분류되는지 측정
마. 민감도(Sensitivity), 적중률(Hit rate), 진짜 양성 비율(TPR) 바. Scikit-learn에서 recall_score 함수를 사용하여 구현
사. 사용 분야: 암 진단 (건강한 사람이 일부 포함되더라도 암에 걸린 사람을 빠짐 없이 찾는 것이 중요)
4) f-점수
가. 재현율 최적화와 정밀도 최적화는 상충하여 재현율과 정밀도의 조화 평균인 –점수로 요약
나.
다. 정밀도와 재현율을 모두 반영하는 평가 지표로써 불균형한 이진 분류 데이터 셋에서 정확도보다 더 나은 지표가 될 수 있음
라. Scikit-learn에서 f1_score 함수를 사용하여 구현 5) ROC와 AUC
가. 긍정 데이터 개수와 부정 데이터 개수에 큰 편차가 있는 상황에는 이전에 학 습한 평가 지표가 의미가 없을 때도 있음
나. 불균형 데이터에 대응하는 평가 지표
→ 곡선 아래 면적(Area Under the Curve, AUC)
다. ROC 곡선은 예측 결과에 점수를 할당하는 여러 분류 기준을 비교하는데 유용 한 도구로써 분류기의 모든 임계값을 고려하지만, 정밀도와 재현율 대신 TPR과 FRP를 나타냄
라. TPR(진짜 양성 비율) =
�
FRP(거짓 양성 비율) =
파이썬 기반의 AI 프로그래밍 11-1
- 3 - 2. 다중 분류와 회귀의 평가 지표
1) 기본적으로 이진 분류 평가 지표에서 유도 2) 모든 클래스에 평균을 낸 것
3) 다중 분류의 정확도도 정확히 분류된 샘플의 비율로 정의함으로 클래스가 불균형 할 경우에 정확도는 좋지 못한 평가 모델
4) 회귀 평가는 분류(Classification)와 비슷
5) 타킷을 과대 예측한 것 대비 과소 예측한 것을 분석 6) 일반적으로
�
이 회귀 모델을 평가하는데 나은 지표 3. 모델 선택에서 평가 지표 사용1) GridSearchCV, cross_val_score 사용 모델 선택시 AUC 평가 지표 필요 가능 가. scikit-learn 지원 : scoring 매개 변수 활용
나. 사용하려는 평가지표를 문자열로 전달
파이썬 기반의 AI 프로그래밍 11-1
- 4 - 평가하기
1. 전체 양성 샘플중에서 얼마나 많은 샘플이 양성으로 분류되는지 측정하는 동작 은 정밀도와 관련된다.
O X
- 정답 : X
해설 : 전체 양성 샘플 중에서 얼마나 많은 샘플이 양성으로 분류되는지 측정하 는 것은 재현율과 관련됩니다.
2. 아래의 빈 칸을 채우시오
ROC 곡선은 예측 결과에 점수를 할당하는 여러 분류 기준을 비교하는데 분류기의 모든 ( )을 고려하며, 정밀도와 재현율 대신 ( )과 ( )를 나타낸다.
- 정답 : 임계갓, TPR, FRP
해설 : ROC 곡선은 분류기의 예측치를 고려하고, 진짜 양성 비율(TPR)과 거짓 양성 비율(FRP)을 나타냅니다.
학습정리 1. 오차행렬(2)
- 정확도와의 관계 - 정밀도와의 관계 - 재현율과의 관계 - -점수
- ROC와 AUC
2. 다중 분류와 회귀의 평가 지표
- 이진 분류 평가 지표에서 유도되는 다중 분류의 평가 지표
- 타킷을 과대 예측한 것 대비 과소 예측한 것을 분석하는 회귀의 평가 지표 3. 모델 선택에서 평가 지표 사용
- scikit-learn지원 scoring 매개 변수