성능평가 - 이론적 고찰 - 기계학습의 산업안전 적용에 관한 연구

2. 이론적 고찰

2.4 성능평가

기계학습을 통해 만들어진 모델의 성능평가는 학습된 모델이 얼마나 정확하게 예 측했는지를 보여주는 것으로 매우 중요하다. 예측 모델이 잘 작동하는 지를 나타내 기 위해 적절한 성능평가 방법을 선택해야 한다. 특히 불균형 데이터의 경우 반드 시 적절한 방법으로 평가해야 원하는 성능을 확인할 수 있다. 기계학습의 예측 모 델은 분류 모델과 회귀 모델로 나누어진다. 분류 모델은 얼마나 잘 분류하였는지로 성능을 평가하지만, 회귀 모델의 성능평가는 일반적으로 오류를 측정함으로써 성능 을 평가한다.

2.4.1 회귀 모델의 성능평가

회귀 모델의 성능평가를 위해 일반적으로 사용되는 것은 평균제곱오차, 평균제곱 근오차(Root mean squared error), 평균절대오차(Mean absolute error)이며 각각 다 음과 같은 식으로 표현된다.

MSE   



 ^{  }_{  }



^^^{ }^^^^ ^(2-7)

RMSE  



^



   (2-8)

MAE   



 ^{  }_{  }

 ^

^^^{ }^^

^

^(2-9)

여기에서 _는 예측값, _는 실제값을 의미한다. 이 외에 MSLE(Mean squared logarithmic error), MAPE(Mean absolute percentage error)등이 회귀 모델의 성능평 가를 위해서 사용된다.

2.4.2 분류 모델의 성능평가

혼동 행렬(Confusion matrix)은 분류 모델의 성능을 평가하는데 가장 널리 사용되 는 방법이다. 실제 값과 예측 모델에 의해 분류된 예측 값의 발생 빈도를 보여주는 것으로 오류행렬(Error matrix)이라고도 한다.(Stehman, S.V., 1997). 혼동 행렬은 <표 2-2>와 같이 나타낼 수 있다.

Predicted values

Positive Negative

Actual values

Positive TP (True Positive)

FN (False Negative) Negative FP

(False Positive)

TN (True Negative)

<표 2-2> 혼동 행렬

혼동 행렬의 TP와 TN은 정확히 분류(정분류)한 것을 나타내고, FP, FN는 잘못 분 류(오분류)한 것을 나타낸다. 이 혼동 행렬의 각 값을 사용하여 분류 모델의 성능을 평가하는데, 대표적인 척도는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall)이 다. 정확도는 전체 분류 중 정분류한 비율이며, 정밀도는 예측이 참이라고 예측한 것 중 정분류한 비율로 긍정 예측도(Positive predictive value; PPV)라고도 한다. 재 현율은 실제로 참인 것 중 정분류한 비율이며, 사실-긍정율(True-positive rate;

TPR) 또는 민감도(Sensitivity)라고도 불린다.



  





















(2-10)



  









(2-11)



_{  }









(2-12)

일반적으로 정밀도와 재현율은 반비례의 관계를 가지기 때문에, 하나의 값으로 나타내기 위하여



_ 척도를 사용한다(van Rijsbergen, 1979).



_ 척도는 식 (2-13)과 같이 표현되는데, 여기에서



는 정밀도,



은 재현율이며, 는 가중치를 의미한다.

즉,



_는 가중치()가 있는 정밀도와 재현율의 조화평균을 의미한다.



_ _{ }





    





  

^







^ 



(2-13)

여기에서     ^



정밀도와 재현율에 동일하게 가중치 0.5를 부여하는 경우, 가 1이 된다. 이를 F1-score라고 부르며 가장 많이 사용하고 있다.



     × 











×





(2-14)

그 외에 특이도(Specificity), 긍정오류율(False positive rate; FPR) 등이 있으며 식 (2-15)와 같다.



  











_{ }







  





(2-15)

민감도와 긍정오류율의 상호관계를 보여줌으로써 다양한 부분을 한 눈에 볼 수 있는 방법으로 [그림 2-19]와 같은 ROC(Receiver operation characteristic) 곡선이 있다. 각 상황에 따른 민감도와 긍정오류율을 계산하여 그래프 상에 그림으로써 만 들어진다. 임계값(Threshold)을 기준으로 왼쪽 상단에(민감도=1, 긍정오류율=0) 가까 울수록 성능이 높고, 임계값에 가까울수록 성능이 낮다(Fawcett, 2006). ROC 곡선을 하나의 값으로 나타내기 위해 그래프 아래의 면적인 AUC(Area under curve)를 계 산하여 정량화하여 사용한다. 이 외에도 매튜 상관계수(Mattews correlation coefficient; MCC)도 많이 사용되고 있다.



_{ }



^











































(2-16)

2.4.3 물체 탐지 모델의 성능평가

물체 탐지는 2.2.6절에서 언급한 ILSVRC 외에도 PASCAL VOC(Visual object challenge), MS COCO 등 다양한 대회를 통해 이미지에서 물체를 탐지하고 분류하 는 성능을 개선해 왔다. 이런 대회에서 평가지표로 주로 사용하는 것이 mAP(Mean average precision)인데, 2007년 PASCAL VOC에서 최초로 사용되었다(Everingham et al., 2010).

여러 개의 물체가 있는 이미지에서 물체를 탐지하는 모델의 성능을 평가하기 위 해서는 물체의 위치와 분류의 두 가지 모두 잘 되었는지를 평가해야 하기 때문에, 기존의 분류와는 다른 추가적인 방법이 필요하다. [그림 2-20]의 (a)와 같이 분류해 야 할 실제(Ground truth) 정보는 이미지에 포함된 개체의 범주(Class)와 개체의 위 치를 나타내는 경계상자(Boundary box)의 정보이다.

(a) 분류해야 할 실제 정보 (b) 물체 탐지 결과

[그림 2-20] 실제 이미지와 탐지 결과

물체 탐지 모델이 [그림 2-20] (b)와 같은 결과를 얻었을 때, 정확도를 정량화하기 위하여 IoU(Intersection over Union)을 구한다. IoU는 예측한 경계 상자와 실제 경계 상자가 겹치는 정도를 나타낸다(Jaccard, 1912). IoU는 도식적으로 [그림 2-21]과 같 이 계산할 수 있다.

[그림 2-21] IoU 계산 방법 (Wikipedia)

일반적으로 IoU의 값이 0.5보다 크면 맞게 탐지한 것으로, 그렇지 않으면 잘 못 탐지한 것으로 판단한다. 이와 같은 방법으로 이미지에서 물체를 탐지하고 분류한 결과를 판별하여 2.3.2절과 같이 각 범주별로 정밀도, 재현율 등을 계산할 수 있다.

정밀도와 재현율을 이용하여 정밀도-재현율 곡선을 그릴 수 있는데, 이를 이용하여 AP(Average precision)를 다음과 같은 식으로 계산할 수 있다. 여기에서 n은 탐지할 물체의 전체 숫자이고,



_는 번째 탐지에 대한 최대 정밀도이며,



_는 해당 재현율 이다. AP는 정밀도-재현율 곡선 아랫부분의 면적(AUC)이다.



_{  }



^

^

^^

^

^ ^(2-18)

이 AP를 각 범주에 대해서 계산하여 합하고 범주의 개수로 나눠주는 값이 mAP 이다(Nath et al., 2020). 이 외에도 앞 절과 동일하게 F1-score, ROC-AUC를 사용하 기도 한다.

2.4.4 성능평가 방법

모델의 일반화된 성능을 보기 위해서, [그림 2-22]와 같이 원래의 데이터셋을 학 습에 사용할 데이터와 평가에 사용할 데이터로 분리가 필요하다. 학습에 사용하지 않은 새로운 데이터로 검증함으로써 실제 모델의 성능을 검증할 수 있다. 일반적으 로 데이터셋의 분리 비율은 80/20 또는 70/30을 사용하지만 데이터셋의 크기에 따라 좌우될 수 있다. 데이터가 충분히 많다면, 평가용 데이터가 클 필요는 없다. 알고리 즘에 따라 학습 모델의 수정 또는 조정에 검증데이터를 사용하는 경우도 있다. 검 증 데이터는 모델에 직접 사용하여 과적합을 방지하기 위해서 사용된다. 이런 경우 [그림 2-22]의 맨 아래와 같이 분리한다.

[그림 2-22] 학습, 평가를 위한 데이터셋의 분리

다른 평가 방법으로는 k-겹 교차검증(k-Fold cross validation)이 있다. k-겹 교차 검증은 모든 데이터를 학습과 평가에 사용함으로써 데이터 양이 적을 때 정확도를 향상시킬 수 있으며, 데이터를 한번 나눌 때보다 더 일반화된 결과를 얻을 수 있다 (Arlot & Celisse, 2010). k-겹 교차검증은 [그림 2-23]과 같이 데이터셋을 k개로 나 눈 후, k-1개는 학습에 사용하고 1개는 평가에 사용한다. 이를 번갈아 반복하여 학 습 및 평가를 하고 각 모델의 성능을 평균하여 최종 성능으로 산출한다.

[그림 2-23] k-겹 교차검증 예시

문서에서 기계학습의 산업안전 적용에 관한 연구 (페이지 38-43)

성능평가