연구결과 - 기계학습의 산업안전 적용에 관한 연구

데이터는 유형을 고려하여 전처리되었다. 공사기간, 공사금액 등 연속형 정보는 데이터 간의 규모(Scale) 차이가 크기 때문에 정규화 하였다. 데이터 정규화는 기계 학습 시 변수별 영향력의 차이를 줄이고, 학습 속도를 개선하며, 지역 최적화(Local optimum)의 가능성을 줄일 수 있다(Shanker et al., 1996). 구조, 외부비계 등의 범주 형 정보는 다양한 기계학습 방법에 범용적으로 적용될 수 있도록 원-핫 인코딩하였 다. 마지막으로 결측치가 있는 데이터는 모두 제거(149개)하였다.

5.2.2 기계학습 모델 개발

본 연구는 건설현장의 사전정보를 이용하여 사망재해가 발생할 가능성이 높은 현 장을 선별하기 위한 기계학습 기반의 예측모델을 구축하였다. 이를 위해, 본 연구에 서는 사용하는 데이터의 특성에 따라 우수한 기계학습 방법이 상이하다는 기존 연 구를 참고하여(Bhavsar & Ganatra, 2012), 5가지 기계학습 알고리즘(SVM, Random Forest, XGBoost, LightGBM and AutoML)의 성능을 정량적으로 비교 평가하였다.

각 기계학습 알고리즘의 초매개변수는 Optuna를 활용하여 최적화하였다(Akiba et al., 2019). 자동으로 초매개변수 최적화를 진행하는 AutoML을 제외하고 본 연구에 고려된 기계학습 알고리즘은 데이터 학습을 위해 초매개변수 설정이 필요하다.

Optuna는 최적화할 초매개변수, 검색범위, 성능을 평가할 지표 등을 간단히 설정함 으로써 초매개변수 최적화를 진행한다. 최적화 방법으로 베이지안 최적화의 한 형 태인 TPESampler(Tree-structured Parzen Estimator Sampler)를 사용하였는데, 이전 의 좋은 결과에서 가까운 위치의 값을 탐색할 수 있게 함으로써 무작위 검색보다 효율적으로 최적화를 진행한다.

본 연구에서 사용한 데이터는 사망재해의 발생빈도가 상대적으로 적은 불균형 데 이터(본 연구의 사망재해는 전체 데이터의 약 10%)이다. 이에 따라 불균형 문제 해 결을 위해 과대표본화 기법인 SMOTE와 ADASYN을 적용하였다. 본 연구는 사망사 고 발생의 소수 데이터의 수와 사망사고 미발생의 다수 데이터의 수가 동일하게 되 도록 과대표본화 비율을 1(사망사고 발생):1(사망사고 미발생)로 설정하였다.

개발한 예측 모델의 성능평가를 위해 5겹 교차검증을 사용하였다. 교차검증 시 과대표본화는 실제 데이터로만 평가하기 위해 학습에 사용할 데이터셋에만 적용하 고 평가에 사용할 데이터에는 적용하지 않았다. 또한 정량적 성능 평가는 불균형 데이터임을 고려해 F1-score와 ROC 곡선 및 ROC-AUC를 적용하였다(Haixiang et al., 2017).

차를 나타내었다. 데이터의 불균형 문제로 원시데이터를 학습시킨 모델의 평균 F1-Score는 0 ~ 0.181의 범위로 나타나 예측 성능이 매우 부족한 것으로 분석되었다.

과대표본화를 적용하여 학습시킨 모델은 F1-score가 기계학습 알고리즘에 따라 0.876 ~ 0.941의 범위로 나타나, 원시 데이터를 활용한 경우보다 매우 높으며 예측 성능이 충분한 것으로 분석되었다.

알고리즘

원시 데이터

과대표본화 적용

SMOTE ADASYN 차이

(A-B) 평균 표준편차 평균(A) 표준편차 평균(B) 표준편차

SVM 0.181 0.054 0.876 0.019 0.904 0.014 -0.028 Random Forest 0.133 0.066 0.940 0.009 0.939 0.015 0.001

XGBoost 0.150 0.098 0.921 0.012 0.936 0.021 -0.015 LightGBM 0.067 0.084 0.940 0.010 0.941 0.013 -0.001 AutoML 0.000 - 0.913 0.021 0.927 0.019 -0.014

평균 0.106 - 0.918 - 0.929 - -0.011

<표 5-2> 과대표본화 사용여부 및 알고리즘 별 F1-score

원시 데이터에서는 기계학습 알고리즘 중 SVM이 F1-score가 가장 높았으나 0.181 에 불과하였다. 과대표본화 기법별로 보면, ADASYN이 SMOTE보다 성능이 다소 높 게 나타났다. ADASYN의 F1-score가 기계학습 알고리즘에 따라 0.904 ~ 0.941의 범위 를 보이는 반면, SMOTE의 F1-score는 0.876 ~ 0.940의 범위를 보여 ADASYN보다 평 균적으로 0.011 낮은 것으로 파악되었다.

기계학습 알고리즘별로는 5가지 알고리즘 중, LightGBM이 두 가지 과대표본화 기 법에서 가장 높은 F1-score를 보이는 것으로 나타나 성능이 가장 우수하였다.

SMOTE 기법에서는 Random Forest와 LightGBM이 가장 높은 F1-score인 0.940로 나 타났다. 한편, LightGBM은 ADASYN 기법을 사용하였을 때, 가장 우수한 성능으로 F1-score가 0.941로 나타났다.

한편 AutoML을 사용하여 구축된 모델 결과의 일부를 <표 5-3>에 나타내었다. 예 측 모델의 앙상블에 사용된 주요 알고리즘으로는 Random Forest, Extra-trees, Linear Discriminant Analysis, Gaussian Naive Bayes, Stochastic Gradient Descent, Bernoulli Naive Bayes 등이다.

가장 성능이 높은 과대표본화 기법인 ADASYN을 적용한 알고리즘별 ROC 곡선은 [그림 5-2]와 같다. ROC-AUC는 기계학습 알고리즘에 0.904 ~ 0.941의 범위를 보이는 것으로 나타났는데, F1-score의 결과와 매우 유사하였다.

(0.340000, SimpleClassificationPipeline({'balancing:strategy': 'none', 'classifier:__choice__':

'random_forest',

'data_preprocessing:categorical_transformer:categorical_encoding:__choice__':

'one_hot_encoding',

'data_preprocessing:categorical_transformer:category_coalescence:__choice__':

'minority_coalescer', 'data_preprocessing:numerical_transformer:imputation:strategy':

'mean', 'data_preprocessing:numerical_transformer:rescaling:__choice__': 'standardize', 'feature_preprocessor:__choice__': 'no_preprocessing', 'classifier:random_forest:bootstrap':

'True', 'classifier:random_forest:criterion': 'gini', 'classifier:random_forest:max_depth':

'None', 'classifier:random_forest:max_features': 0.5, 'classifier:random_forest:max_leaf_nodes': 'None', 'classifier:random_forest:min_impurity_decrease': 0.0,

'classifier:random_forest:min_samples_leaf': 1, 'classifier:random_forest:min_samples_split':

2, 'classifier:random_forest:min_weight_fraction_leaf': 0.0,

'data_preprocessing:categorical_transformer:category_coalescence:minority_coalescer:mini mum_fraction': 0.01},

dataset_properties={

'task': 1, 'sparse': False, 'multilabel': False, 'multiclass': False,

'target_type': 'classification', 'signed': False})),

⋮

<표 5-3> 구축된 AutoML 모델 결과 예시

[그림 5-2] ADASYN을 적용한 알고리즘별 ROC 곡선

5.3.2 공사 사전정보의 중요도 분석

과대표본화 기법을 적용한 예측 모델 중 가장 성능이 우수한 것으로 나타난 Random Forest와 LightGBM에 대해 공사 사전정보의 특성 중요도(Feature importance)를 <표 5-4>와 같이 도출하였다. 특성 중요도는 데이터가 예측 성능에 영향을 미치는 상대적 크기를 나타내는 것으로, 큰 값일수록 영향력이 크다고 해석 할 수 있다. 연구에서 사용한 Random Forest는 LightGBM과 달리 중요도를 전체 합 이 1이 되도록 0 ~ 1 사이의 값으로 표현하기 때문에 두 알고리즘의 중요도를 비교 가 가능하도록 백분율로 환산하여 표시하였다. 지상층수는 두 기계학습 알고리즘에 서 동일하게 사전정보 중 가장 중요도가 높은 것으로 나타났으나, 중요도 값은 Random Forest가 9.555%, LightGBM이 11.834%로 LightGBM에서의 영향도가 좀 더 높은 것으로 분석되었다. 공사기간, 굴착깊이, 최고높이는 두 기계학습 알고리즘에 서 상위 5위 이내에 공통적으로 포함되었다. 반면, Random Forest에서 두 번째로 중요한 것으로 나타난 지하층수는 LightGBM에서는 아홉 번째로 중요한 것으로 나 타났다.

특성 중요도는 의사결정나무 기반 모델에서 트리의 분할과 밀접한 관련이 있는 데, 트리 분할에 얼마나 이바지하였는지를 계산하여 결정된다. 이에 따라 다른 알고 리즘을 사용하거나 알고리즘의 초매개변수가 달라져도 특성 중요도는 변할 수 있 다. 특히 LightGBM의 리프중심 분할 사용, Random Forest의 무작위성 등으로 두 알 고리즘에서 중요도 순서가 차이가 났을 것으로 판단된다.

중요도가 높은 것으로 나타난 지상층수, 공사기간, 굴착깊이, 최고높이는 공사의 난이도와 높은 관계를 가지는 요인이다. 이는 예측 모델에 사용한 데이터가 어느 정도 안전관리를 하고 있는 대규모 건설현장에서 수집된 것이기 때문에 다소 일반 적인 결과가 나왔을 것으로 사료된다.

순위

Random Forest LightGBM

특성 중요도 특성 중요도

1 지상층수 9.555 지상층수 11.834

2 지하층수 8.035 공사기간 10.918

3 공사기간 7.857 굴착깊이 10.550

4 최고높이 7.485 최고높이 10.071

5 굴착깊이 7.473 공사금액 9.146

6 연면적 6.852 대지면적 8.990

7 대지면적 6.537 건축면적 8.174

8 공사금액 6.521 연면적 8.131

9 건축면적 5.805 지하층수 5.575

10 개소 4.568 개소 3.573

<표 5-4> ADASYN을 적용한 2개 알고리즘별 특성 중요도

문서에서 기계학습의 산업안전 적용에 관한 연구 (페이지 72-76)