감퇴율 예측모델 성능 개선 - 유가스정 생산추이 예측을 위한 머신러닝 모델 구축 연구

결과를 나타낸 것으로,



__Pred2 모델의 Case 1과 Case 2의 입력 데이터가



_ _Pred1 모델의 입력 데이터와 동일하기 때문에



__Pred1 모델과 같은 결과를 보인 다. 따라서 입력 데이터가 추가된 Case 3와 Case 4에 대해 분석을 수행하였다.

Figure 3.29는 Model 1의 Case 3의 학습 결과와 테스트 결과를 나타낸 것으로 학 습 결과의 RMSE는 0.084, 테스트 결과의 RMSE는 0.13이며 각각 Case 2에 비해 감소한 것을 확인할 수 있다. Figure 3.30은 Model 1의 Case 4의 학습 결과와 테스 트 결과를 나타낸 것으로 학습 결과의 RMSE는 0.079, 테스트 결과의 RMSE는 0.121로 Case 3에 비해 감소한 것을 확인할 수 있다.

Figure 3.27 Training and Test result of



_ prediction 2 Model 1, Case 1.

Figure 3.28 Training and Test result of



_ prediction 2 Model 1, Case 2.

Figure 3.29 Training and Test result of



_ prediction 2 Model 1, Case 3.

Figure 3.30 Training and Test result of



_ prediction 2 Model 1, Case 4.

랜덤포레스트 모델을 통해 예측한 결과를 사용하여 구한 P10, P50, P90은 모델을 통해 예측된 값이 실제 값보다 크게 나타날 확률이 최소 10%, 50%, 90%라는 것을 의미하며, 대푯값으로는 P50 혹은



_ 값을 사용한다. 이 연구에서는 학습된 랜 덤 포레스트 모델을 통해 예측한 결과의 P10, P50, P90을 구하였으며 P10과 P90사 이의 차이인 신뢰구간(불확실성구간)을 구하였다. 대푯값으로는 P50을 사용하였고 이를 실제 값과 비교하여 상대오차를 계산하였다.



__Pred2 모델의 예측 결과를 Table 3.17에 나타내었다. 학습된 5개의 랜덤 포레 스트 모델의 결과를 Case 별로 분석하였다. 신뢰구간은 P10과 P90의 차이를 의미

하며 100개의 테스트 데이터에 대해 계산한 각각의 신뢰구간의 평균을 사용하였다.

신뢰구간이 작을수록 불확실성이 감소하여 모델의 예측성능이 더 향상된 것이라고 할 수 있다. 6개월간의 생산량 데이터와 이를 사용해 구한 감퇴지수



_{, 감퇴율}



_



_{, 궁극가채량}

 

을 추가한 Case 3와 12개월간의 생산량 데이터와 이를 사용 해 구한 감퇴지수



_{, 감퇴율}



_



_{, 궁극가채량}

 

를 추가한 Case 4의 경우 생산량 데이터가 더 추가됨에 따란 불확실성구간이 감소하는 것을 확인할 수 있다.

P50과 실제 값 사이의 상대오차는 100개의 테스트 데이터에 대해 계산한 값의 평 균을 사용하였다. Case 3과 Case 4의 경우 생산량 데이터의 추가가 많아질수록 상 대오차가 감소하는 것을 확인할 수 있다. 이 연구에서는 신뢰구간 내에 존재하는 실제 값의 비율이 최소 80% 이상인 모델을 신뢰할 수 있다고 판단하였다. 모든 모 델의 Case 3과 Case 4에서 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이상인 것을 확인할 수 있다.

Figure 3.31과 3.32는 5개의



__Pred2 모델 중 Model1의 예측 결과의 P10, P50, P90을 나타낸 그래프이다. Figure 3.31에 Case 1과 Case 2를, Figure 3.32에 Case 3과 Case 4를 나타내었다. 앞서 언급한 것처럼 Case 1과 Case 2에 비해 Case 3, Case 4로 갈수록 P10과 P90사이의 불확실성구간이 감소하는 것을 확인할 수 있다.

Table 3.17 Summary of



_ prediction model (



__{_Pred2).}



_ Pred2

Case 1 Case 2 Case 3 Case 4

Rate of data within the confidence interval(%)

Confidence interval¹⁾

Relative Error²⁾ (%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Model 1

77 0.368 53.9 78 0.368 53 85 0.267 29.6 89 0.256 23.9

Model 2

78 0.323 49.5 80 0.329 50.9 80 0.308 35.3 85 0.295 28.1

Model 3

72 0.341 61.5 70 0.339 58.2 82 0.258 36.5 85 0.243 27.6

Model 4

73 0.367 67.6 75 0.362 67 85 0.291 46.1 90 0.279 33.6

Model 5

83 0.362 54.8 83 0.362 53.3 80 0.258 40.4 86 0.252 30.1

Mean

³⁾ 76.6 0.352 57.5 77.2 0.352 56.5 82.4 0.276 37.6 87 0.265 28.7

1) Confidence Interval : Interval between P90 and P10.

2) Relative Error(%) : Relative error between P50 and Real value.

3) Mean : Average of 5 Models.

Figure 3.31 Confidence interval of test data (



__Pred2 Model1), (a) Case 1 (b) Case 2.

Figure 3.32 Confidence interval of test data (



__Pred2 Model1), (a) Case 3 (b) Case 4.

Table 3.18은



__Pred1의 5개 모델 결과의 평균과



__Pred2의 5개 모델 결과의 평균을 비교한 것으로 동일한 입력 데이터를 사용한 Case 1과 Case 2를 제외하고 Case 3과 Case 4를 비교하여 나타낸 것이다. 불확실성구간의 경우



__{_Pred1 모델} 에 비해



__Pred2 모델에서 감소한 것을 확인할 수 있다. Case 3의 경우 평균 0.335에서 0.276으로 감소하였으며, Case 4에서는 평균 0.315에서 0.265로 감소하였 다. 상대오차 또한 Case 3에서 43.86 %에서 37.58 %로 감소하였으며, Case 4에서 36.68 %에서 28.66 %로 감소한 것을 확인할 수 있다. 신뢰구간 내에 포함되는 실 제 값의 비율은 두 모델 모두 평균 80% 이상이며



__Pred1 모델에서 77%였던 Model 3의 Case 3의 경우



__Pred2 모델에서는 82%로 증가하였다. 이 연구에서는 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이상인 모델과 불확실성구간이 작 을수록 불확실성이 감소하여 신뢰도가 높다고 판단하였다. 따라서 Case 3과 Case 4에서



__{_Pred2 모델이}



__Pred1 모델보다 더 신뢰할 수 있는 모델이라고 할 수 있다.

Table 3.18 Compare result between



__{_Pred1 and}



__{_Pred2.}

Case 3 Case 4

Rate of data within the confidence interval(%)

Confidence interval¹⁾

Relative Error²⁾

(%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)



_

Pred1 Mean

³⁾

82.2 0.335 43.86 85.6 0.315 36.68



_

Pred2 Mean

⁴⁾

82.4 0.276 37.58 87 0.265 28.66

1) Confidence Interval : Interval between P90 and P10.

2) Relative Error(%) : Relative error between P50 and Real value.



__Pred1 Mean : Average of



__Pred1 5 Models.



_ Pred2 Mean : Average of



__Pred2 5 Models.

감퇴율 예측모델을 개선하기 위해 앞서 구축한



__Pred2 모델 이외에도 입력 데 이터에 여러 데이터를 추가하여 랜덤 포레스트 모델을 학습시켰다. Table 3.19는 감퇴율 예측모델을 개선하기 위해 입력 데이터에 추가한 데이터와 모델의 개선 여 부를 나타낸 것이다. 첫 번째로 3.5절에서 정의한 감퇴지수 예측모델인



_{_Pred1의} 예측 값을 추가하였지만 예측모델의 성능이 개선되지 않았다. 두 번째로 3.2절에서 정의한 EUR_Pred2 모델의 예측 값을 추가하였지만 예측 성능이 개선되지 않았다.

세 번째로 3.1절에서 정의한 EUR_Pred1 모델의 예측 값, 3.5절에서 정의한



_Pred1 모델의 예측 값, 3.3절에서 정의한



__Pred1 모델의 예측 값과



_{_Pred1 예} 측 값에



__Pred1 예측 값을 곱한 데이터를 추가하였지만 감퇴율 예측모델의 성능 이 개선되지 않았다. 네 번째로 3.4절에서 정의한



__Pred2 모델은 6개월간의 생산 량 데이터를 수정된 쌍곡선법에 적용하여 계산한





_



 

를 Case 3에 추가 하고, 12개월간의 생산량 데이터를 수정된 쌍곡선법에 적용하여 계산한





_



 

를 Case 4에 추가하여 학습하였고 Case 3와 Case 4의 경우에서 예측 성능 이 개선된 것을 확인할 수 있다.

Table 3.19 Trials and errors to improve decline rate predict capability.

No.

Added data Improvement



_{_Pred1} _X

2 EUR_Pred2 X

3 EUR_Pred1,



_{_Pred1,}



__{_Pred1,}



_{_Pred1}

× 

__{_Pred1} _X

 

_

    

_

  

Dalam dokumen 유가스정 생산추이 예측을 위한 머신러닝 모델 구축 연구 (Halaman 76-85)