감퇴율 예측모델 구축

감퇴율() 예측모델 구축을 위한 랜덤 포레스트 학습에 사용한 입력 데이터는 입력 데이터의 구성에 따른 결과 분석을 위해 각각 다른 4개의 Case를 정의하였고, Table 3.13에 각 Case 별 입력 데이터를 정리하였다. Case 1은 생산량 데이터를 제외한 생산정의 유정 완결 데이터와 수압파쇄 데이터, 저류층 데이터를 사용하였 고, 이를 Static data로 정의하였다. Case 2는 Static data에 peak 생산량(



__)을 추가하였고, Case 3에는 Static data에



__부터



_까지 총 6개월의 생산량 데이터 를 추가하였다. Case 4는 Static data에



__부터



_까지 총 12개월의 생산량 데이 터를 추가하였다. 출력 데이터는 예측하고자 하는 감퇴율로 설정하였다.

Table 3.14 Training Data set for



__Pred1 model prediction.

Case 1 Case 2 Case 3 Case 4

Input data Static data

Static data +



_

Static data +



_

∼

_

Static data +



_

∼

_

Output data



_

Table 3.14의 입력 데이터와 출력 데이터를 랜덤 포레스트에 학습시켰으며, 테스 트 데이터의 복원 추출 과정을 5번 반복하여 총 5번의 학습을 수행하였다. 위 과정 을 통해 학습된 모델을



__Pred1로 정의하였다. 학습된 랜덤 포레스트 5개 모델은 각각 Model 1, Model 2, Model 3, Model 4, Model 5로 정의하였으며, Model 1의 학습 결과와 테스트 결과를 Case 별로 Figure 3.21, 3.22, 3.23, 3.24에 나타내었다.

Figure 3.21은 Model 1의 Case 1의 학습 결과와 테스트 결과를 나타낸 것으로 학습 결과의 RMSE는 0.127, 테스트 결과의 RMSE는 0.195이다. Figure 3.22는 Model 1의 Case 2의 학습 결과와 테스트 결과를 나타낸 것으로 학습 결과의 RMSE는 Case 1과 동일한 0.127이며, 테스트 결과의 RMSE는 0.194로 Case 1에

비해 감소하였다. Figure 3.23은 Model 1의 Case 3의 학습 결과와 테스트 결과를 나타낸 것으로 학습 결과의 RMSE는 0.105, 테스트 결과의 RMSE는 0.161이며 각 각 Case 2에 비해 감소한 것을 확인할 수 있다. Figure 3.24는 Model 1의 Case 4 의 학습 결과와 테스트 결과를 나타낸 것으로 학습 결과의 RMSE는 0.097, 테스트 결과의 RMSE는 0.148로 Case 3에 비해 감소한 것을 확인할 수 있다. RMSE 측 정을 통해 비교한 결과 Static data만 사용한 Case 1과 Static data에



_ _생산량 데이터를 추가한 Case 2의 예측 결과는 차이가 거의 없다는 것을 확인할 수 있고, 6개월간의 생산량 데이터를 추가한 Case 3과 12개월간의 생산량 데이터를 추가한 Case 4로 갈수록 생산량 데이터의 추가가 더 많아짐에 따라 예측 결과가 점차 향 상되는 것을 확인할 수 있다.

Figure 3.21 Training and Test result of



_ prediction Model 1, Case 1.

Figure 3.22 Training and Test result of



_ prediction Model 1, Case 2.

Figure 3.23 Training and Test result of



_ prediction Model 1, Case 3.

Figure 3.24 Training and Test result of



_ prediction Model 1, Case 4.

랜덤포레스트 모델을 통해 예측한 결과를 사용하여 구한 P10, P50, P90은 모델을 통해 예측된 값이 실제 값보다 크게 나타날 확률이 최소 10%, 50%, 90%라는 것을 의미하며, 대푯값으로는 P50 혹은



_ 값을 사용한다. 이 연구에서는 학습된 랜 덤 포레스트 모델을 통해 예측한 결과의 P10, P50, P90을 구하였으며 P10과 P90사 이의 차이인 신뢰구간(불확실성구간)을 구하였다. 대푯값으로는 P50을 사용하였고 이를 실제 값과 비교하여 상대오차를 계산하였다.



__Pred1 모델의 예측 결과를 Table 3.15에 나타내었다. 학습된 5개의 랜덤 포레 스트 모델의 결과를 Case 별로 분석하였다. 신뢰구간은 P10과 P90의 차이를 의미 하며 100개의 테스트 데이터에 대해 계산한 각각의 신뢰구간의 평균을 사용하였다.

신뢰구간이 작을수록 불확실성이 감소하여 모델의 예측성능이 더 향상된 것이라고 할 수 있다. Table 3.15를 통해



__Pred1 모델의 Case 별 신뢰구간을 분석한 결과 입력 데이터로 Static data를 사용한 Case 1에 비해 Static data에



_ _{생산량 데} 이터를 추가한 Case 2의 경우 입력 데이터에 생산량 데이터가 추가되더라도 불확 실성구간의 감소 수치가 매우 작거나 오히려 증가하는 모델이 있어



_ _생산량 데이터의 추가가 예측성능에 큰 영향을 주지 않는다는 것을 확인할 수 있다. 입력 데이터에 6개월간의 생산량 데이터를 추가한 Case 3과 12개월간의 생산량 데이터 를 추가한 Case 4의 경우 생산량 데이터가 더 추가됨에 따라 불확실성구간이 감소 하는 것을 확인할 수 있다. P50과 실제 값 사이의 상대오차는 100개의 테스트 데이 터에 대해 계산한 값의 평균을 사용하였다. 상대오차를 분석한 결과 Case 1에 비해

Case 2에서 상대오차의 감소 수치가 매우 작고, Model 2의 경우는 오히려 상대오 차가 증가하여



_ 생산량 데이터를 입력 데이터에 추가하여도 모델의 예측 성능 에 큰 영향을 주지 않는다는 것을 확인할 수 있다. Case 3과 Case 4의 경우 생산 량 데이터의 추가가 많아질수록 상대오차가 감소하는 것을 확인할 수 있다. 이 연 구에서는 신뢰구간 내에 존재하는 실제 값의 비율이 최소 80% 이상인 모델을 신 뢰할 수 있다고 판단하였다. Static data만 사용한 Case 1과 Static data에



_ _생 산량 데이터를 추가한 Case 2의 경우 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이하인 경우가 있지만 각각 6개월, 12개월의 생산량 데이터를 추가한 Case 3, Case 4 경우 Model 3의 Case 3을 제외하고 모두 80% 이상이 포함되는 것을 확인 할 수 있다.

Figure 3.25와 3.26은 5개의



__Pred1 모델 중 Model 1의 예측 결과의 P10, P50, P90을 나타낸 그래프이다. Figure 3.25는 Case 1과 Case 2를, Figure 3.26은 Case 3과 Case 4를 나타내었다. 앞서 언급한 것처럼 Case 1과 Case 2에 비해 Case 3, Case 4로 갈수록 P10과 P90사이의 불확실성구간이 감소하는 것을 확인할 수 있다.

Table 3.15 Summary of



_ prediction model (



__{_Pred1).}



_ Pred1

Case 1 Case 2 Case 3 Case 4

Rate of data within the confidence interval(%)

Confidence interval¹⁾

Relative Error²⁾ (%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Model 1

77 0.368 53.9 78 0.368 53 87 0.343 37.5 89 0.315 28.6

Model 2

78 0.323 49.5 80 0.329 50.9 86 0.341 39.1 88 0.311 33.8

Model 3

72 0.341 61.5 70 0.339 58.2 77 0.313 47.2 80 0.301 40.8

Model 4

73 0.367 67.6 75 0.362 67 81 0.367 51.8 86 0.339 43.5

Model 5

83 0.362 54.8 83 0.362 53.3 80 0.311 43.7 85 0.308 36.7

Mean

³⁾ 76.6 0.352 57.5 77.2 0.352 56.5 82.2 0.335 43.9 85.6 0.315 36.7

1) Confidence Interval : Interval between P90 and P10.

2) Relative Error(%) : Relative error between P50 and Real value.

3) Mean : Average of 5 Models.

Figure 3.25 Confidence interval of test data (



__Pred1 Model1), (a) Case 1 (b) Case 2.

Figure 3.26 Confidence interval of test data (



__Pred1 Model1), (a) Case 3 (b) Case 4.

문서에서 저작자표시 (페이지 68-76)