• 검색 결과가 없습니다.

궁극가채량 예측모델 구축

문서에서 저작자표시 (페이지 42-52)

궁극가채량(EUR) 예측모델 구축을 위한 랜덤 포레스트 학습에 사용한 입력 데 이터는 입력 데이터의 구성에 따른 결과 분석을 위해 각각 다른 4개의 Case를 정 의하였고, Table 3.3에 각 Case 별 입력 데이터를 정리하였다. Case 1은 생산량 데 이터를 제외한 생산정의 유정 완결 데이터와 수압파쇄 데이터, 저류층 데이터를 사 용하였고, 이를 Static data로 정의하였다. Case 2는 Static data에 Peak 생산량 (

)을 추가하였고, Case 3에는 Static data에

부터

까지 총 6개월의 생산 량 데이터를 추가하였다. Case 4는 Static data에

부터

까지 총 12개월의 생

산량 데이터를 추가하였다. 출력 데이터는 예측하고자 하는 궁극가채량으로 설정하 였다.

Table 3.3 Training Data set for EUR_Pred1 model prediction.

Case 1 Case 2 Case 3 Case 4

Input data Static data

Static data +



Static data +



∼

Static data +



∼



Output data EUR

Table 3.3의 입력 데이터와 출력 데이터를 랜덤 포레스트에 학습시켰으며, 테스 트 데이터의 복원 추출 과정을 5번 반복하여 총 5번의 학습을 수행하였다. 위 과정 을 통해 학습된 모델을 EUR_Pred1으로 정의하였다. 학습된 랜덤 포레스트 5개 모 델은 각각 Model 1, Model 2, Model 3, Model 4, Model 5로 정의하였으며, Model 1의 학습 결과와 테스트 결과를 Case 별로 Figure 3.8, 3.9, 3.10, 3.11에 나타내었 다.

Figure 3.8은 Model 1의 Case 1의 학습 결과와 테스트 결과를 나타낸 것으로 학 습 결과의 RMSE는

 ×

, 테스트 결과의 RMSE는

 ×

이다. Figure 3.9 는 Model 1의 Case 2의 학습 결과와 테스트 결과를 나타낸 것으로 RMSE는 Case 1에 비해 감소하여 각각

 ×

,

 ×

이다. Figure 3.10은 Model 1의 Case 3의 학습 결과와 테스트 결과를 나타낸 것으로 학습 결과의 RMSE는

 ×

, 테스트 결과의 RMSE는

 ×

이며 각각 Case 2에 비해 감소한 것을 확인할 수 있다. Figure 3.11은 Model 1의 Case 4의 학습 결과와 테스트 결과를 나타낸 것으 로 학습 결과의 RMSE는

 ×

, 테스트 결과의 RMSE는

 ×

로 Case 3 에 비해 감소한 것을 확인할 수 있다. RMSE 측정을 통해 Static data만 사용한 Case 1에 비해 생산량 데이터를 추가한 Case 2의 예측 결과가 더 향상 되었다는 것을 확인할 수 있고, Case 3, Case 4 로 갈수록 생산량 데이터의 추가가 더 많아

짐에 따라 예측 결과가 점차 향상되는 것을 확인할 수 있다.

Figure 3.8 Training and Test result of EUR prediction Model 1, Case 1.

Figure 3.9 Training and Test result of EUR prediction Model 1, Case 2.

Figure 3.10 Training and Test result of EUR prediction Model 1, Case 3.

Figure 3.11 Training and Test result of EUR prediction Model 1, Case 4.

랜덤포레스트 모델을 통해 예측한 결과를 사용하여 구한 P10, P50, P90은 모델을 통해 예측된 값이 실제 값보다 크게 나타날 확률이 최소 10%, 50%, 90%라는 것을 의미하며, 대푯값으로는 P50 혹은

 값을 사용한다. 이 연구에서는 학습된 랜 덤 포레스트 모델을 통해 예측한 결과의 P10, P50, P90을 구하였으며 P10과 P90사 이의 차이인 신뢰구간(confidence interval)(불확실성구간)을 구하였다. 대푯값으로 는 P50을 사용하였고 이를 실제 값과 비교하여 상대오차(relative error)를 계산하 였다.

EUR_Pred1 모델의 예측 결과를 Table 3.4에 나타내었다. 학습된 5개의 랜덤 포 레스트 모델의 결과를 Case 별로 분석하였다. 신뢰구간은 P10과 P90의 차이를 의

미하며 100개의 테스트 데이터에 대해 계산한 각각의 신뢰구간의 평균을 사용하였 다. 불확실성구간이 작을수록 불확실성이 감소하여 모델의 예측성능이 더 향상된 것이라고 할 수 있다. Table 3.4를 통해 EUR_Pred1 모델의 Case 별 불확실성구간 은 입력 데이터에 생산량 데이터가 추가될수록 감소하는 것을 확인할 수 있다. P50 과 실제 값 사이의 상대오차는 100개의 테스트 데이터에 대해 계산한 값의 평균을 사용하였다. 상대오차는 Static Data만 사용한 Case 1에 비해 Case 4로 갈수록 생 산량 데이터가 추가됨에 따라 감소하는 것을 확인할 수 있다. 이 연구에서는 신뢰 구간 내에 존재하는 실제 값의 비율이 최소 80% 이상인 모델을 신뢰할 수 있다고 판단하였다. Static data만 사용한 Case 1의 경우 신뢰구간 내에 포함되는 실제 값 의 비율이 80% 이하인 경우가 있지만 생산량 데이터를 추가한 Case 2, Case 3, Case 4 경우 모두 80% 이상이 포함되는 것을 확인할 수 있다.

Figure 3.12와 3.13은 5개의 EUR_Pred1 모델 중 Model1의 예측 결과의 P10, P50, P90을 나타낸 그래프이다. Figure 3.12는 Case 1과 Case 2를, Figure 3.13은 Case 3과 Case 4를 나타내었다. 앞서 언급한 것처럼 입력 데이터에 생산량 데이터 를 추가하지 않은 Case 1에 비해 Case 4로 갈수록 P10과 P90사이의 불확실성구간 이 감소하는 것을 확인할 수 있다.

Table 3.4 Summary of EUR prediction model (EUR_Pred1).

EUR Pred1

Case 1 Case 2 Case 3 Case 4

Rate of data within the confidence interval(%)

Confidence interval1)

Relative Error2) (%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Model 1

81

2,769,207

31.6 81

2,415,951

24.03 81

1,894,653

19.8 81

1,747,886

15.8

Model 2

83

2,818,009

33.9 83

2,435,225

24.4 82

1,954,249

17.6 85

1,717,708

14.4

Model 3

75

2,793,725

26.2 81

2,417,977

23 84

1,979,8 29

17.4 83

1,734,630

15.1

Model 4

85

2,915,311

25.6 89

2,490,510

20.3 85

1,970,177

17.1 85

1,822,274

15.8

Model 5

81

2,805,826

29.9 84

2,440,545

21.6 89

1,964,249

17.7 84

1,647,838

16.8

Mean

3) 81

2,820,416

29.4 83.6

2,440,042

22.7 84.2

1,952,631

17.92 83.6

1,734,067

15.6

1) Confidence Interval : Interval between P90 and P10.

2) Relative Error(%) : Relative error between P50 and Real value.

3) Mean : Average of 5 Models.

Figure 3.12 Confidence interval of test data (EUR_Pred1 Model1), (a) Case 1 (b) Case 2.

Figure 3.13 Confidence interval of test data (EUR_Pred1 Model1), (a) Case 3 (b) Case 4.

EUR_Pred1 모델의 Case 1과 Case 4 모델을 학습시키기 위해 입력 데이터에 각 각 6개월, 12개월간의 생산량 데이터를 추가하여 학습을 진행하여 궁극가채량 예측 을 수행하였다. 랜덤 포레스트 모델인 EUR_Pred1 모델의 예측 값에 비해 6개월, 12개월의 생산량 데이터를 수정된 쌍곡선법에 적용하여 계산한 궁극가채량의 오차 가 더 작을 경우 수정된 쌍곡선법을 사용하여 궁극가채량 예측을 수행하는 것이 더 정확하다. 따라서 이 연구에서 구축한 EUR_Pred1 모델의 궁극가채량 예측 값 과 실제 값의 상대오차, 6개월, 12개월 생산량을 수정된 쌍곡선법에 적용하여 계산 한 궁극가채량 값과 실제 값의 상대오차를 계산하여 비교하여 Table 3.5에 나타내 었다. 6개월간의 생산량 데이터를 입력 데이터에 추가한 Case 3 모델의 예측 값과 실제 값의 상대오차는 17,92%이고, 6개월간의 생산량 데이터를 수정된 쌍곡선법에 적용하여 계산한 궁극가채량과 실제 값의 상대오차는 52.78%로 Cse 3 모델을 사용 하여 예측하는 것이 더 정확한 것을 확인하였다. 12개월간의 생산량 데이터를 입력 데이터에 추가한 Case 4 모델의 예측 값과 실제 값의 상대오차는 평균 15.6%이고, 12개월간의 생산량 데이터를 수정된 쌍곡선법에 적용하여 계산한 궁극가채량과 실 제 값의 상대오차는 37.46%로 Case 4 모델을 사용하여 예측하는 것이 더 정확한 것을 확인하였다. 따라서 6개월 또는 12개월 미만의 생산량 데이터가 존재하는 생 산정의 경우 수정된 쌍곡선법을 이용하여 궁극가채량을 예측하는 것보다 이 연구 를 통해 구축한 EUR_Pred1 모델을 사용하여 예측하는 것이 더 정확하다고 판단할 수 있다.

Table 3.5 Comparison between prediction value and real EUR.

Real EUR VS

Case 3 6 month (

) Case 4 12 month (



)

Relative Error

(%)1)

Relative Error (%)

Relative Error (%)

Relative Error (%)

Model 1

19.8 53.72 15.8 36.21

Model 2

17.6 51.37 14.4 35.91

Model 3

17.4 50.7 15.1 37.83

Model 4

17.1 50.88 15.8 37.24

Model 5

17.7 57.22 16.8 40.11

Mean

3) 17.92 52.78 15.6 37.46

1) Relative Error(%) : Relative error between Prediction value and Real value.

2) Mean : Average of 5 Models.

문서에서 저작자표시 (페이지 42-52)

관련 문서