궁극가채량 예측모델 성능 개선

Table 3.6 Training Data set for EUR_Pred2 model.

Case 1 Case 2 Case 3 Case 4

Input data

Static data + EUR_Pred1

Static data +



_

+ EUR_Pred1

Static data +



_

∼

_ + EUR_Pred1

Static data +



_

∼

_

+ EUR_Pred1

Output data EUR

Table 3.6의 입력 데이터와 출력 데이터를 랜덤 포레스트에 학습시켰으며, 테스 트 데이터의 복원 추출 과정을 5번 반복하여 총 5번의 학습을 수행하였다. 위 과정 을 통해 학습된 모델을 EUR_Pred2으로 정의하였다. 학습된 랜덤 포레스트 5개 모 델은 각각 Model 1, Model 2, Model 3, Model 4, Model 5로 정의하였으며, Model 1의 학습 결과와 테스트 결과를 Case 별로 Figure 3.15, 3.16, 3.17, 3.18에 나타내었 다.

Figure 3.15는 Model 1의 Case 1의 학습 결과와 테스트 결과를 나타낸 것으로 학습 결과의 RMSE는

 ×

^, 테스트 결과의 RMSE는

 ×

^_{이다. Figure} 3.16은 Model 1의 Case 2의 학습 결과와 테스트 결과를 나타낸 것으로 RMSE는 Case 1에 비해 감소하여 각각

 ×

^_,

 ×

^이다. Figure 3.17은 Model 1의 Case 3의 학습 결과와 테스트 결과를 나타낸 것으로 학습 결과의 RMSE는

 ×

^, 테스트 결과의 RMSE는

 ×

^이며 각각 Case 2에 비해 감소한 것 을 확인할 수 있다. Figure 3.18은 Model 1의 Case 4의 학습 결과와 테스트 결과를 나타낸 것으로 학습 결과의 RMSE는

 ×

^, 테스트 결과의 RMSE는

 ×

^ 로 Case 3에 비해 감소한 것을 확인할 수 있다. RMSE 측정을 통해 Static data 만 사용한 Case 1에 비해 생산량 데이터를 추가한 Case 2의 예측 성능이 더 향상 되었다는 것을 확인할 수 있고, Case 3, Case 4 로 갈수록 생산량 데이터의 추가가 더 많아짐에 따라 예측 성능이 점차 향상되는 것을 확인할 수 있다.

Figure 3.15 Training and Test result of EUR prediction 2 Model 1, Case 1.

Figure 3.16 Training and Test result of EUR prediction 2 Model 1, Case 2.

Figure 3.17 Training and Test result of EUR prediction 2 Model 1, Case 3.

Figure 3.18 Training and Test result of EUR prediction 2 Model 1, Case 4.

랜덤포레스트 모델을 통해 예측한 결과를 사용하여 구한 P10, P50, P90은 모델을 통해 예측된 값이 실제 값보다 크게 나타날 확률이 최소 10%, 50%, 90%라는 것을 의미하며, 대푯값으로는 P50 혹은



_ 값을 사용한다. 이 연구에서는 학습된 랜 덤 포레스트 모델을 통해 예측한 결과의 P10, P50, P90을 구하였으며 P10과 P90사 이의 차이인 신뢰구간(불확실성구간)을 구하였다. 대푯값으로는 P50을 사용하였고 이를 실제 값과 비교하여 상대오차를 계산하였다.

EUR_Pred2 모델의 예측 결과를 Table 3.7에 나타내었다. 학습된 5개의 랜덤 포 레스트 모델의 결과를 Case 별로 분석하였다. 신뢰구간은 P10과 P90의 차이를 의 미하며 100개의 테스트 데이터에 대해 계산한 각각의 신뢰구간의 평균을 사용하였

다. 불확실성구간이 작을수록 불확실성이 감소하여 모델의 예측성능이 더 향상된 것이라고 할 수 있다. Table 3.7을 통해 EUR_Pred2 모델의 Case 별 불확실성구간 은 입력 데이터에 생산량 데이터가 추가될수록 감소하는 것을 확인할 수 있다. P50 과 실제 값 사이의 상대오차는 100개의 테스트 데이터에 대해 계산한 값의 평균을 사용하였다. 상대오차는 Static Data만 사용한 Case 1에 비해 Case 4로 갈수록 생 산량 데이터가 추가됨에 따라 감소하는 것을 확인할 수 있다. 이 연구에서는 신뢰 구간 내에 존재하는 실제 값의 비율이 최소 80% 이상인 모델을 신뢰할 수 있다고 판단하였다. EUR_Pred2 모델의 경우 입력 데이터에 추가한 EUR_Pred1 예측 값의 영향으로 신뢰구간이 급격하게 감소하였다. 신뢰구간이 감소할수록 신뢰도가 향상 되는 것으로 판단할 수 있지만, 신뢰구간의 급격한 감소로 인해 신뢰구간 내에 포 함되는 실제 값의 비율이 80% 이하로 줄어들어 신뢰할 수 있는 결과로 보기 어렵 다.

Figure 3.19와 3.20은 5개의 EUR_Pred2 모델 중 Model1의 예측 결과의 P10, P50, P90을 나타낸 그래프이다. Figure 3.19는 Case 1과 Case 2를, Figure 3.20은 Case 3과 Case 4를 나타내었다. 앞서 언급한 것처럼 입력 데이터에 생산량 데이터 를 추가하지 않은 Case 1에 비해 Case 4로 갈수록 P10과 P90사이의 불확실성구간 이 감소하는 것을 확인할 수 있다.

Table 3.7 Summary of EUR prediction model (EUR_Pred2).

EUR Pred2

Case 1 Case 2 Case 3 Case 4

Rate of data within the confidence interval(%)

Confidence interval¹⁾

Relative Error²⁾ (%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Rate of data within the confidence interval(%)

Confidence interval

Relative Error

(%)

Model 1

^1,685,375

31 59

^1,432,997

23.7 59

^1,215,336

20 67

^1,140,487

15.4

Model 2

^1,725,189

34.7 67

^1,457,192

23.3 66

^1,256,557

17.4 71

^1,100,453

14.5

Model 3

^1,707,703

26.2 55

^1,433,063

23.6 65

^1,277,834

16.9 62

^1,125,348

15.3

Model 4

^1,738,606

24.7 65

^1,460,336

19.7 69

^1,259,252

17.1 64

^1,177,549

15.9

Model 5

^1,676,390

29 61

^1,416,994

21.8 67

^1,255,656

17.4 63

^1,084,622

16.6

Mean

³⁾ 62.6

^1,706,653

29.12 61.4

^1,440,116

22.42 65.2

^1,252,927

17.76 65.4

^1,125,692

15.54

1) Confidence Interval : Interval between P90 and P10.

2) Relative Error(%) : Relative error between P50 and Real value.

3) Mean : Average of 5 Models.

Figure 3.19 Confidence interval of test data (EUR_Pred2 Model1), (a) Case 1 (b) Case 2.

Figure 3.20 Confidence interval of test data (EUR_Pred2 Model1), (a) Case 3 (b) Case 4.

Table 3.8은 EUR_Pred1의 5개의 모델 결과의 평균과 EUR_Pred2의 5개 모델 결 과의 평균을 비교한 것이다. 신뢰구간(불확실성구간)의 경우 EUR_Pred1 모델에 비 해 EUR_Pred2 모델에서 감소한 것을 확인할 수 있다. 이와 반대로 신뢰구간 내에 포함되는 실제 값의 비율은 EUR_Pred1 모델에 비해 EUR_Pred2 모델에서 감소한 것을 확인할 수 있다.

Table 3.8 Compare result between EUR_Pred1 and EUR_Pred2.

Case 1 Case 2 Case 3 Case 4

Rate of data within the confidence interval

(%)

Confidence interval¹⁾

Rate of data within the confidence interval

(%)

Confidence interval

Rate of data within the confidence interval

(%)

Confidence interval

Rate of data within the confidence interval

(%)

Confidence interval

EUR Pred1 Mean

²⁾

^2,820,416

83.6

^2,440,042

84.2

^1,952,631

83.6

^1,734,067

EUR Pred2 Mean

³⁾

62.6

^1,706,653

61.4

^1,440,116

65.2

^1,252,927

65.4

^1,125,692

1) Confidence Interval : Interval between P90 and P10.

2) EUR Pred1 Mean : Average of EUR_Pred1 5 Models.

3) EUR Pred2 Mean : Average of EUR_Pred2 5 Models.

EUR_Pred2 모델의 결과는 3.1에서 정의한 EUR_Pred1 모델의 결과에 비해 신뢰 구간이 크게 감소하였지만, 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이하로 감소하여 신뢰도의 향상이 이루어졌다고 보기 어렵다. 따라서 EUR_Pred2의 신뢰 구간 범위를 확장(extension)하여 신뢰구간 내에 포함되는 실제 값의 비율을 증가 시키고, EUR_Pred1 모델보다 불확실성구간이 감소하는 범위를 찾아내기 위한 분 석을 수행하였다. 신뢰구간의 범위 확장은 아래와 같은 방법으로 수행하였다.

1. 신뢰구간의 확장 범위(



_{%)를 설정한다.}

2. P90 값을



_{%만큼 감소시킨다.}

3. P10 값을



_{%만큼 증가시킨다.}

4. (증가된 P10)–(감소된 P90)을 계산하여 새로운 신뢰구간으로 한다.

EUR_Pred2 모델의 신뢰구간 확장 범위는 5 %부터 10 %까지 1 %단위로 증가 시키며 수행하였다. Model 1부터 Model 5까지 5개 모델의 신뢰구간 확장 결과를 각각 Table 3.9, 3.10, 3.11, 3.12, 3.13에 나타내었다. EUR_Pred1과 EUR_Pred2 모 델의 예측 결과를 비교하였고 확장 범위에 따라 확장된 EUR_Pred2 모델의 신뢰구 간의 범위와 신뢰구간 내에 포함되는 실제 값의 비율을 나타내었다.

Table 3.9는 Model 1의 신뢰구간 확장 결과를 나타낸 것이다. Static data를 입력 데이터로 사용한 Case 1과 Static data에



_ 데이터를 추가한 Case 2의 경우, 신 뢰구간을 10 %까지 확장하여도 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이 상으로 증가하지 않았다. 입력 데이터로 Static data와



_

∼

_를 사용한 Case 3 은 8 % 이상 확장하였을 때 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이상 으로 증가하였다. 생산량 데이터를



_

∼

_까지 사용한 Case 4는 6 %이상 확장 하였을 때 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이상으로 증가하였으나 10 % 확장할 경우 EUR_Pred2 모델의 불확실성구간의 범위가 EUR_Pred1 모델에 비해 3.5 % 증가하게 되므로 신뢰도가 향상되었다고 보기 어렵다.

Table 3.10은 Model 2의 신뢰구간 확장 결과를 나타낸 것이다. Case 1과 Case 2 의 경우 신뢰구간을 10 %까지 확장하여도 신뢰구간 내에 존재하는 실제 값의 비 율이 80% 이상으로 증가하지 않았다. Case 3의 경우 7 % 이상 확장 하였을 때 신 뢰구간 내에 포함되는 실제 값의 비율이 80% 이상으로 증가하고 불확실성구간의 범위 또한 감소한 것을 확인할 수 있다. Case 4는 5 % 이상 확장하였을 때 신뢰구 간 내에 포함되는 실제 값의 비율이 80% 이상으로 증가하였으나 10 % 확장하였을 때의 신뢰구간의 범위가 EUR_Pred1 모델에 비해 2.4 % 증가한 것을 확인할 수 있 다.

Table 3.11은 Model 3의 신뢰구간 확장 결과를 나타낸 것이다. Case 1의 경우 신뢰구간을 10 % 증가시켰을 때 신뢰구간 내에 포함되는 실제 값의 비율이 80%로 증가하였다. Case 2는 신뢰구간을 10 %까지 확장하여도 신뢰구간 내에 포함되는

실제 값의 비율이 80% 이상으로 증가하지 않았다. Case 3는 8 % 이상 확장하였을 때 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이상으로 증가하였다. Case 4의 경우 6 % 이상 확장하였을 때 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이 상으로 증가하였으나 10 % 확장하였을 때의 불확실성구간의 범위가 EUR_Pred1 모델에 비해 5 % 증가한 것을 확인할 수 있다.

Table 3.12는 Model 4의 신뢰구간 확장결과를 나타낸 것이다. Case 1은 7 % 이 상, Case 2의 경우 5 %이상 확장하였을 때 신뢰구간 내에 포함되는 실제 값의 비 율이 80% 이상으로 증가하였다. Case 3와 Case 4의 경우 7 % 이상 확장하였을 때 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이상으로 증가하였으나 Case 4 의 신뢰구간을 10 % 확장 하였을 때의 불확실성구간의 범위가 EUR_Pred1 모델에 비해 2.4 % 증가한 것을 확인할 수 있다.

Table 3.13은 Model 5의 신뢰구간 확장 결과를 나타낸 것이다. Case 1의 경우 9

% 이상 확장하였을 때 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이상으로 증가하였으며, Case 2의 경우 6 % 이상 확장하였을 때 80% 이상으로 증가한 것을 확인할 수 있다. Case 3은 5 % 이상 확장하였을 때 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이상으로 증가하였다. Case 4의 경우 7 % 이상 확장하였을 때 신뢰구간 내에 포함되는 실제 값의 비율이 80% 이상으로 증가하였으나 9 % 이상 확장할 경우 불확실성구간의 범위가 EUR_Pred1 모델에 비해 증가하는 것을 확인 할 수 있다.

Model 1부터 Model 5까지 5개의 모델을 비교한 결과 Case 1과 Case 2의 경우 신뢰구간을 10% 까지 확장하여도 신뢰구간 내에 포함되는 실제 값의 비율이 80%

이상이 되지 않는 모델이 있어 EUR_Pred2 모델의 신뢰도가 향상되었다고 보기 어 렵다. 하지만 Case 3와 Case 4의 경우 5개의 모델에서 신뢰구간을 8 % 확장하였 을 때 신뢰구간 내에 존재하는 실제 값의 비율이 80% 이상으로 증가하고, 불확실 성구간 또한 감소하여 EUR_Pred1 모델에 비해 EUR_Pred2 모델의 신뢰도가 더 향상되었다고 판단할 수 있다.

Table 3.9 Confidence interval extension result (Model 1).

Model 1

Case 1 Case 2 Case 3 Case 4

Rate of data within the confidence interval(%)

Confidence interval

Rate of data within the confidence interval(%)

Confidence interval

Rate of data within the confidence interval(%)

Confidence interval

Rate of data within the confidence interval(%)

Confidence interval

EUR_

Pred1

81 2,769,207 81 2,415,951 81 1,894,653 81 1,747,886

EUR_

Pred2

60 1,685,375 59 1,432,997 59 1,215,336 67 1,140,487

Extension

¹⁾

Rate of data within the confidence interval

Confidence interval

Rate of change (%)

²⁾

Rate of data within the confidence interval

Confidence interval

Rate of change

(%)

Rate of data within the confidence interval

Confidence interval

Rate of change

(%)

Rate of data within the confidence interval

Confidence interval

Rate of change

(%)

5 %

^2,006,846

-27.5 69

^1,758,481

-27.2 74

^1,549,191

-18.2 80

^1,474,338

-15.7

6 %

^2,071,140

-25.2 72

^1,823,577

-24.5 74

^1,615,962

-14.7 82

^1,541,109

-11.8

7 %

^2,135,434

-22.9 74

^1,888,674

-21.8 77

^1,682,733

-11.2 85

^1,607,879

-8.0

8 %

^2,199,728

-20.6 76

^1,953,771

-19.1 82 ^1,749,504 -7.7 87 ^1,674,649 -4.2

9 %

^2,264,022

-18.2 78

^2,018,868

-16.4 83

^1,816,275

-4.1 87

^1,741,420

-0.4

10 %

^2,328,316

-15.9 78

^2,083,964

-13.7 83

^1,883,046

-0.6 88

^1,808,190

+3.5

1) Extension : range of the extension of the confidence interval.

2) Rate of change : percentage of the decrease or increase Confidence interval of EUR_Pred2 compared to the EUR_Pred1.

문서에서 저작자표시 (페이지 52-68)