• 검색 결과가 없습니다.

실험 절차

문서에서 저작자표시 (페이지 83-93)

A. 실험과정 및 결과

3. 실험 절차

본 연구를 실험하기 위해 준비된 1000개 계량기의 1개월분의 데이터를 실험대상 으로 한다. 또한 결측 실험을 위해서 결측이 없는 원본 데이터에서 임의로 데이터 를 제거하여 실험한다. 이때 실험은 결측 길이에 따른 비교실험과 선행 연구된 보 정법과의 비교실험으로 진행된다. 선행 연구된 데이터 보정법인 선형보정법, ARIMA 예측 보정법, 유사도 기반 보정법, CNN-LSTM결합 예측 보정법 등을 실험한다.

또한 가중치적용의 장점을 확인하기 위해 유사도 기반 보정법에 가중치를 적용한 유사도 가중치적용 보정법과 마지막으로 본 논문에서 제안하는 CNN-LSTM결합 가중치적용 보정법을 모두 실험하고 그 결과를 DB에 저장하고 비교 분석한다.

a. 선형보정법

[그림 5-2]는 선형보정법의 실험 절차이다. 먼저 첫 번째 계량기의 결측 전·후 데 이터, 즉 결측 전 데이터인 7월 24일 23:00분 누적 전력사용량 데이터와 결측 후 데이터인 7월 26일 00:00분 누적 전력사용량 데이터를 조회한다. 그리고 식(5-1)처 럼 결측 후 나타나는 첫 번째 데이터()에서 결측 전 마지막 데이터()를 빼면 결측 구간의 총 사용량이 되고 이를 결측 구간 개수( )로 나누면 평균 사용량 이 된다.



 

  

 

(5-1)

그리고 식(5-2)처럼 평균사용량을 기반으로 결측 전 마지막 데이터()에 결측 구간의 평균사용량()을 더하면 첫 번째 결측 시간의 누적 전력사용량 데이터 ()가 된다. 이렇게 결측 개수만큼 반복 수행하여 그 결과를 DB에 저장한다.



 

 



  



(5-2)

68

-실험대상 1000개 계량기를 반복수행하여 각 계량기별 결측 구간의 예측 결괏값 을 저장한다.

[그림 5-2] 선형보정법 실험 절차

b. ARIMA 예측 보정법

[그림 5-3]은 ARIMA(Autoregressive Integrated Moving Average) 모델을 활용 해서 결측 구간의 누적 전력사용량을 예측하는 실험 절차이다. 먼저 결측 직전 7월 1일 0시부터 7월 24일 23시까지의 데이터를 조회한다. 그리고 선행 연구에서는 p, d, q값을 하나의 특정 계량기를 대상으로 결정했다면 본 논문에서는 더 좋을 결과 를 얻고자 auto_arima를 이용해서 p, d, q값을 각 계량기별로 결정을 하고 ARIMA 모델을 학습시켜 사용량을 예측하려고 한다. auto_arima 알고리즘은 AIC( Akaike’s Information Criterion)가 최소가 되는 모델을 자동으로 선택하게 되는데[101,102], 이 AIC는 식(5-3)로 나타낼 수 있다.

                

(5-3)

여기에  은 데이터의 가능도,  ≠  이면    이고,    이면    이다.

또한 ARIMA 모델은 전처리를 하지 않고 바로 누적 전력사용량을 예측하게 되므 로 다른 보정법 보다는 빠르게 수행하고 결과를 얻을 수 있다. 먼저 결측 직전 7월 1일 0시부터 7월 24일 23시까지의 데이터를 조회한다. auto_arima 알고리즘을 이용 하여 p, d, q값을 자동으로 결정하고 결측 구간의 누적 전력사용량을 예측하여 저 장한다. 이렇게 실험대상 1000개 계량기를 반복수행하여 각 계량기별 결측 구간의 예측 결괏값을 저장한다.

[그림 5-3] ARIMA 예측 보정법 실험 절차

c. 유사도 기반 보정법

[그림 5-4]는 유사도 기반 보정법의 실험 절차이다. 해당 계량기의 전력사용량

70

-패턴이 결측 구간과 가장 유사한 날짜를 찾기 위해 하루 전 일자()와 유사한 날 짜()를 찾아서 유사일 하루 뒤 날짜의 시간별 구간 전력사용량을 기반으로 데이 터를 보정 하려고 한다. 먼저 첫 번째 계량기의 전일 24시간 데이터를 조회한다.

전일을 기준으로 앞으로 나가면서 1일분씩 같은 시간별 구간 전력사용량으로 식(5 -4)처럼 유클리드 거리 유사도를 계산한다.

 

  

 

    

 

 

  

 

 

(5-4)

그래서 가장 유사한 날짜를 찾고, 유사한 날짜 다음날(참조일)의 시간별 구간 전 력사용량을 조회한다. 그리고 식(5-5)처럼 유사한 날짜 다음날(참조일)의 시간별 구 간 전력사용량을 기반으로 결측 전 마지막 데이터()에 참조일의 같은 시간 구간 전력사용량()을 합산하면 첫 번째 결측 시간의 누적 전력사용량 데이터()가 된다. 이렇게 결측 개수만큼 반복 수행하여 그 결과를 DB에 저장한다.

 

 

 

  

 

(5-5)

실험대상 1000개 계량기를 반복수행하여 각 계량기별 결측 구간의 예측 결괏값 을 저장한다.

[그림 5-4] 유사도 기반 보정법 실험 절차

d. 유사도 가중치적용 보정법

[그림 5-5]는 유사도 가중치적용 보정법의 실험 절차이다. 이 실험은 유사도 기 반 보정법과 같이 과거 유사한 날짜를 찾아서 참조일을 선택한다. 이를 1차 예측이 라고 하며, 1차 예측한 데이터에 가중치를 적용한 2차 예측, 그리고 2차 예측한 시 간별 구간 전력사용량 기반으로 누적 전력사용량을 계산한다.

결측 구간의 시간별 구간 전력사용량 예측은 실험(c)에서와 같은 방법으로 진행 한다. 그리고 1차 예측된 결과를 기반으로 가중치를 적용해야하기 때문에 결측 전·

후 데이터를 조회한다. 식(5-6)처럼 결측 후 데이터()에서 결측 전 데이터()를 빼면 결측 구간의 총 사용량이 된다. 여기에 예측된 구간 전력사용량의 각 시간별 비율을 곱하면 가중치가 적용된 2차 예측결과가 된다.

72

-

   

 

 × 

  

(5-6)

그리고 식(5-7)처럼 최종 예측된 시간별 구간 전력사용량()을 기반으로 결측 전 마지막 데이터()에 예측된 같은 시간 구간 전력사용량()을 더하면 첫 번째 결측 시간의 누적 전력사용량 데이터()가 된다. 이렇게 결측 개수만큼 반복 수행 하여 그 결과를 DB에 저장한다.

 

 

  

(5-7)

실험대상 1000개 계량기를 반복수행하여 각 계량기별 결측 구간의 예측 결괏값 을 저장한다.

[그림 5-5] 유사도 가중치적용 보정법 실험 절차

e. CNN-LSTM결합 예측 보정법

선행 연구에서는 장단기메모리순환신경망(LSTM; Long Short-Term Memory) 예측 보정법을 사용했으나 본 논문에서는 선행 딥러닝 알고리즘보다 개선시킨 CNN-LSTM결합한 모델을 사용해서 실험하고자 한다. 딥러닝 모델의 학습 파라메 터인 loss function, optimizer, epoch개수는 데이터 분석 및 모델 개발 시에 결정하 였으므로 결정된 하이퍼파라미터를 기준으로 실험을 진행한다.

[그림 5-6]은 CNN-LSTM결합 모델을 만들어서 결측 구간의 누적 전력사용량을 예측하는 실험 절차이다. 먼저 결측 직전 7월 1일 0시부터 7월 24일 23시까지의 데 이터를 조회한다. 그리고 전처리를 통해 구간 전력사용량을 계산하여 딥러닝 모델 에 입력하여 학습시킨다. 학습된 모델을 기반으로 25일 0시부터 23시까지의 시간별

74

-구간 전력사용량을 예측한다. 그리고 식(5-8)처럼 시간별 -구간 전력사용량을 기반 으로 결측 전 마지막 데이터()에 예측한 같은 시간 구간 전력사용량()을 더하 면 첫 번째 결측 시간의 누적 전력사용량 데이터()가 된다. 이렇게 결측 개수만 큼 반복 수행하여 그 결과를 DB에 저장한다.

 

 

 

  

 

(5-8)

실험대상 1000개 계량기를 반복수행하여 각 계량기별 결측 구간의 예측 결괏값 을 저장한다.

[그림 5-6] CNN-LSTM결합 예측 보정법 실험 절차

f. CNN-LSTM결합 가중치적용 보정법

[그림 5-7]은 본 논문에서 제안하는 CNN-LSTM결합 가중치적용 보정법의 실험 절차이다. 이 실험은 크게 딥러닝 모델로 1차 예측하고 가중치를 적용한 2차 예측, 그리고 2차 예측한 시간별 구간 전력사용량 기반으로 누적 전력사용량 계산한다.

결측 구간의 시간별 구간 전력사용량 예측은 실험(e)에서와 같은 방법으로 진행 한다. 그리고 1차 예측된 결과를 기반으로 가중치를 적용해야하기 때문에 결측 전·

후 데이터를 조회한다. 식(5-9)처럼 결측 후 데이터()에서 결측 전 데이터()를 빼면 결측 구간의 총 사용량이 된다. 여기에 예측된 구간 전력사용량의 각 시간별 비율을 곱하면 가중치가 적용된 2차 예측결과가 된다.

   

 

 × 

  

(5-9)

그리고 식(5-10)처럼 최종 예측된 시간별 구간 전력사용량()을 기반으로 결 측 전 마지막 데이터()에 예측된 같은 시간 구간 전력사용량()을 더하면 첫 번째 결측 시간의 누적 전력사용량 데이터()가 된다. 이렇게 결측 개수만큼 반복 수행하여 그 결과를 DB에 저장한다.

 

 

 

 

 

  

 

(5-10)

실험대상 1000개 계량기를 반복수행하여 각 계량기별 결측 구간의 예측 결괏값 을 저장한다.

76

-[그림 5-7] CNN-LSTM결합 가중치적용 보정법 실험 절차

문서에서 저작자표시 (페이지 83-93)

관련 문서