GRU 및 LSTM - 인공지능 딥러닝을 활용한 조류현상 예측기술 개발 및 활용방안

입력변수 가중 행렬 ^와 전 시점 은닉 노드 가중 행렬 ^는 모든 시점에서 같은 값이 다. 추정할 모수가 크게 줄어들기 때문에 과적합 문제를 효과적으로 완화할 수 있다. 최적화 알고리듬은 DMLP와 같은 ADAM 알고리듬 등을 이용한다. 그레이디언트 계산 알고리듬은 시간오류역전파(BPTT: Back Propagation Through Time) 알고리듬이다. 은닉 노드

^{   }은 가중행렬 _에 영향을 받으므로 최적화 과정을 통해 ^{ }값을 구하는 과정에서

_값이 변하면 ^{   }도 같이 변하게 된다. BPTT 알고리듬은 이렇게 복잡하계 얽혀 있는 노드 및 매개변수를 한꺼번에 고려한다. BPTT 알고리듬이 개발되기 전에는 지난 최적화 과정에서의 ^{   }값을 따로 저장하여 ^{ }를 계산하는 엘만 RNN 알고리듬을 사용하였다.

엘만 RNN은 순환신경망의 기본 가정을 완전히 반영하지 못한다. 그래픽카드의 발전 등 컴퓨터 계산 기술 발달에 따라 BPTT 계산을 어렵지 않게 할 수 있는 현대에는 엘만 RNN 알고리듬을 활용할 필요성이 크게 줄어들었다.

3) GRU 및 LSTM

BPTT 계산을 통한 단순 RNN 알고리듬은 상기하였듯 전 시점에서 가중치를 공유하기 때문에 경사 소멸(vanishing gradient) 문제가 있다. 알고리듬 스텝을 진행할수록 그레이 디언트 값이 0에 가까운 값으로 소멸하게 되어 최적화가 어려운 경우가 발생한다. 또한 장기 기억을 활용할 수 없다. 단순 RNN 알고리듬의 이런 단점을 보완하기 위해 고안된 대표적인 알고리듬으로 GRU와 LSTM이 있다. 기본 아이디어는 입력층 ^{ }에서 은닉층

^{ }으로, 은닉층 ^{   }에서 은닉층 ^{ }으로, 그리고 은닉층 ^{ }에서 출력층 ^{ }으로 알고리듬이 진행될 때 단순 RNN처럼 선형식으로 진행하지 않고 입출력 게이트를 확률적으 로 열고 닫는 식으로 조정하는 것이다. 최적 입출력 게이트 값 또한 알고리듬 과정에서 한꺼 번에 정한다.

GRU 구조를 도식화하여 그리면 <그림 3-5>와 같다.

자료: R2Rt, “Written Memories: Understanding, Deriving and Extending the LSTM”, 검색일: 2020.5.7.

<그림 3-5> GRU 구조

먼저 리셋 게이트 _와 업데이트 게이트 _를 계산한다. 시그모이드 활성함수를 통해 두 게이트는 0부터 1 사이의 값을 가지며, 이는 리셋 및 업데이트를 어느 정도 비율로 할 것인 지를 결정한다. 이후 리셋 게이트 이전 시점 은닉값 _{  }에 리셋 게이트를 반영한

_⊙_{  }과 입력노드 를 반영하는  를 더한다. 여기에 하이퍼볼릭탄젠트 활성함

수 를 취하여 갱신 후보 값 를 구한다. 최종 은닉 노드는 전 시점 은닉값은 업데이트 게이트 _만큼, 갱신 후보 값 _는 나머지   _만큼 반영하여 산출한다.

_ __{  } __ _

_ __{  } __ _

_  _⊙_{  }  _ 

_  _⊙_{  }   _⊙_

식 (3-8)

GRU보다 다소 복잡한 구조를 가지는 LSTM 알고리듬의 세부 구조는 <그림 3-6>과 같다.

자료: R2Rt, “Written Memories: Understanding, Deriving and Extending the LSTM”, 검색일: 2020.5.7.

<그림 3-6> LSTM 구조

_ __{  }____{  } _

_ __{  }____{  } _

_  _{  } _ 

_ _⊙_{  } _⊙ _

_ __{  } __ __{  } _

_ _⊙_

_  _

식 (3-9)

먼저 입력 게이트 _, 출력 게이트 _, 망각 게이트 _를 계산한다. 세 게이트는 시그모이

LSTM 분석을 수행하였다. 분석 결과 pH 및 수온을 이용하여 예측한 예측정확도는 각각 95.76%와 96.88%로 나타났다. Marndi and Patra(2020)는 Moving Window LSTM 모 델을 개발하여 5일 후의 클로로필a를 예측하였다. 이들은 2004년부터 2012년까지를 training 데이터 셋으로 구축하고, 2013년부터 2016년까지를 test 데이터 셋으로 구축하 였다. 2004년부터 2012년까지의 training 데이터 셋 중에 2009년부터 2012년까지를 window 기간으로 설정하여 앙상블 자료로 활용하였다. 분석 결과 LSTM의 correlation coefficient는 연도별(2013~2016년)로 각각 0.67, 0.29, 0.51, 0.23으로 나타났으며, Moving window LSTM의 correlation coefficient는 연도별로 각각 0.75, 0.80, 0.72, 0.72로 나타났다. 이는 Moving window LSTM이 training과 window 두 기간의 시계열 패턴을 오버랩하여 특징을 찾아내 예측 성능을 향상시켰다고 유추할 수 있다. Li et al.(2019)은 2017년 10월 5일부터 2018년 3월 5일 동안의 중국에 위치한 첸탕강의 pH, TP, DO, permanganate index를 BPNN, SVR, LSTM, GRU, SRN, RNNs-DS를 이용하 여 예측하였다. 설명변수를 활용하지 않았고, 각 오염물질의 과거 농도를 활용하여 분석을 경과학원(2011)에서는 가장 단순한 형태의 인공신경망 MLP(Multi Layer Perceptron)를 활용하여 대청호의 단기간 조류발생시기를 예측하였다. 한국정보화진흥원(2017)에서는 알

고리듬은 SVM(Support Vector Machine), 임의 나무(Random Forest), 엘만 순환신경 Gao(2011)가 있다. Rankovic et al.(2012)은 pH, 수온, 염화물, 총인, 아질산염(nitrites), 질산염(nitrates), 암모니아, 망간, 전기전도도를 입력데이터로 세르비아 Gruža 저수지의 Recurrent Unit), LSTM(Long Short Term Memory) 알고리듬을 적용하여 가양, 노량 진, 팔당 세 지역의 클로로필a 농도를 예측하였다. 추가로, 전통적인 통계적 방법을 활용한

노량진 15.35 15.31 14.15 11.58 9.75 10.71

관측위치 통계적 방법론 딥러닝

측정소 선형회귀 VAR DMLP RNN

단순RNN GRU LSTM

가양 24.21 24.18 19.75 17.29 15.7 16.19

전체 16.95 16.93 14.33 12.18 10.86 11.51

<표 3-1>의 계속

구분 저자 및 연도 연구방법론 변수 연구내용 surface salinity, Sea surface height

- 클로로필a를 예측하기 위해 Moving Window LSTM 모델 개발

- LSTM의 correlation coefficient는 연도별(2013~2016)로 각각 0.67, 0.29, 0.51, 0.23으로 나타났으나, Moving window LSTM의 correlation coefficient는 연도별로 각각 0.75, permanganate index를 BPNN, SVR, LSTM, GRU, SRN, RNNs-DS 를 이용하여 예측

- 네 가지 파라미터 모두 BPNN의 예측 성능이 가장 낮았으며, 분석에서 개발 한 RNNs-DS가 TP 및 permanganate index를 예측하는 데 있어 가장 성능 이 좋음

<표 3-2>의 계속

자료: 표에 기재된 선행연구를 기반으로 저자 작성.

문서에서 인공지능 딥러닝을 활용한 조류현상 예측기술 개발 및 활용방안 (페이지 57-65)