신경망 알고리즘 개요

임의의 비선형 시스템을 식별하기 위해서는 범용 함수 근사기(Universal Function Approximator)가 사용되며 신경망이 이 범용 근사기로서의 역할을 수 행할 수 있음이 밝혀졌다[121].

즉 부정확한 모델링에 의해 발생하는 비선형 특성을 갖는 불확실성을 실시간 으로 적응 보상하는데 신경망을 활용할 수 있다.

즉 신경망 제어는 알고 있는 시스템의 모델에 불확실성이 존재하거나 시변성 이 있거나 또는 시스템을 모르는 경우 활용될 수 있다. 모르는 플랜트를 오프라 인 학습에 의해 모델링하고 제어기를 설계할 시는 복잡한 시스템을 수학적으로 모델링할 필요가 없어서 설계비용이 절약되는 장점이 있다. 또한 부분적으로 알 고 있는 시스템의 불확실성을 보완하고자 하는 기존의 선형모델기반 적응 제어 에 비해 신경망제어는 뛰어난 적응능력을 가지고 있으며 적응된 정보가 저장되 는 특성으로 인하여 한번 적응된 상황에 대해 빠른 적응능력을 갖는다. 지금까 지는 주로 시스템 식별 및 오프라인 학습 제어에 신경망이 응용되었으며 최근 온라인 적응 학습 제어에 신경망을 도입하고자 하는 노력이 진행되고 있다.

대표적인 신경망으로는 피드포워드 신경망(Feed-forward Neural Network)과 방사형 기저함수망(Radial Basis Function Network)이 있다. 이 외에도 시그모 이드 형 신경망 모델로서 동적 신경망(Dynamic Neural Network), 순환신경망 (Recurrent Neural Network)등이 있으며, 국부 기저함수의 선형조합에 기반한 확률신경망(Probabilistic Neural Network)등이 있다. 이 외에도 모듈신경망, CMAC(Cerebellar Model Articulation Controller)등 다양한 형태의 신경망이 제 안되었다[122][123].

(1) 뉴런 모델과 신경망 구조

1980년대 이후 인공 신경망(Artificial Neural Network)모델에 대한 연구가 활발히 진행되어 왔다. 인공 신경망은 두뇌의 뉴런을 수학적으로 모델링 하는 것에서부터 출발한다. 두뇌는 뉴런이라고 불리는 매우 복잡하게 연결된 요소들 (하나의 요소 당 약 ^의 연결)이 무수히 모여서(약^개) 구성된다. 이러한 뉴런들은 수상 돌기(Dendrites), 세포체(Cellbody), 축색 돌기(Axon)의 세 가지 주요 구성 요소를 가지고 있다. 수상돌기는 전기적인 신호를 세포로 전달하는 신경 섬유의 나무와 같은 회로망이다. 세포는 입력되는 신호를 합하거나 한계치 를 설정한다. 축색 돌기는 하나의 긴 섬유로서 세포로부터 다른 뉴런으로 신호 를 전달한다. 세포의 축색돌기와 다른 세포의 수상돌기가 만나는 점은 시냅스 (Synapse)라고 불린다. [그림 3.11]은 두 개의 생물학적 뉴런을 간략화한 그림 이다.

[그림 3.11] 생물학적 뉴런의 형태

신경 구조는 일생을 통해 끊임없이 변화한다. 이러한 후천적인 변화는 시냅스 부분의 강화 또는 약화에 기인하는 것으로 알려져 있다.

뉴런의 간략화 된 수학적 모델은 [그림 3.12]와 같다. 생물학적 뉴런과 연관 시켜 보면 가중치  는 시냅스의 가중치에 해당하고 세포체는 덧셈과 전달함수

 에 해당하며 뉴런의 출력 는 축색돌기에 해당한다.

[그림 3.12] 단일 입력 뉴런

뉴런의 출력은 다음과 같이 계산된다.

      (3.1)

일반적으로 전달함수 는 설계자에 의해 선택되고, 가중치 와 바이어스 는 학습 규칙에 의해 조정된다. 전달함수는 뉴런이 해결해야 할 문제의 특징에 따 라 특정한 전달함수가 선택된다. 전달함수의 종류로는 Hard-Limit 전달함수, 선 형 전달함수, Log-Sigmoid 전달함수 등 여러 가지가 존재한다[124].

(2) 다층 신경망의 학습 규칙

David Rumelhart 등은 일반화 델타 규칙(Generalized Deltarule)이라고 불리 는 역전파 알고리즘(Backpropagation Algorithm)을 제안하였다[125]. 이것은 M.minsky와 S.papert가 상세히 분석한 퍼셉트론(Perceptron)모델의 제한점들을 극복했으며 이로써 십여 년간 침체했던 신경망 연구에 새로운 장을 열었다 [126].

다층 회로망에서 한 층의 출력은 다음 층의 입력이 된다. 이러한 작용을 나타 내는 식은

^{  }  ^{  }^{  }^ ^{  } for    ⋯   (3.2)

이고 여기서 은 회로망의 층수를 나타낸다. 첫 번째 층의 뉴런은 외부 입력 을 받으므로 ^ 이고, 마지막 층의 뉴런은 회로망의 출력이므로   ^으로 간주한다.

알고리즘에는 적절한 회로망 동작의 예들을 나타내는 집합이 주어진다.



^ _



^



^_



^{ ⋯}



^_



(3.3)

_는 신경망의 입력이고 는 목표 출력이다. 각각의 입력이 신경망에 입력됨 과 동시에 신경망의 출력은 목표 값과 비교 된다. 학습 규칙은 신경망의 출력이 목표 값에 근접하도록 신경망의 가중치와 바이어스를 조절한다. 학습 알고리즘 은 평균제곱오차를 최소화하기 위해 회로망 파라미터를 조정한다.

  



  



_^



  



_ _^ (3.4)

여기서  는 모든 가중치와 바이어스를 포함하는 벡터이다. 만약 회로망이 여

  _{  }



^ ^^^^^^_{  }



^ ^^^{ }^^^^^^{ }^ (3.4)

평균제곱오차(Mean Square Error)를 확률 근사 기법을 통해 다음과 같이 근사 화 할 수 있다.

     ^     ^ (3.5)

식 (3.5)를 위한 최급강하(Steepest Decent)알고리즘은 다음과 같다.

_{ }^    _{ }^   _{ }^



(3.6)

_^    _^   _^



(3.7)

여기서 는 학습률(Learning Rate)이다. 오차가 은닉층 가중치의 명확한 함수 가 아니므로 편도함수 부분이 쉽게 계산되지 않는다. 이는 다음의 연쇄규칙을 이용하여 구할 수 있다.

_{ }^



 _^



× _{ }^

_^

(3.8)

_^



 _^



× _^

_^

(3.9)

이 편도함수를 계산하면 근사적 최급강하 알고리즘을 다음과 같이 나타낼 수 있다.

^    ^  ^^{  }^ (3.10)

^    ^  ^ (3.11) 여기서

^  ^

  ^^^{  }^^{  } (3.12)

이다. 식(3.10)와 식(3.11)을 이용하여 가중치와 바이어스를 갱신하게 된다 [119].

즉 역전파 신경망 알고리즘은 에러가 출력노드로부터 내부노드로 역으로 전파 한다. 기술적으로 말하자면 역전파는 변경 가능한 가중치에 대해 회로망 에러의 기울기를 계산하는데 사용된다. 여기서 기울기는 에러를 최소화하는 가중치를 찾기 위한 확률적 기울기 하강(Gradient Descent)에서 사용된다.

문서에서 저작자표시 (페이지 60-67)