Deep Deterministic Policy Gradient

(1)

강화학습 1 팀 김성훈조민성 김종헌정성헌

Deep Deterministic

Policy Gradient

(2)

DQN 모델의 한계

(3)

DQN 모델의 한계

• 해당 모델은 high sensory RL 을 구현한 최초의 모델

• 모델의 출력은 Discrete action

• low dimension action 중 가장 좋다고 판단되는 것은 선택

• 실제와 유사하게 control process 를 목전으로 할 시 문제 발생

(4)

• 기존 아이디어 : high dimension sensor 를 통해 입수한 정보를 PID 제어입력으로 사용

• 따라서 PID 제어입력과 관측한 상황이 비선형적

• 이전에 설명하였듯 NN 을 통해 구현한 greedy policy 는 출력의 variance 가 매우 큼

• 관측한 상황에 선형적인 제어입력이 요구되어도 불 연속적인 제어입력

• 이런 결과는 물리 system 에선 매우 불안정한 변화를 야기함 .

(5)

• 개선의 개선을 거듭한 제어기법

• 액션에 따라 기존 PID input 을 조 금씩 변화시키는 방법 선택

• 최대한 continuous action 과

유사한 discrete action 을 구현

하고자 노력 …

(6)

이럴 바엔 그냥 연속적인 action 을 사용하자 ! 새로운 모델의 필요성 !

(7)

DDPG 란 ?

(8)

DDPG

(9)

DDPG

• 이 또한 policy gradient 방법론 .

• 그 중에서도 행동하는 것 (actor) 과 평가하는 것 (critic) 이 따로따로 존재 하는 actor-critic 방법론

• 네트워크의 output layer 를 구성하지 않고 , action 을 스칼라 값으로 결 정하여 출력하도록 구성 -> DPG

• DPG 와 이전에 DQN 을 합쳐 심층신경망에서 학습을 안정시킨 것이 이 아 이디어의 핵심 .

(10)

DDPG

• Policy network 의 기울기를 알기 위해선 위 계산 과정이 필요하다 .

• 확률이 아닌 scalar action 의 경우엔 로그연산이 불가능 함 .

• 새로운 목적함수를 사용해야만 한다 .

(11)

DDPG

• DDPG 의 목적함수 :

각각의 스테이트에서 취하는 액션의 기대 값들을 스테이트 전체에 대하여 적 분한 값 .

즉 policy 가 env 전체에 대하여 가지는 기대값 .

Actor(policy) network 의 parameter : Critic (Q) network 의 parameter :

•

(12)

DDPG

• 상황이 주어지면 행동을 결정하는 Actor

• 상황과 행동이 주어지면 가치를 평가하는 Critic

• Actor 에서 결정된 행동은 다시 Critic 의 input 으로 사용된다 .

• Critic 은 TD target 과 현재 예측값 사이의 MSE 를 목적함수로 그 기울기를 구해 w (Critic 의 parameter) 를 최적화시킴

• 즉 Critic network 의 경우엔 s 와 a 가 주어질 때 보다 더 잘 예측 하는 방향으로 학습

(13)

DDPG

• Actor 의 학습방향 : theta( actor 의 parameter) 가 변화할 때 Cr itic network 의 예측값이 커지는 방향으로 최적화 .

• W 로 평가되는 action value function 이 action 의 파라미터인 t heta 가 변화할 때 좋은 쪽으로 바뀌도록 학습시켜 나가자 .

• Critic network 의 parameter 가 w 이긴 하지만 theta 가 바뀌면 action 이 바뀌어 Critic network 의 input 이 바뀌므로 두 네트워 크의 parameter 는 상관관계가 존재한다 .

•

(14)

DDPG

• 여기에 추가적으로 심층신경망을 사용하기 위해 DQN 의 아이디어 들을 접목시킴

• Actor 가 episode 를 진행하면 얻은 정보들을 저장하는 experienc e batch 를 학습시킬 때 무작위로 불러오는 방법

• Critic 을 학습시킬 때 사용하는 Q target 의 variance 를 낮추는 fi xed target network 와 유사하게 slow target update 사용 .

(15)

DDPG

DDPG 에서 사용되는 Actor – Critic network 예시