• 검색 결과가 없습니다.

Deep Deterministic Policy Gradient

N/A
N/A
Protected

Academic year: 2022

Share "Deep Deterministic Policy Gradient"

Copied!
15
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

강화학습 1 팀 김성훈조민성 김종헌정성헌

Deep Deterministic

Policy Gradient

(2)

DQN 모델의 한계

(3)

DQN 모델의 한계

• 해당 모델은 high sensory RL 을 구현한 최초의 모델

• 모델의 출력은 Discrete action

• low dimension action 중 가장 좋다고 판단되는 것은 선택

• 실제와 유사하게 control process 를 목전으로 할 시 문제 발생

(4)

DQN 모델의 한계

기존 아이디어 : high dimension sensor 를 통해 입수한 정보를 PID 제어입력으로 사용

따라서 PID 제어입력과 관측한 상황이 비선형적

이전에 설명하였듯 NN 을 통해 구현한 greedy policy 는 출력의 variance 가 매우

관측한 상황에 선형적인 제어입력이 요구되어도 불 연속적인 제어입력

이런 결과는 물리 system 에선 매우 불안정한 변화를 야기함 .

(5)

DQN 모델의 한계

• 개선의 개선을 거듭한 제어기법

• 액션에 따라 기존 PID input 을 조 금씩 변화시키는 방법 선택

• 최대한 continuous action 과

유사한 discrete action 을 구현

하고자 노력 …

(6)

DQN 모델의 한계

이럴 바엔 그냥 연속적인 action 을 사용하자 ! 새로운 모델의 필요성 !

(7)

DDPG 란 ?

(8)

DDPG

(9)

DDPG

• 이 또한 policy gradient 방법론 .

• 그 중에서도 행동하는 것 (actor) 과 평가하는 것 (critic) 이 따로따로 존재 하는 actor-critic 방법론

• 네트워크의 output layer 를 구성하지 않고 , action 을 스칼라 값으로 결 정하여 출력하도록 구성 -> DPG

• DPG 와 이전에 DQN 을 합쳐 심층신경망에서 학습을 안정시킨 것이 이 아 이디어의 핵심 .

(10)

DDPG

• Policy network 의 기울기를 알기 위해선 위 계산 과정이 필요하다 .

확률이 아닌 scalar action 의 경우엔 로그연산이 불가능 함 .

새로운 목적함수를 사용해야만 한다 .

(11)

DDPG

• DDPG 의 목적함수 :

각각의 스테이트에서 취하는 액션의 기대 값들을 스테이트 전체에 대하여 적 분한 값 .

즉 policy 가 env 전체에 대하여 가지는 기대값 .

Actor(policy) network 의 parameter : Critic (Q) network 의 parameter :

(12)

DDPG

• 상황이 주어지면 행동을 결정하는 Actor

• 상황과 행동이 주어지면 가치를 평가하는 Critic

• Actor 에서 결정된 행동은 다시 Critic 의 input 으로 사용된다 .

• Critic 은 TD target 과 현재 예측값 사이의 MSE 를 목적함수로 그 기울기를 구해 w (Critic 의 parameter) 를 최적화시킴

• 즉 Critic network 의 경우엔 s 와 a 가 주어질 때 보다 더 잘 예측 하는 방향으로 학습

(13)

DDPG

• Actor 의 학습방향 : theta( actor 의 parameter) 가 변화할 때 Cr itic network 의 예측값이 커지는 방향으로 최적화 .

• W 로 평가되는 action value function 이 action 의 파라미터인 t heta 가 변화할 때 좋은 쪽으로 바뀌도록 학습시켜 나가자 .

• Critic network 의 parameter 가 w 이긴 하지만 theta 가 바뀌면 action 이 바뀌어 Critic network 의 input 이 바뀌므로 두 네트워 크의 parameter 는 상관관계가 존재한다 .

(14)

DDPG

• 여기에 추가적으로 심층신경망을 사용하기 위해 DQN 의 아이디어 들을 접목시킴

• Actor 가 episode 를 진행하면 얻은 정보들을 저장하는 experienc e batch 를 학습시킬 때 무작위로 불러오는 방법

• Critic 을 학습시킬 때 사용하는 Q target 의 variance 를 낮추는 fi xed target network 와 유사하게 slow target update 사용 .

(15)

DDPG

DDPG 에서 사용되는 Actor – Critic network 예시

참조

관련 문서

l 핸드쉐이크 프로토콜: 클라이언트와 서버가 통신에 사용할 암호 및 인증 알고리즘과 공유 키를 결정하기 위한 암호 스위트를 교환하며, 인증서를 이용하여

l 암호문의 통계적 특성과 암호 키 값과의 관계를 가능한 복잡하게 하는 l 암호문의 통계적 특성과 암호 키 값과의 관계를

따라서 는 전사준동형사상이다.. 따라서 보조정리는 성립 한다..

l ISAKMP 메시지: 헤더, 보안연계 페이로드, 제안 페이로드(ISAKMP), 트랜스폼 페이로드(오클리 l ISAKMP 메시지: 헤더, 보안연계 페이로드,

q 등록기관: 인증서 신청자의 신원 확인 및 인증서 등록을 대행하는 기관 q 인증기관: 인증서를 발행하는 기관. q 인증기관:

§ 고속의 처리를 요구하는 IP 보안 프로토콜(IPSec)에 사용 l 암호키 관리: 네트워크에서 소요되는 전체 키의 개수가 많음 l 암호키 분배: 사전에 비밀키가 안전하게

위하여 연결설정(SYN) 요청 à 위조된 IP 주소로 부터 응답(ACK)을 받을 때까지 대기 q 위조된 대량의 연결설정(SYN) 요청 패킷이 수신되면 서버의 대기

 Students needing additional information about grading policies and procedures should meet with their faculty advisor, Executive Director/Chairperson or a