A Study on Load Distribution of Gaming Server Using Proximal Policy Optimization

Proximal Policy Optimization을 이용한 게임서버의 부하분산에 관한 연구^※

홍익대학교 일반대학원 게임학과

, 홍익대학교 게임학부

A Study on Load Distribution of Gaming Server Using Proximal Policy Optimization

Jung-min Park

, Hye-young Kim

, Sung Hyun Cho

Game Department, The Graduate School

, School of Games, Hongik University

2.3 부하분산의 요소

2.6 PPO(Proximal Policy Optimization)

3.1 부하분산(ProGReGA) 알고리즘을 이용한 부하분산

3.2 ml-agents를 이용한 부하분산

4. 구현 및 성능 평가

4.2 부하분산(ProGReGA) 알고리즘

4.3 제안기법 알고리즘

5. 결론 및 향후 연구방향

ACKNOWLEDGMENTS

A Study on Load Distribution of Gaming Server Using Proximal Policy Optimization

게임 프로그래밍

Received: Mar. 13. 2019 Revised: Apr. 16. 2019 Accepted: May. 7. 2019

Corresponding Author: Hye-Young Kim(Hongik University) E-mail: [email protected]

ISSN: 1598-4540 / eISSN: 2287-8211

*

**

**

*

**

A Study on Load Distribution of Gaming Server Using Proximal Policy Optimization

*

**

**

*

**

In this paper, we propose a load balancing agent using PPO(Proximal Policy Optimization) which is one of the methods from a greedy algorithm and Policy Gradient which is from Reinforcement Learning. The proposed load balancing agent is compared with the previous researches based on the simulation.

Keywords : Load balance(부하분산), Game server(게임서버), Reinforcement Learning

(강화학습)

부하 분산이란 네트워크 시스템에서 많은 사용 자들의 요청을 나누어 처리하는 것으로 수많은 사 용자들의 다양한 요청을 하나의 시스템에서 처리하 기 위해 필요한 기법이다[1].

Resource = M × H × B × T × P (eq.1)

M : 게임공간에서 처리되는 메시지 수 H : 각 메시지당 목적지 클라이언트 수 B : 목적지별 메시지별 요구 평균 대역폭 T : 패킷의 목적지 도달 시간

P : 메시지당 처리 프로세서 사이클 값

실제 MMORPG 서버에서 부하 분산 연구를 위

한 트래픽 수집이 어렵기 때문에 클라이언트 측

스위치에서 트래픽 수집을 하기도 한다. Eq.1 은

트래픽 계산의 한 방법을 보여준다. MMORPG의

특성상 접속자수, 시간대, 플레이어의 행동 패턴에

따른 패킷사이즈와 개수, 대역폭에 다양한 패턴을

보였다[3].

그래서 MMORPG 서버에 대해서는 일반적으로 맵 분산 방식의 연구가 많이 이루어지고 있다 [6,9,10,12,13].

W = Pn * S * ( N - 1) (eq.2)

이 가중치를 합산하는 방식으로 셀의 가중치 (Cw)를 계산할 수 있다.

Cw = W*N (eq.3)

이 가중치를 기준으로 맵 분산 부하분산을 동작 시킨다. 서버의 성능은 계산된 가중치로부터 예측 된 최대 부하에 맞추어 임계치를 설정한다.

보통의 게임 서버들이 50∼60퍼센트의 CPU 사용 률을 기본으로 유지하려한다. 이러한 서버의 최종 성능은 게임 기획, 유저규모, 컴퓨터 사양에 따른 유동적이기 때문에 일률적으로 나타내기는 힘들다.

MMORPG 서버의 성능을 단적으로 나타낼 요소는 동시 접속자 수를 기준으로 설정한다[6].

딥러닝이란 기계학습 분야의 한 갈래로 인간의

신경망을 흉내내서 일련의 동작을 학습하여 작동하

는 인공 신경망에서 발전한 분야로 [Fig. 1]과 같

이 인공신경망을 여러 층으로 쌓아서 이전 층의

출력을 다음 층의 입력으로 사용해 학습하는 방법

이다.

[Fig. 1] DNN(Deep Neural Network)

     ←                        

(eq. 4)

Eq.4 는 강화학습 알고리즘 중, SARSA알고리 즘을 나타내는 식이다. 각 상태의 집합 S가 존재하 고 결정자가 취할 수 있는 행동의 집합 A가 존재, 상태 S1에서 상태 S2로 어떤 시점 t에서 전이할 확률을 나타내는 변수

, 상태 전이가 일어났을 때 받을 수 있는 보상 R, 현재의 보상이 미래의 보상보다 중요한 정도를 나타내는 γ의 쌍이다.

[Fig. 2] Reinforcement Learning

강화학습의 한줄기인 Policy Gradient의 발전형 인 PPO는 agent가 환경과 상호작용을 통해 데이 터를 샘플링 하는 것과 확률적 기울기 상승을 사 용해 대리 목표 함수를 최적화 하는 것을 반복하 여 학습하는 기법이다.

[Fig. 3] PPO algorithm

[Fig. 3]은 PPO 알고리즘의 한 예를 보여준다.

한 번의 반복에서 모든 actor에 대해 정책

 를 따라 T번의 동작을 진행한다. 그 결과로 추정 보 상



 를 계산한다. 모든 actor의 동작이 끝나면 정책과 손실을 반복수와 미니배치의 크기로 최적화하여 정책을 갱신한다[7].

따라서 본 논문에서 화면의 픽셀 데이터가 아 닌 환경의 실제 데이터를 이용해 학습하고 간결하 고 고성능의 알고리즘 구현을 통해 최소한의 규칙 을 발견하고 규칙의 연관성을 발견하기 위해 PPO 를 적용하였다.

그리드 구조의 맵을 가진 MMOG 서버에서 부

하분산을 위한 Greedy 알고리즘을 사용한 기법이 다. 부하의 기준은 사용자 캐릭터의 상태 업데이트 빈도를 삼고, 합계를 이용해 분산 단위인 셀의 부 하 가중치로 사용한다.

셀(Cell) : 게임 월드를 일정한 크기로 나눈 단위 이다. 크기와 위치가 고정되어있고, 경계를 공유하는 셀을 서로 ‘인접’, ‘이웃’이라고 한다. 본 논문에서는 좌표상

의 크기를 가진 기본 단위이다.

구역(Region) : 연속적인 셀의 집합으로, 서버에 할당되는 기준이다.

서버 : 분산 게임서버의 노드이다. 하나의 구역 을 할당받는다.

셀 가중치 : 아바타 가중치의 합으로 나타낸다.

가상 환경에 존재하는 모든 아바타를 고려한다.

(eq.5)

구역 가중치 : 셀 가중치의 합으로 나타낸다. 서 버 가중치와 같다.

(eq.6)

월드 가중치 : 게임상의 모든 가중치의 합. 가상 환경의 분산에 사용되는 가중치로, 모든 셀의 가중 치 합이다.

(eq.7)

서버 처리량 : 업로드 대역폭을 기준으로 설정되 는 서버의 처리량이다. p(S) 로 표기한다.

시스템 처리량 : 시스템에 존재하는 서버의 처리 량 합으로 나타낸다.

로 표기한다.

자원 사용량 : 가중치/처리량으로 계산되는 변수 로, 서버, 월드 단위에서 사용되는 수치다.

[Fig. 4] ProGReGA Algorithm

분산 대상이 되는 셀을 선택하는 기준은 셀 사

이의 연결가중치로 결정되며 서버의 처리량을 넘지 않도록 분산한다.

[Fig. 5] ml-agents

[Fig. 6]에서와 같이 Ml-agents에서 학습한 모 델의 정책을 기반으로 행동을 선택하고 그에 따른 보상을 얻어 분산 결과에 대한 최종 보상과 합한 값으로 결과를 도출한다.

[Fig. 6] Proposed Algorithm process

^*

^**

^**

^*

^**

^*

^**

^**

^*

^**

W = Pn S * ( N - 1)* (eq.2)

Cw = WN* (eq.3)

_ 를 따라 T번의 동작을 진행한다. 그 결과로 추정 보 상

_

_ 를 계산한다. 모든 actor의 동작이 끝나면 정책과 손실을 반복수와 미니배치의 크기로 최적화하여 정책을 갱신한다[7].