• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Computer Engineering, SeoKyeong University, Korea.)



Domain reduction, Distributed reinforcement learning, Reinforcement learning, Transfer learning

1. 서 론

최근 인공지능기술이 발전하면서 여러 산업에 걸쳐서 인공지능 기술을 적용하려는 시도가 크게 늘고 있다. 특히 게임 산업의 경우, 인공지능기술을 적용해 단순히 고수준의 게임플레이가 가능한 모델(1,11)부터 게임 이용자의 흥미를 유지하기 위한 게임 밸런싱을 자동화하는 모델(2)로서 활용되기까지 산업 내 다양한 활용 가능성이 증대되고 있다. 인공지능기술이 적용된 모델들은 단순한 고전 알고리즘만으로는 달성하기 어려운 추상적이고 고차원적인 학습을 목표로 운용되는 경우가 많으므로 이러한 학습에 적합한 구조인 기계학습구조, 그중에서도 심층 신경망(Deep learning) 구조를 활용하는 것이 일반적이다. 또한, 학습 메커니즘적 측면에서는 추상적이고 고차원적인 학습을 목표로 하는 모델들의 학습 데이터는 사전에 정의가 어렵기 때문에 인게임(In-game) 환경에서 발생하는 데이터로 학습을 진행해야 하는데 이러한 학습 진행이 가능한 강화학습을 채택하는 것이 일반적이다.

강화학습(3)이란 순차적 행동 결정문제를 풀기 위해 환경(Environment)으로부터 제공되는 상태에 대해 행동의 주체가 되는 에이전트(Agent)가 일련의 행동을 시행하고 그에 따르는 보상 값을 기준으로 점진적 학습을 통해 누적 보상의 최대화를 목표로 하는 정책을 구성하는 학습방식을 말한다. 강화학습은 학습의 근간이 되는 상태표현과 보상체계가 정확할수록 더 우수한 성능을 나타내기 때문에 정확한 상태 인식과 적절한 보상체계를 기반으로 설계하는 것이 핵심이다. 게임 환경은 실세계보다 명확한 상태와 보상체계를 구성하기에 유리한 환경이기 때문에 강화학습방식을 적용하기에 적합한 환경이라고 할 수 있다.

본 논문에서는 행동을 지속해야 하고 행동 결정에 있어 시간제한이 있는 게임 환경 내에서 고득점을 하기 위한 게임플레이 행동 정책을 학습하는 방법을 제안한다. 특히나 그동안 게임 강화학습 연구에 있어 에이전트 신경망의 입력으로 Raw image를 채택하는 방법(4)(9)이 주를 이루었는데, 이러한 데이터는 비정형데이터 특성상 신경망 입력 도메인(Domain)의 크기가 커져 학습이 어렵고 학습 수렴 속도가 느린 단점이 있다. 따라서 본 논문에서는 학습 간 입력으로서 들어오는 Raw image를 YOLOv3(8) 객체 탐지기로 전처리하여 입력 도메인을 축소해 신경망의 학습성능과 학습 수렴 속도를 향상시키는 방법(12)을 제안한다. 추가로 전이 학습(5)의 원리를 차용하여 본 학습 이전에 환경정보를 기반으로 구축한 유사 환경에 대해서 사전학습을 진행함으로써 학습에 유리한 가중치를 선점하게 해 본 학습에서 신경망의 학습성능과 학습 수렴 속도를 향상시키는 방법과 현재 우수한 성능으로 주목받고 있는 멀티 에이전트 기반의 학습모델(10)인 A3C 모델을 채택하여 신경망의 학습성능과 학습 수렴 속도를 향상시키는 방법을 제안한다.

2. 행동 정책 학습모델 구조

2.1 학습대상 게임 소개 및 게임 진행방식

본 논문에서는 ‘Timberman’ 게임에 대해 강화학습 모델을 구축하려 한다. ‘Timberman’은 2014년 구글 플레이 앱스토어에 발매된 모바일 게임으로서 나무꾼이 나무를 베어가며 진행하는 벌목 콘셉트의 게임이다.

그림 1 게임 초기 상태와 1단계 진행상태(우측이동 결과)

Fig. 1 Initial state of the game and the progress state of step 1 (Result of moving to the right)

../../Resources/kiee/KIEE.2022.71.1.233/fig1.png

게임이 시작되면 그림 1의 좌측과 같이 중앙의 나무를 기점으로 좌우에 임의 개수의 나뭇가지들이 산재하여있다. 플레이어는 화면 하단에서 좌우 이동 중 하나의 행동을 선택하여 이동하며 나무를 벤다. 플레이어가 이동하여 나무를 베면 그림 1의 우측과 같이 상단에 있던 나뭇가지들이 한 층씩 내려오고 나뭇가지에 부딪히게 될 시 플레이어는 사망한다. 중앙의 붉은 칸은 체력을 나타내는데 시간이 지날수록 체력은 소진된다. 체력이 모두 소진되면 사망하게 되고 체력의 소진 속도는 시간이 지날수록 점차 가속화된다는 특징이 있다. 게임의 종착 상태는 존재하지 않으며 체력이 남아있는 동안 가능한 많은 나무를 베어 높은 점수를 획득하는 것이 목표이다.

2.2 행동 정책 학습모델 구조

본 논문에서는 게임플레이 행동 정책을 학습시키기 위해 게임 이미지에서 YOLOv3 객체 탐지기를 활용해 추출한 각 나뭇가지의 위치 정보를 상태로 활용하여 특정 행동에 대한 보상 값을 얻는 경험을 반복함으로써 학습하는 강화학습모델을 제안한다. 학습의 주체가 되는 에이전트의 학습모델은 A2C 모델을 적용하였다.

2.2.1 학습모델의 전체구조

행동 정책 학습모델은 게임 이미지로부터 얻은 게임 환경 내 상태를 통해 에이전트의 행동 정책을 학습하기 위한 학습구조로서 그림 2와 같은 구조를 갖는다.

그림 2 학습모델의 전체구조

Fig. 2 The overall structure of the learning model

../../Resources/kiee/KIEE.2022.71.1.233/fig2.png

에이전트는 게임 이미지에서 YOLOv3 객체 탐지기로 추출한 나뭇가지의 위치 정보를 기반으로 행동을 결정하며 게임 환경은 행동으로 인해 발생한 다음 상태를 기반으로 보상을 제공한다. 에이전트는 환경과의 상호작용을 지속하며 보상을 최대화하는 방향으로 학습한다.

2.2.2 A2C(Advantage Actor-Critic)

본 논문에서 적용하는 에이전트의 학습모델인 A2C(6)모델은 그림 3과 같은 Actor-Critic(7) 모델의 구조를 활용함과 동시에 Update target으로 선택한 행동의 행동가치함숫값(이하 Q-value)과 상태가치함숫값(이하 V-value)의 차이인 Advantage 값을 활용한다는 것이 특징이다. 이렇게 되면 두 값의 격차만큼의 값만 Update target으로서 반영하기 때문에 분산이 낮아진다는 장점이 있다.

그림 3 액터 신경망(좌측)과 크리틱 신경망(우측)

Fig. 3 Actor network and Critic network

../../Resources/kiee/KIEE.2022.71.1.233/fig3.png

2.2.3 상태와 행동 정의

상태는 제공된 게임 이미지를 가로축으로 2분할, 세로축으로 7분할 하여 얻은 14개의 격자 공간 중 상단부터 6개 층, 총 12개의 격자 공간에 대한 나뭇가지의 위치 정보로 구성한다. 이러한 게임 환경의 상태정보를 나타내는 상태벡터의 구성은 표 1과 같다. 표 1에서 나타낸 상태벡터의 각 요소는 그림 4와 같이 게임 이미지를 가상으로 나누는 축 중에서 세로축의 층계 별로 각 층 내에 존재하는 나뭇가지의 위치 정보를 나타낸다. 상태정보는 –1, 0, 1로 3진화 시켜 저장하는데 나뭇가지가 나무줄기를 기점으로 좌측에 존재하는 경우 –1, 존재하지 않는 경우 0, 우측에 존재하는 경우 +1로 그 값을 정한다. 객체 탐지와 더불어 3진화 기법을 적용하여 상태벡터를 구성함으로써 기존의 픽셀 수 1,440,000개($가로 900\times 세로 1600$)의 변수를 6개로 축소시켜 신경망 입력의 도메인 축소와 그로 인한 학습성능 및 학습 수렴 속도를 향상시키고자 하였다.

행동의 선택지는 좌측으로 이동하여 나무 베기와 우측으로 이동하여 나무 베기가 있다.

그림 4 특징점 추출을 위한 격자화

Fig. 4 Grid for feature point extraction

../../Resources/kiee/KIEE.2022.71.1.233/fig4.png

표 1 상태 벡터의 구성

Table 1 Components of state vector

Element

Description

Row 1

Branch’s location in row 1 area

Row 2

Branch’s location in row 2 area

Row 3

Branch’s location in row 3 area

Row 4

Branch’s location in row 4 area

Row 5

Branch’s location in row 5 area

Row 6

Branch’s location in row 6 area

3. 행동 정책 학습모델 구현 및 개선

이 장에서는 게임플레이 행동 정책을 학습하기 위해 구현한 내용을 보이고 성능개선을 위해 적용한 학습 방법으로서 전이 학습과 멀티 에이전트 기반 학습을 제안한다.

3.1 액터 신경망과 크리틱 신경망

그림 5는 액터 신경망(Actor network)의 구조이다. 에이전트는 표 1에서 보인 6개의 원소로 구성된 상태벡터를 기반으로 행동을 결정한다. 이러한 에이전트의 행동을 결정하는 액터 신경망은 6개의 입력 노드를 갖고 상태를 기반으로 각 행동에 대한 정책의 확률분포 값을 출력하기 위해 행동의 차원 수만큼인 2개의 출력 노드를 갖는다. 추가로 액터 신경망의 은닉층은 32개의 노드로 구성된 1개 층으로 구성한다.

그림 5 액터 신경망 세부 구조

Fig. 5 Detail structure of Actor network

../../Resources/kiee/KIEE.2022.71.1.233/fig5.png

그림 6은 크리틱 신경망(Critic network)의 구조이다. 에이전트는 가중치 업데이트의 방향과 정도를 결정하기 위해 표 1에서 보인 6개의 원소로 구성된 상태벡터를 기반으로 상태에 대해 가치추정을 해야 한다. 상태가치를 추정하는 크리틱 신경망은 6개의 입력 노드를 갖고 상태 가치추정값을 출력하기 위해 1개의 출력 노드를 갖는다. 크리틱 신경망의 은닉층은 32개의 노드로 구성된 1개 층으로 구성한다.

그림 6 크리틱 신경망 세부 구조

Fig. 6 Detail structure of Critic network

../../Resources/kiee/KIEE.2022.71.1.233/fig6.png

3.2 N-스텝 시간차 업데이트

학습 간 업데이트 방법으로는 N-스텝 시간차(N-step Temporal difference, TD(N)) 방법(3)을 적용한다. N-스텝 시간차 방법은 N개의 샘플 데이터로 신경망을 업데이트하는 방법인데 이는 에피소드가 종결되지 않아도 업데이트를 진행할 수 있으면서 몬테카를로(Monte Carlo) 방법보다 분산이 작고 시간차(Temporal difference, TD(0)) 방법보다 편향이 적어 보다 정확한 Update target을 계산할 수 있다는 장점이 있다.

3.3 보상함수 구조

에이전트는 주어진 상태에 대해서 행동을 통해 얻은 보상 값을 기준으로 두 신경망에 대한 업데이트를 진행한다. 업데이트 지표로써 활용되는 보상함수의 구조는 표 2와 같다. 표 2에서 나타난 보상함숫값의 타입(Type)에는 Basic과 Incentive 총 2가지가 있다. Basic 타입의 보상함숫값은 에피소드를 진행하며 행동을 통해 생존하였을 때 +0.5의 값을, 사망했을 때 –1의 값을 받는 기본 보상함숫값이다. Incentive 타입의 보상함숫값은 근처에 존재하는 나뭇가지에 의해 생존에 위협을 받는 상황에 대해서 생존하였을 때 추가로 받는 보상함숫값이며, 그 값을 +0.5의 값으로 정하였다.

표 2 보상함수 구조

Table 2 Structure of Reward function

Type

Case

Description

Basic

Survive

+0.5

Dead

-1

Incentive

Critical state

+0.5

3.4 T-A2C(Transfer learning-based A2C)

전이 학습(5)은 특정 태스크(Task)에 대해 학습을 진행했던 신경망을 옮겨와 새로운 문제에 대해 학습시킴으로써 신경망이 유사 문제에 대해 갖는 높은 적응성을 이용하여 빠른 학습 수렴을 목표로 하는 학습 방법을 말한다. 본 논문에서는 이러한 아이디어를 역이용하여 사전학습을 통한 학습모델의 궁극적인 학습성능 향상을 도모하는데, 2개의 A2C 학습모델을 구성하고 그중 하나의 에이전트를 본 환경에서의 학습 이전에 대상 게임과 유사한 환경에서 사전학습을 1,000회 진행하게 하여 본 학습에 유리한 가중치를 선점하게 하였다. 이러한 전이 학습 기법을 적용하여 신경망 파라미터의 학습성능 및 학습 수렴 속도를 향상시키고자 하였다.

3.5 A3C(Asynchronous Advantage Actor-Critic)

A3C(6)는 멀티 에이전트 기반 학습모델로서 싱글 에이전트 기반 학습모델인 A2C의 에이전트를 여러 개체로 병렬화하여 대량의 샘플데이터를 기반으로 비동기적 학습을 진행하는 학습구조를 갖는다. A3C 모델의 구성요소로는 A2C 에이전트의 구조를 가지며 각기 다른 환경에서 학습에 필요한 샘플 데이터를 수집하는 워커 에이전트(Worker agent)와 워커 에이전트로부터 독립된 신경망으로서 워커 에이전트가 수집한 샘플 데이터를 모아 자신을 업데이트하고 자신의 가중치 정보를 복사하여 워커 에이전트가 가진 신경망으로 전달하는 역할의 글로벌 신경망(Global network)으로 구성된다. A3C 모델은 신경망 업데이트에 있어서 비동기적 업데이트를 진행하기 때문에 A2C 모델보다 샘플 데이터 간 시간적 상관도가 줄어 편향을 줄일 수 있다. 본 논문에서는 A3C 학습모델을 적용하여 신경망 파라미터의 학습성능 및 학습 수렴 속도를 향상시키고자 하였다.

4. 학습모델별 학습 및 실험 결과

본 논문에서는 A2C 모델, 전이 학습이 적용된 A2C 모델인 T-A2C 모델, 멀티 에이전트 기반의 A3C 모델 간의 정확한 학습성능 비교를 위해 학습 및 실험환경과 학습 하이퍼파라미터들을 고정하였다. 평가는 Timberman 게임에 대해서 1,000회 학습시킨 각 학습모델 에이전트의 학습성능 그래프와 10회의 실험을 통해 얻은 각 학습모델 에이전트의 게임 간 취득점수 그래프를 기반으로 진행하였다.

4.1 학습 및 실험환경

본 논문에서 구현한 학습모델들의 학습성능을 확인하기에 앞서 A2C 모델, T-A2C 모델, A3C 모델의 에이전트 학습 및 실험환경은 표 3과 같다.

학습 소요 시간은 A2C 모델과 T-A2C 모델의 에이전트 학습의 경우에는 약 6시간, A3C 모델의 에이전트 학습의 경우에는 약 4시간이 소요되었으며 본 논문의 주안점인 학습모델 간의 성능 차이를 분명하게 확인하기 위해 학습 하이퍼파라미터는 여러 번의 학습 결과를 종합하여 표 4와 같이 가장 성능이 우수한 수치들로 정하였다. 학습률은 0.01(1%), 신경망 은닉층의 층수와 노드 수는 각각 1개 층과 32개로 정하였다. N-스텝 업데이트의 배치데이터 크기는 8개 이하(Less than 8)로 정하였는데 ‘이하’라는 표현은 8개보다 부족한 샘플 데이터를 수집한 상태에서 에피소드가 종료되는 경우, 해당 시점까지 모은 샘플 데이터에 대한 시간차 학습 진행을 나타내기 위해 사용하였다. 정책 선택 시 탐험을 관장하는 불확실성 수치(Epsilon)는 1(100%)에서 에피소드 진행 시마다 0.001(0.1%)씩 감쇄시켜 0.001(0.1%)까지 도달하게 하였다. A3C 모델의 워커 에이전트의 개체 수는 2대이다.

표 3 학습 및 실험환경

Table 3 Learning and experimental environment

A2C, T-A2C / A3C

Global network

OS

Windows 10

CPU

Intel i5-6500

GPU

Nvidia GeForce

GTX 1060 3GB

RAM

16GB

A3C

Worker agent

OS

Windows 10

CPU

Intel i7-9700

GPU

Nvidia GeForce

RTX 2060 6GB

RAM

16GB

표 4 하이퍼파라미터

Table 4 Hyperparameters

Type

Value

Learning rate

0.01

Number of nodes

32

Number of hidden layers

1

Batch size($\lambda$)

Less than 8

Epsilon($\epsilon$)

1 → 0.001

(A3C) Number of Worker

2

그림 7 손실함수 및 누적보상 그래프

Fig. 7 Neural network loss function and Return value (Actor loss(Top), Critic loss(Middle), Return value(Bottom))

../../Resources/kiee/KIEE.2022.71.1.233/fig7.png

4.2 학습성능평가

그림 7은 A2C 모델, T-A2C 모델, A3C 모델의 에이전트 학습성능을 그래프로 나타낸 것이다. 우선 A2C 모델과 T-A2C 모델 간의 차이를 살펴보면 액터 신경망 손실함숫값의 측면에서 학습 초기에 A2C와 T-A2C 모델 간 가장 큰 수치적 차이를 보이는 에피소드를 기준으로 A2C 모델이 +2.399, T-A2C 모델이 -0.6035를 기록하였다. 이는 약 79.9%가 줄어든 결과로서 초기 성능에 상당한 차이가 있음을 나타낸다. 액터 신경망의 최종 손실함숫값의 경우에는 A2C 모델이 –0.8986, T-A2C 모델이 –1.379를 기록하여 전이 학습의 적용이 액터 신경망 손실을 약 34.8% 더 감소시킨 결과를 나타내었다. 크리틱 신경망 역시 학습 초기에 A2C와 T-A2C 모델 간 가장 큰 수치적 차이를 보이는 에피소드를 기준으로 A2C 모델이 +14.51, T-A2C 모델이 +1.437을 기록하였다. 이는 약 90.1%가 줄어든 결과를 보여 액터 신경망과 마찬가지로 초기 성능에 상당한 차이가 있음을 나타낸다. 크리틱 신경망의 최종 손실함숫값의 경우에는 A2C 모델이 +0.9469, T-A2C 모델이 +0.7643을 기록하여 전이 학습의 적용이 크리틱 신경망 손실을 약 19.3% 더 감소시킨 결과를 나타내었다. 마지막으로 최종 누적보상함숫값을 기준으로 비교했을 시에 A2C 모델이 +8.096, T-A2C 모델이 +10.27을 기록하여 전이 학습의 적용이 누적보상을 약 21.2% 증가시킨 결과를 나타내었다. 결론적으로 전이 학습의 결과로 초기에 양질의 가중치를 선점함으로써 약 25.1% 정도의 종합 성능이 향상됨을 확인할 수 있었다.

다음으로 A2C 모델과 A3C 모델 간의 차이를 살펴보면 액터 신경망의 최종 손실함숫값은 A2C가 –0.8986, A3C가 –3.674를 기록하여 멀티 에이전트 기반의 학습모델이 액터 신경망의 손실을 약 75.5% 더 감소시킨 결과를 나타내었고 크리틱 신경망의 최종 손실함숫값은 A2C가 +0.9469, A3C가 +0.9329를 기록하여 멀티 에이전트 기반의 학습모델이 크리틱 신경망의 손실을 약 1.5% 더 감소시킨 결과를 나타내었다. 최종 누적보상함숫값은 A2C가 +8.096, A3C가 +12.75를 기록하여 멀티 에이전트 기반의 학습모델이 누적보상을 약 36.5% 정도 증가시킨 결과를 나타내었다. 결론적으로 멀티 에이전트 기반 학습은 싱글 에이전트 기반 학습일 때보다 약 37.8% 정도 종합 성능이 향상됨을 확인할 수 있었다.

4.3 실험 결과

그림 8은 모델별 10회 게임 진행 결과 그래프이다.

그림 8 모델별 10회 게임 진행 결과

Fig. 8 The result of 10 games per mode

../../Resources/kiee/KIEE.2022.71.1.233/fig8.png

게임의 시간제한 특성 때문에 에이전트가 취득 가능한 최대 점수는 175점이다. 게임 규칙이 단순한 게임이라 그림 8에서 볼 수 있듯 사실상 실험을 통해서는 A2C, T-A2C, A3C 모델 간 확연한 성능 차이를 확인해 볼 수 없었다. 다만 A2C 모델의 경우에는 일부 시도에서 낮은 점수를 기록함으로써 불완전한 학습성능을 보여주었는데, 각 모델 에이전트들의 10회 실험에 대한 취득점수의 기댓값은 각각 A2C 에이전트가 146점, T-A2C 에이전트가 173.5점, A3C 에이전트가 174점을 기록하였다.

5. 결 론

본 논문에서는 모바일 게임플레이 행동 정책을 학습하기 위해 게임 이미지에 대한 특징점을 추출하여 얻은 상태를 기반으로 게임을 진행하기 위한 행동 정책을 강화학습을 이용하여 스스로 학습하는 방법을 제안하였다.

이를 위해 게임 이미지를 기반으로 학습시킨 YOLOv3 객체 탐지기를 활용하여 추출한 나뭇가지의 위치 정보를 기반으로 누적 보상의 최대화를 달성하기 위해 싱글 에이전트 강화학습모델인 A2C 모델과 멀티 에이전트 강화학습모델인 A3C 모델을 적용하는 방법을 제안하였고, 그 중 A2C 모델에 대해 전이 학습을 적용하여 유사 환경에 대한 사전학습을 진행함으로써 본 학습에서의 성능을 향상시킬 수 있는 방법을 제안하였다.

각각의 학습모델들은 학습 하이퍼파라미터를 고정한 채 1,000회 학습을 진행하였다. 학습의 결과로 전이 학습을 적용한 T-A2C 모델은 A2C 모델보다 에이전트의 학습성능이 약 25.1% 정도 향상되었고 멀티 에이전트 기반 학습모델인 A3C 모델의 학습성능은 A2C 모델보다 에이전트의 학습성능이 약 37.8% 정도 향상되었다. 학습된 에이전트들은 10회의 실험을 통해 취득한 게임 점수를 기록하였고 실험 결과로서 각 에이전트의 취득점수 기댓값은 각각 A2C 에이전트가 146점, T-A2C 에이전트가 173.5 점, A3C 에이전트가 174점을 기록하였다. 본 연구에서는 게임플레이 행동 정책에 대한 강화학습에 있어서 전이학습과 분산강화학습기법이 유효하게 적용될 수 있음을 확인할 수 있었으나 본 연구의 학습 과정에서 학습에 사용되는 샘플데이터의 분산이 큰 경우, 학습의 불안정성이 커지는 경우를 보였으므로 향후 해결방안에 관한 연구가 필요한 것으로 보인다.

Acknowledgements

This Research was supported by Seokyeong University in 2021.

References

1 
O. Vinyals, August, 2017, Starcraft II: A New Challenge for Reinforcement Learning, arXiv preprint arXiv:1708.04782Google Search
2 
G. Andrade, July, 2005, Extending reinforcement learning to provide dynamic game balancing, Proceedings of the Work- shop on Reasoning, Representation and Learning in Com- puter Games, 19th International Joint Conference on Artificial Intelligence (IJCAI), pp. 7-12Google Search
3 
R. S. Sutton, A. G. Barto, 2018, Reinforcement learning: An introduction, MIT pressGoogle Search
4 
V. Mnih, December, 2013, Playing atari with deep reinforcement learning, arXiv preprint arXiv:1312.5602Google Search
5 
L. Torrey, J. Shavlik, 2010, Transfer learning, Handbook of research on machine learning applications and trends: algori- thms, methods, and techniques, IGI global, pp. 242-264DOI
6 
V. Mnih, June, 2016, Asynchronous methods for deep reinforce- ment learning, Proceedings of The 33rd International conference on machine learning PMLR, Vol. 48, pp. 1928-1937Google Search
7 
V. R. Konda, J. N. Tsitsiklis, December, 2000, Actor-critic algorithms, Advances in neural information processing systemsGoogle Search
8 
J. Redmon, A. Farhadi, April, 2018, YOLOv3: An Incremental Improvement, arXiv preprint arXiv:1804.02767Google Search
9 
J. S. Lee, October, 2020, CNN based Reinforcement Learning for Driving Behavior of Simulated Self-Driving Car, TThe Korean Institute of Electrical Engineers (KIEE), Vol. 69, No. 11, pp. 1740-1749Google Search
10 
K. Zhang, Z. Yang, T. Basar, June 2021, Multi-agent reinforce- ment learning: A selective overview of theories and algorithms, Handbook of Reinforcement Learning and Control, pp. 321-384DOI
11 
X. J. Wang, December 2021, SCC: an efficient deep reinforcement learning agent mastering the game of StarCraft II, Pro- ceedings of the 38th International Conference on Machine Learning, PMLR, Vol. 139, pp. 10905-10915Google Search
12 
T. H. Lee, November 2021, YOLOv3 based Reinforcement learning for mobile game playing policy, Autumn Annual Con- ference of the Institute of Electronics and Information Engineers(IEIE)Google Search

저자소개

이태학 (Taehak Lee)
../../Resources/kiee/KIEE.2022.71.1.233/au1.png

2021년 : 서경대학교 컴퓨터공학과 재학

관심분야 : 분산강화학습, 강화학습

조영완 (Youngwan Cho)
../../Resources/kiee/KIEE.2022.71.1.233/au2.png

1991년 : 연세대학교 전자공학과 공학사

1993년 : 연세대학교 전자공학과 공학석사

1999년 : 연세대학교 전자공학과 공학박사

2000년~2003년 : 삼성전자 책임연구원

2003년~현재 : 서경대학교 컴퓨터공학과 교수

관심분야 : 지능제어시스템, 무인이동체제어, 딥러닝 및 강화학습