• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Computer Engineering, SeoKyeong University, Korea.)



AutoPilot, Artificial Neural Network, Deep Learning, CNN

1. 서 론

최근 자율주행 혹은 무인자동차에 대한 관심이 많아져 관련 연구가 활발히 진행되고 있다. 자율주행은 자동차 스스로 주변 환경을 인지하고 최선의 판단을 내리며 목적지까지 주행이 가능한 기술을 일컷는 것으로 V2X(1), Path Planning(2), 장애물, 차선인식(3)(4), 주행 알고리즘(5)(6)기술 등 다양한 관련 분야의 기술을 포함한다.

최근 딥러닝을 적용하여 Google, NVidia, Ford, Audi 등 다양한 IT회사, 자동차 기업들이 자율주행(7)(8)을 연구하고 있으며, 실제 Google은 택시서비스를 제공하며 그 실용성이 확인되었다. 자율주행의 경우 많은 정보를 기반으로 주변상황들을 판단해야만 하고, 이러한 문제를 해결하기 위해 딥러닝을 통해 접근이 가능하지만 실제 데이터를 수집하기에는 어려움이 많으므로 최근 자율주행에 대한 연구는 Simulator 환경에서 많이 이루어지고 있다(9)(10)(11).

본 논문에서는 CARLA(12) 자율주행 시뮬레이터 환경에서 자율주행 알고리즘 및 인간 조작자의 수동 운전 행동을 학습하기 위한 인공신경망 구조와 학습 방법을 제안한다. 이를 위해 본 논문에서는 영상 정보 없이 차량의 주행상태에 대한 정보만을 이용하는 경우와 영상 정보를 포함한 정보를 이용하여 운전행동을 학습하는 경우로 구분하여 각각 ANN 및 CNN 구조의 신경망을 사용하여 학습하였다.

차량의 주행 상태에 대한 정보만을 이용하는 경우 인공신경망은 ANN 구조를 사용하였으며 입력 정보로서 차량의 위치(x,y), 방향(heading)를 사용하였고 출력으로 운전 행동을 나타내는 Accel, Steer, Brake 조작량을 얻도록 하였다. 인공신경망을 학습시키기 위한 학습데이터는 시뮬레이터 환경에서 제공하는 자율주행 알고리즘을 통해 얻은 주행데이터 및 인간 조작자의 수동 운전을 통해 취득한 데이터를 재구성하여 사용하였다.

시뮬레이터의 자율 주행 알고리즘은 차량의 주행 상태만을 이용하여 운전행동을 결정하는 반면 인간 조작자는 이에 시각적 정보를 추가적으로 활용한다. 본 논문에서는 인간 조작자의 운전 행동 학습을 위해 차량의 주행 상태에 대한 정보뿐만 아니라 영상 정보를 같이 사용하여 운전 행동을 학습하기 위한 신경망 구조로써 CNN-ANN 구조(14)를 사용하였고 이에 대한 학습 방법을 제안하였다.

2. 주행 시뮬레이터 환경

본 논문에서는 차량의 주행을 위한 시뮬레이터로 CARLA를 사용하였다. CARLA는 자율주행 연구를 위해 Intel, Toyota, GM이 공동 개발한 오픈소스 시뮬레이터로 자율적인 도시 운전 시스템 개발, 교육, 유효성 검사를 지원하기 위해 개발되었다. CARLA 시뮬레이터 플랫폼은 도시 레이아웃, 건물, 차량과 같은 개방형 디지털 asset을 제공하는데 제공되는 요소에는 차량의 다양한 센서, 환경의 조건, 16종의 차량모델, 40여종의 건물, 50여종의 보행 모델이 포함되어 있어 다양한 난이도의 시나리오도 개발에 적용이 가능하다. CARLA는 넓은 범위의 시뮬레이션과 위험한 상황과 같이 좁은 범위의 시뮬레이션을 반복 학습 할 수 있는데 이런 종류의 학습은 실제 환경에서 이루어지기 어렵지만 시뮬레이터 상에서는 가능하다.

그림. 1. CARLA 시뮬레이터 영상

Fig. 1. The CARLA Simulator Images

../../Resources/kiee/KIEE.2020.69.6.930/fig1.png

CARLA는 지정된 경로를 사용자의 개입 없이 주행하는 AutoPilot 기능을 포함하고 있다. AutoPilot은 주행에 필요한 정보를 사전에 알고 있기 떄문에 운전 행동을 스스로 결정할 수 있고 차량의 역학 모델이 완전히 반영된 상태이며 주행에 따른 궤적, 조작량, 주행 계획이 가능하다. 주행에 필요한 정보로는 신호, 차선, 주변 차량들과 보행자들의 위치와 속도, 등이 존재한다. 이를 바탕으로 현재위치로부터 목표지점까지의 경로를 A*(15)알고리즘을 통해 최단경로를 생성한다. 생성된 경로를 따라 AutoPilot차량은 주변의 환경정보를 이용하여 충돌회피, 신호, 차선, 교통흐름을 인지할 수 있다. 따라서 AutoPilot 알고리즘은 목표한 지점까지의 최단거리 경로와 주변 환경정보를 통해 각 상황에서 가장 최선의 행동을 취한다. 본 논문에서 제안하는 방법은 주어진 상황에서 가장 최선의 행동을 취할 수 있는 AutoPilot의 운전행동을 인공신경망을 통해 모델링하는 것이다.

3. 운전행동의 영상기반 신경망 학습

3.1 ANN 기반의 운전행동 학습

본 논문에서는 우선 AutoPilot 운전행동을 ANN 구조의 신경망을 통해 학습하는 것을 제시하였다. 인공신경망은 특정 상태가 입력으로 주어 졌을 때 이에 대한 최선의 행동에 대한 값을 출력으로 제공하는 역할을 한다. 따라서 차량의 상태를 입력으로 하고 조작량을 출력으로 하며 그 구조는 그림 2에 제시하였다. 본 논문에서는 차량의 주행 상태를 표현하기 위해 현재 위치 x, y 및 방향 정보로서 heading을 사용하였으며 차량의 조작량으로 accel, steer, brake를 사용하였다. 은닉층은 총 3개 계층으로 구성되어 있고 각각 64, 32, 32개의 노드를 가지며 활성화 함수는 모두 ReLu 함수를 사용하였다. 출력층은 상태에 따른 행동을 출력하는 역할을 하며 -1 ~ 1사이의 값을 갖는 tanh 활성화 함수를 사용하였으며 시뮬레이션 차량은 인공신경망의 출력에 따라 accel, steer, brake의 조작량을 결정하게 된다.

그림. 2. 인공신경망 구조

Fig. 2. Structure of ANN

../../Resources/kiee/KIEE.2020.69.6.930/fig2.png

인공신경망의 입력정보는 AutoPilot이 사용하는 입력정보 보다 비교적 적은 정보로 구성되어 있다. 기존 AutoPilot 알고리즘의 운전행동 결정은 주행에 필요한 모든 도로환경의 정보(도로 중심으로부터 떨어진 거리, 신호, 차선, 주변 차량들과 보행자들의 위치와 속도 등)를 알 수 있기 때문에 현재 상태에서 가장 적합한 행동을 선택 할 수 있다. 하지만 실제로 도로환경의 정보를 얻는 과정은 불가능에 가깝기 때문에 본 논문에서는 차량의 위치와 방향 정보만을 입력으로 사용하여 이에 대한 AutoPilot의 운전행동 및 인간 조작자 운전 행동을 학습하고자 하였다. 본 논문에서 사용한 목표 주행경로는 그림 3에 제시하였으며 이 경로에서 빨간색 별로 표시된 지점과 파란색 별로 표시된 지점은 각각 시작지점과 도착지점을 나타낸다.

그림. 3. 목표 주행경로

Fig. 3. The target driving path

../../Resources/kiee/KIEE.2020.69.6.930/fig3.png

인공신경망의 학습에 사용한 데이터는 총 58,643개로 구성하였다. 시뮬레이터에서 제공하는 AutoPilot 모드의 주행을 통해 총 28,889개의 데이터를 취득하였고, 시뮬레이터 환경에서 인간 조작자의 수동 운전을 통해 총 29,754개의 데이터를 취득하였다. AutoPilot 운전 및 수동 운전 각각 8회의 경로 운전을 통해 데이터를 취득하였으며 AutoPilot 운전의 경우 1회당 약 3,600개 정도의 데이터가 취득되었고 수동 운전의 경우 1회당 약 3,700개 정도의 데이터가 취득되었다. 위에 설명된 두가지 방법으로 데이터를 취득하여 사용한 이유는 AutoPilot 만으로 데이터를 취득하는 경우 주행 회차별 데이터들 간의 유사도가 높아 overfitting 문제를 야기할 수 있기 때문에 데이터들 간의 다양성을 높일 수 있도록 수동 운전을 통한 데이터를 구성하여 추가함으로써 학습데이터를 구성하였다.

3.2 CNN 기반의 운전행동 학습

본 논문에서는 차량의 주행 상태 정보에 주행영상을 추가하여 이에 대한 운전행동의 학습을 위해 신경망 구조로 CNN(14)과 ANN을 결합한 형태의 구조를 제안한다. 앞서 설명한 ANN 기반의 학습 방법은 차량의 위치정보와 방향정보만을 이용한 학습으로 AutoPilot의 운전행동의 의미를 위치와 방향 정보만으로는 찾기가 어려운 점이 있다. 예를 들어 회전과 차선유지, 충돌 회피 등의 행동은 위치, 방향 정보 보다는 시각정보를 통해 더 많은 정보를 취득할 수 있기 때문이다. 회전과 차선유지, 장애물에 대한 인식 및 회피 등의 운전 행동은 차량의 주행 상태에 대한 정보, 즉, 위치, 방향 정보만으로는 학습하기 어려운 측면이 있는데 영상 정보는 이러한 차량 및 주변 환경의 상태와 운전 행동간 상호 연관성을 설명하는데 도움이 될 수 있다.

따라서 본 논문에서는 차량의 상태 정보뿐만 아니라 주행영상을 같이 활용하여 운전 행동을 학습할 수 있는 인공신경망 구조를 제안한다. 제안하는 CNN 기반 운전 행동 학습 신경망의 구조는 그림 4와 같다.

그림. 4. CNN-ANN 인공신경망 구조

Fig. 4. Structure of the CNN-ANN

../../Resources/kiee/KIEE.2020.69.6.930/fig4.png

본 논문에서 제안하는 신경망은 차량의 위치와 방향 그리고 주행 영상 간의 관계에 따른 운전행동의 학습을 목적으로 하므로 주행영상과 주행차량의 위치, 방향정보를 입력으로 하고 운전 조작량을 출력으로 한다. 인공신경망의 구조는 이미지 처리를 위한 CNN 구조와 상태 정보 처리를 위한 ANN 구조를 혼용하여 사용하였다. 주행 영상은 CNN 구조의 신경망 입력으로 사용하기 위해 84*84*1의 크기로 crop하여 사용한다. 차량의 상태 벡터 (x, y, h)는 ANN구조 신경망의 입력으로 사용하고 차량의 운전행동은 지도 데이터로 사용된다.

CNN 구조는 Kernel size 6*6, 5*5, 3*3의 크기를 갖고 각각 64, 64, 32channel로 구성된다. 이때 입력영상의 사이즈 감소를 위해 Stride를 3, 2, 1로 설정하였으며 Padding은 하지 않았다. 또한 주행 상태 정보를 처리하기 위한 구조로 hidden layer는 64, 32, 16로 구성하였다. 처리된 값은 CNN 구조에서 처리된 feature map과 더해져 하나의 layer를 이룬다. 더해진 layer는 최종 layer를 거쳐 행동을 결정하게 된다. 최종 layer에서의 activation function은 accel, brake node는 sigmoid를 steer node는 tanh를 사용하였다. 따라서 출력의 범위는 Accel 0~1, Steer -1~1, Brake 0~1의 값을 갖는다.

인공신경망 학습에 필요한 학습 데이터는 시뮬레이터 환경에서 AutoPilot을 목표 경로를 따라 주행하게 하고 이로부터 취득한 주행 영상, 차량의 위치 및 방향, 각 상태에서의 운전 조작량으로 구성되며 목표 경로를 5회 주행하여 대략 10,000개 정도의 데이터를 취득하여 사용하였다.

4. 실험 및 결과

4.1 실험 환경

본 논문의 실험은 CPU: Intel i7-7700k 4.2GHz, GPU: NVIDIA GeForce GTX 1080 Ti 사양의 하드웨어 및 Ubuntu16.04 환경에서 Python으로 구현하여 진행되었다. CARLA 시뮬레이터 구축에는 pygame, numpy 등을 사용하였고 인공신경망 생성에는 파이썬 기반의 머신러닝 오픈소스 라이브러리인 tensorflow와 keras를 사용하였다.

그림. 5. 실험 환경

Fig. 5. The experiment environment

../../Resources/kiee/KIEE.2020.69.6.930/fig5.png

그림 5는 본 논문에서 사용한 자율주행 시뮬레이터 화면을 나타낸다. 기본적으로 차량 주행을 위한 물리적 요소들은 내제되어있으며 학습 과정에 필요한 기능들은 부가적으로 추가하였다.

4.2 위치 및 자세 기반 ANN 모델의 성능평가

표 1. 인공신경망 구조 및 파라미터

Table 1. The structure of ANN and number of parameters

Layer

Node #

Activation Function

Parameter #

1

64

ReLU

192

2

32

ReLU

2,048

3

32

ReLU

1,024

4

3

tanh

96

인공신경망의 학습은 생성된 학습데이터 58,643개를 통해 진행하였다. 표 1은 상태에 따른 행동을 학습하기 위한 인공신경망의 구조와 파라미터를 나타내는 것으로 3개의 은닉 층과 하나의 출력 층으로 구성되어 있고 총 3,360개의 파라미터를 갖는다.

표 2. ANN 하이퍼 파라미터

Table 2. The hyper parameters of ANN

Hyper Parameter

Value

loss function

mean squared error

optimizer

Adam

learning rate

0.001

epoch

20,000

batch size

1000

표 2는 학습을 위해 사용한 인공신경망의 파라미터를 나타낸다. 본 학습에서 학습률은 0.001로 설정하였고 과적합을 방지하기 위해 Adam-Optimizer을 사용하였다. 표 1표 2에서 제시한 구조와 파라미터를 적용하여 학습한 인공신경망의 학습 진행 상황에 따른 비용함수 변화를 그림 6에 제시하였다. 본 논문에서 제안한 인공신경망은 학습의 진행에 따라 비용함수의 값이 수렴하고 있어 적절한 학습이 이루어진 것을 확인할 수 있다.

그림. 6. 학습 진행에 대한 비용함수(ANN 모델)

Fig. 6. The cost function in terms of learning epochs (ANN model)

../../Resources/kiee/KIEE.2020.69.6.930/fig6.png

그림. 7. 목표 및 실험 주행경로(ANN 모델)

Fig. 7. The target and experiment driving path(ANN model)

../../Resources/kiee/KIEE.2020.69.6.930/fig7.png

본 논문에서는 위치 및 자세 기반 ANN 모델의 성능 평가를 위해 그림 3의 목표경로에 대해 ANN 학습 차량 및 AutoPilot 차량이 각각 주행하도록 실험하였으며 두 주행 결과의 주행경로를 비교하여 그림 7에 제시하였다.

그림 8은 학습된 ANN 기반 차량의 실험주행궤적과 목표주행궤적과의 거리 오차를 나타낸다. sampling time은 16ms이며 오차는 매 sampling time에서 AutoPilot의 위치와 인공지능 차량 위치와의 차이를 제곱한 형태이다.

그림. 8. 목표주행경로와 실험주행경로의 거리 오차(ANN 모델)

Fig. 8. The distance between target and experimented driving path(ANN model)

../../Resources/kiee/KIEE.2020.69.6.930/fig8.png

4.3 영상 기반 CNN 모델의 성능평가

주행 영상과 상태에 따른 행동을 학습하기 위한 인공신경망의 구조와 파라미터는 표 3에 나타낸 바와 같이 총 3개의 Convolution Layer와 5개의 Fully Connected Layer, 출력 층으로 구성되어 있으며 총 177,475개의 파라미터를 포함하고 있다. activation 함수는 모든 레이어에서 relu를 사용하였고 출력 층에서는 tanh과 sigmoid를 사용하였다. 실험방식은 ANN 기반 모델의 성능평가 방식과 동일한 방식으로 진행하였으며 본 실험에서는 100 epcohs을 진행하여 학습하였고 학습 시간은 100epochs을 기준으로 13분 소요되었다.

표 3. CNN 구조 및 파라미터

Table 3. The CNN structure and parameters

Layer

Channel #

Activation Function

Parameter #

Conv_1

64

ReLU

2,368

Conv_2

64

ReLU

102,464

Conv_3

32

ReLU

18,464

Dense_1

16

ReLU

51,216

Dense_2

64

ReLU

256

Dense_3

32

ReLU

2,080

Dense_4

16

ReLU

528

Dense_5

3

Sigmoid, tanh

99

표 4는 영상 및 상태 정보 기반 CNN 모델 학습을 위해 사용한 인공신경망의 파라미터를 나타낸다. 학습률과 optimizer는 ANN 모델의 학습에서와 동일하게 사용하였고 batch size 및 epoch은 각각 1000개, 100회로 하였다.

표 4. CNN 하이퍼 파라미터

Table 4. The hyper parameters of ANN

Hyper Parameter

Value

loss function

mean squared error

optimizer

Adam

learning rate

0.001

epoch

100

batch size

1000

표 3표 4에서 제시한 구조와 파라미터를 적용하여 학습한 CNN-ANN 구조 신경망의 학습 진행 상황에 따른 비용함수 변화는 그림 9에 제시하였다. 상태 정보 및 영상 기반 CNN-ANN 구조의 신경망 또한 학습의 진행에 따라 비용함수의 값이 수렴하고 있어 적절한 학습이 이루어진 것을 확인할 수 있다.

그림 9는 영상 및 주행 상태 정보 기반의 CNN 모델의 학습 진행에 따른 비용함수의 변화를 나타내고 그림 10은 목표 경로 대비 주행 경로를 나타낸다. 영상 정보를 포함한 CNN-ANN 구조의 신경망 모델의 주행 성능은 상태 기반 ANN 모델에 비해 우수하지 못한 결과를 나타내기는 했지만 영상 기반 인공신경망으로 AutoPilot의 운전행동을 학습할 수 있는 가능성은 나타내고 있다고 평가할 수 있다.

그림. 9. 학습 진행에 대한 비용함수(CNN 모델)

Fig. 9. The cost function in terms of learning epochs (CNN model)

../../Resources/kiee/KIEE.2020.69.6.930/fig9.png

그림. 10. 목표 및 실험 주행경로(CNN 모델)

Fig. 10. The target and experiment driving path(CNN model)

../../Resources/kiee/KIEE.2020.69.6.930/fig10.png

그림 11은 AutoPilot의 주행궤적과 CNN-ANN이 결합된 구조의 인공신경망을 통해 주행한 궤적과의 차이를 나타낸다. sampling time은 16ms이며 Error는 매 sampling time에서 AutoPilot의 위치와 인공지능 차량 위치와의 오차를 제곱한 형태이다. 본 논문에서 실험한 두 가지 방법 위치 및 자세 ANN모델과 영상 기반 CNN모델은 같은 Target 경로를 주행하였다.

그림. 11. 목표주행경로와 실험주행경로의 거리 오차(CNN 모델)

Fig. 11. The distance between target and experimented driving path(ANN model)

../../Resources/kiee/KIEE.2020.69.6.930/fig11.png

5. 결 론

본 논문에서는 자율주행 시뮬레이터 환경에서 자율주행 알고리즘 및 인간 조작자의 수동 운전 행동을 학습하기 위한 인공신경망 구조로서 차량의 운전 상태 기반 ANN 모델 및 영상 기반 CNN 모델을 제안하였다. 제안한 인공신경망의 학습을 위해 AutoPilot 모드의 시뮬레이션 주행과 인간 조작자의 수동 운전 시뮬레이션을 통해 학습 데이터를 취득하였고, 이를 이용하여 제안한 신경망 모델을 학습하였다.

학습한 상태 정보 기반 ANN 모델 및 영상 및 상태 정보 기반 CNN 모델의 성능 평가를 위해 목표경로에 대해 제안한 인공신경망 학습 차량 및 AutoPilot 차량이 각각 주행하도록 실험하였으며 두 주행 결과의 주행경로를 비교하였다. 실험 결과 ANN 모델은 AutoPilot의 주행 경로와 큰 차이가 없어 인경신경망을 통해 운전 행동의 적절한 학습이 이루어질 수 있음을 확인할 수 있었다.

상태 정보 기반 ANN 모델과 상태 및 영상 정보 기반 CNN 모델의 실험 결과를 비교하였을 때 영상 정보 기반 CNN 모델이 상태 정보 기반 ANN 모델보다 성능 측면에서 좋지 않은 결과를 나타냈는데 이는 AutoPilot의 운전 행동이 영상 기반이 아니고 위치 기반이기 때문인 것으로 분석된다. AutoPilot은 주행에 필요한 모든 정보를 알고 있는 상황에서 운전 행동을 결정하는데 이러한 AotoPilot의 운전 행동을 그대로 학습한 상태 기반 ANN은 비교적 좋은 결과를 나타내고 있으나 이에 비해 영상기반의 모델은 영상으로부터 적절한 운전행동을 찾기 위한 특징을 효과적으로 도출하는데 부족함이 있는 결과를 보인 것으로 분석된다. 이와 같은 문제는 강화학습 등을 적용하여 보다 많은 상태를 자가 학습하여 보완한다면 개선할 수 있을 것으로 기대된다.

Acknowledgements

This Research was supported by Seokyeong University in 2020.

References

1 
Giho Sung, 2018, V2X based Connected Autonomous Vehicle(KAT) research and development, The Korean Society Of Automotive Engineers, Vol. 2018, No. 11, pp. 34-35Google Search
2 
HoonJe Woo, 2009, Research of the Optimal Local & Global Path Planning for Unmanned Ground Vehicle, The Korean Society Of Automotive Engineers, Vol. 2009, No. 4, pp. 988-992Google Search
3 
Ju Chan Han, 2017, Obstacle Detection and Recognition System for Autonomous Driving Vehicle, Journal of Convergence for Information Technology, Vol. 7, No. 6, pp. 229-235DOI
4 
Sei-Hoon Lee, 2019, Lane Recognition Self-driving using Hough Transform, The Korean Society Of Computer And Information, Vol. 27, No. 1, pp. 257-258Google Search
5 
Don Li, Dongbin Zhao, Qichao Zhang, Yaran Chen, 2019, Reinforcement Learning and Deep Learning Based Lateral Control for Autonomous Driving, IEEE Computational Intelligence Magazine, Vol. 14, No. 2, pp. 83-98DOI
6 
Hongsuk Yi, 2017, Deep Reinforcement Learning for Autonomous Vehicle Driving, KOREA INFORMATION SCIENCE SOCIETY, Vol. 2017, No. 12, pp. 784-786Google Search
7 
Waymo Reasearch, 7 Dec 2018, ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst, arXiv:1812. 03079v1 [cs.RO]Google Search
8 
NVIDIA Corporation, 25 Apr 2016, End to End Learning for Self- Driving Cars, arXiv:1604.07316v1 [cs.CV]Google Search
9 
Lu Chi, Yadong Mu, 2017, Deep Steering: Learning End-to-End Driving Model from Spatial and Temporal Visual CuesGoogle Search
10 
Felipe Codevilla, Matthias Mueller, Alexey Dosovitskiy, Antonio López, Koltun Vladlen, 2017, End-to-end Driving via Conditional Imitation LearningDOI
11 
Jianyu Chen, Bodi Yuan, Masayoshi Tomizuka, 2019, Model-free Deep Reinforcement Learning for Urban Autonomous DrivingDOI
12 
Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio Lopez, Vladlen Koltun, 2017, CARLA: An Open Urban Driving Simulator, Conference on Robot Learning (CoRL 2017), Vol. 78, pp. 1-16Google Search
13 
Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Neural Information Processing Systems, Vol. 25DOI
14 
Yin Fan, Xiangju Lu, Dian Li, Yuanliu Liu, November 2016, Video- based emotion recognition using CNN-RNN and C3D hybrid networks, ICMI’16 Proceedings of the 18th ACM International Conference on Multimodal Interaction, pp. 445-450DOI
15 
Peter E. Hart, Nils J. Nilsson, Bertram Raphael, 1968, A Formal Basis for the Heuristic Determination of Minimum Cost Paths in Graphs, IEEE Transactions on Systems Science and Cybernetics, Vol. 4, No. 2, pp. 100-107DOI
16 
R. S. Sutton, A. G. Barto, 1998, Reinforcement Learning: An Introduction, MIT Press, Cambridge, MAGoogle Search

저자소개

이종석 (Jongseok Lee)
../../Resources/kiee/KIEE.2020.69.6.930/au1.png

2018년:서경대학교 컴퓨터공학과 공학사

2018~현재:서경대학교 전자컴퓨터공학과 석사과정 재학 중

관심분야: 딥러닝 및 강화학습 인공지능

조영완 (Youngwan Cho)
../../Resources/kiee/KIEE.2020.69.6.930/au2.png

1991년:연세대학교 전자공학과 공학사

1993년:연세대학교 전자공학과 공학석사

1999년:연세대학교 전자공학과 공학박사

2000년~2003년:삼성전자 책임연구원

2003년~현재:서경대학교 컴퓨터공학과 교수

관심분야:지능제어시스템, 무인이동체제어, 딥러닝 및 강화학습