조성현
(Seonghyeon Jo)
1iD
박종천
(Jongcheon Park)
1iD
이상문
(Sangmoon Lee)
†iD
-
(School of Electronic and Electrical Engineering, Kyungpook National University, Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Imitation Learning, Robot manipulators, Adversarial Imitation Learning, Robotic Teaching
1. 서 론
최근 로봇 공학의 발달로 인해 산업용 로봇은 산업현장에 국한되지 않고 지능적인 서비스 시나리오를 실현할 수 있도록 진화되고 있다. 기존의 정형화된
작업이 아니라 다양하고 비정형적인 업무를 수행할 수 있도록 지능적인 방법이 요구된다. 이에 따라 기존의 수동적인 코딩 방법이 아닌 사람이 명령을 전달하여
새로운 작업을 가르치는 모방학습에 대한 연구가 많이 진행되고 있다.
모방학습은 전문가로부터 교시 정보를 획득하여 모방하는 기술을 말하며, 기존 학습 방법과 달리 적은 데이터로 관찰된 동작을 최대한 유사하게 모방하여
숙련된 작업자의 업무를 빠르게 대체할 수 있다. 이러한 모방학습의 과정에서 로봇 교시는 필수적이다. 하지만 산업용으로 많이 사용되는 다관절 로봇의
경우 다중 자유도를 가지기 때문에 로봇을 구속하지 않고 직접 제어를 통해 교시 데이터를 수집하기 어렵다. 또한 학습 과정에서 실제 환경의 로봇이 제어
정책을 배우면 데이터 효율성, 안전 및 시스템 초기 상태 오차가 있을 때 제어에 대한 문제가 발생한다.
앞선 로봇 교시의 문제점들은 시뮬레이션을 통해 가상 교시하여 데이터를 생성함으로써 해결될 수 있으나, 시뮬레이션으로 얻어진 가상교시 데이터는 학습에
적용할 때, 데이터 불일치 문제 (Data Mismatch Problem)나 유사도 문제(Correspondence Problem)가 발생될 수 있다.
이를 위해 전문가의 데이터만 학습하는 것이 아니라 로봇이 직접 경험한 데이터와 전문가의 데이터를 이용하여 적대적 모방학습을 적용하면 이를 부분적으로
해소할 수 있다. 따라서 본 논문에서는 TD3(Twin Delayed Deterministic Deep Policy Gradient)와 GAIL(Generator
Adver- sarial Imitation Learning)을 결합한 적대적 모방학습 알고리즘을 제안하고 가상 모방학습 방법을 제안한다.
제안 방법은 총 4단계로 1) 전문가의 교시, 2) 시연 데이터 습득, 3) 모방 학습, 4) 작업 재현 단계를 수행한다. 제안된 가상 모방학습 방법을
통해 TD3-GAIL 기반의 가상 교시 시스템 프로토타입을 구현한다. 본 논문에서 제안된 방법은 7축 로봇 팔을 이용하여 전문가의 궤적을 교시하고
재현함으로써 그 성능을 검증한다. 최종적으로 본 논문에서 제안한 TD3- GAIL 알고리즘과 기존의 DGAIL 알고리즘의 작업 성공률을 비교하여 성능을
검증한다.
본 논문은 다음과 같이 구성된다. 2장에서는 모방학습 기반의 원격 교시 시스템에 대한 필요한 기술을 설명하고, 3장에서는 본 연구에서 제안하는 가상
모방학습 방법과 가상 교시 시스템 구조를 설명한다. 4장에서는 가상 교시 시스템의 프로토타입을 소개하고 성능 평가를 실시한다. 마지막으로 5장에서
결론을 맺는다.
2. 관련 연구
본 장에서는 다관절 로봇을 위한 가상 모방학습 방법에 필요한 기본 기술 및 개념인 로봇 교시(Robotics Teaching), 가상 시뮬레이션 플랫폼(Virtual
Simulation Platform), 모방학습(Imi- tation Learning)에 대해서 알아본다.
2.1 로봇 교시(Robotic Teaching)
로봇이 인간을 대체함에 따라 다양한 작업을 구현하고 신속하게 작업 동작을 생성하기 위해 로봇 교시에 대한 관심이 높아지고 있다. 로봇 교시는 로봇이
작업을 수행하기 위해 동작 시퀀스를 생성하는 과정을 말한다(1). 크게 직접 교시와 원격 교시 형태로 분류되며, 대부분의 로봇 제조업체들은 시장의 경쟁력을 높이기 위한 방법으로써 비전문가가 별도의 프로그래밍 없이
조작할 수 있도록 직접 교시를 제공하고 있다(2).
직접 교시는 별도의 환경 구축 없이 교시 프로세스가 간단하고 빠르며, 로봇과 인체 간의 기구학적 파라미터를 고려할 필요가 없다(3,4). 하지만 직접 교시는 로봇과 접촉하여 데이터를 수집하기 때문에 안전을 보장할 수 없으며, 많은 비용 문제가 발생한다. 이러한 문제점은 산업용 로봇으로
많이 사용되는 다관절 로봇이나 듀얼 암 로봇과 같이 다중 자유도를 가지는 로봇에서 더욱 크게 부각된다. 다중 자유도를 가지는 경우 관절을 구속하지
않고 직접 제어를 통해 데이터를 수집해야 한다. 또한 수집된 데이터로부터 실제 환경에서 로봇이 제어 정책을 배워야 하기 때문에 데이터 효율성, 안전
및 시스템 초기 상태 제어에 대한 문제가 발생한다. 따라서 별도의 가상 환경에서 자유롭게 조작하고 교시할 수 있는 시스템이 필요하다.
2.2 가상 시뮬레이션 플랫폼(Virtual Simulation Platform)
초기의 가상 시뮬레이션 플랫폼은 게임 분야에서 시작했지만, 기술의 발전을 통해 제조나 건설 등 여러 분야에서 자동화 시스템을 위한 범용적인 시뮬레이션
플랫폼으로 사용되고 있다(5)(6). 이러한 다양한 분야의 관심은 가상 시뮬레이션 플랫폼이 AI 연구대한 논의가 진행되었으며, 대표적인 연구 사례로 Unity 엔진이 있다(7).
Unity 엔진은 엔비디아의 피직스(PhysX) 물리엔진과 Unity 에디터라는 그래픽 사용자 인터페이스로 구성된 실시간 개발 플랫폼이다. 다른 시뮬레이션
플랫폼과 비교하여 Unity는 친화적 인터페이스와 AR, VR 등의 다양한 경험을 제공하여 다양한 시뮬레이션 학습 환경을 개발 가능하며, 물리 및
프레임 렌더링의 비동기적 특성으로 시뮬레이션 속도를 크게 높여 학습 시간을 줄인다는 점에서 이상적인 연구 플랫폼이다(8). 또한 Python API로 학습 환경을 개발할 수 있는 Unity 플러그인인 ML-Agents Toolkit이 개발되었으며, ML-Agents
Toolkit을 통해 Unity3D에 AI을 적용하기 용이하다(7). 하지만 시뮬레이션으로부터 얻어진 데이터는 학습에 적용하기에는 데이터 불일치 문제나 유사도 문제가 발생할 수 있다(9). 따라서 가상환경에서 수집한 데이터에 대한 지능적인 학습 방법이 필요하다.
2.3 모방학습 (Imitation Learning)
모방학습은 정해진 규칙을 기반으로 행동하는 숙련된 작업자를 통해 에이전트가 학습을 통해 전문가의 행동을 모방하는 기술을 말한다(10). 이는 기존의 학습 방법과 달리 지식 기반으로 학습하여 적은 데이터로 관찰된 동작을 유사하게 모방하여 숙련된 작업자의 업무를 빠르게 대체할 수 있다.
일반적으로 모방학습에서는 지식은 전문가인 사람이며, 에이전트는 로봇과 같은 기계 장치로 설정된다.
다음 그림 1은 모방학습의 과정을 보여준다. 우선, 전문가는 에이전트가 모방해야 하는 행동을 교시하고 에이전트는 교시로 수집된 행동을 관찰하여 데모(Demonstration)를
생성하고 이를 추상화하여 알고리즘을 통해 정해진 규칙을 기반으로 행동하는 정문가의 행동을 학습하고 학습된 모델을 통해 전문가의 행동을 재현한다(11).
그림. 1. 모방학습의 과정
Fig. 1. The process of imitation learning
일반적으로 모방학습 알고리즘은 크게 행위 복제(Behavioral Cloning), 역강화학습(Inverse Reinforcement Learning),
적대적 모방학습(Adversarial Imitation Learning)으로 분류된다(11). 행위 복제는 지도학습(Supervised Learning)과 유사하며, 보상 함수 추정 및 강화학습 과정 없이 궤적과 조건을 상태-행동 쌍에 매핑하는
방법을 통해 전문가의 행동을 모방한다(12)(13). 하지만 행위 복제는 학습에 많은 데이터 샘플 수를 필요로 하고 학습에 포함되지 않은 조건에서는 낮은 모방 성능을 보이는 단점이 있다. 이러한 문제로
교시 샘플이 충분하지 않더라도 보상 함수을 역으로 추정하여 일반화하는 방법으로 역강화학습이 제안되었다(14)(15).
역강화학습은 전문가의 교시정보를 최적의 행동으로 가정함으로써 전문가의 의도를 나타내는 보상 함수를 추정하고, 추정된 보상 함수를 기반으로 강화학습을
통해 전문가의 행동을 모방한다. 기존의 역강화학습은 보상 함수를 임의의 형태로 디자인하고 파라미터 값을 수정하면서 전문가의 보상함수를 추정한다. 하지만
전문가의 보상함수 형태를 임의로 디자인하는 것은 전문가의 복잡한 행동에 대한 보상 함수를 추정하는데 제약이 생기는 단점이 있다.
마지막으로 적대적 모방학습인 GAIL(Generative Adversarial Imitation Learning)은 Generative Adversarial
Network(GAN)(16)과 역강화학습을 결합한 방법으로 2016년 제안되었다(17). GAIL은 보상 함수의 형태를 임의로 디자인하지 않고 식별자 네트워크로부터의 출력을 보상으로 사용하기 때문에 임의의 형태로 디자인되는 보상 함수
문제를 해결하였으며, 전문가의 데모 데이터로만 학습하는 것이 아니라 직접 경험 데이터를 생성하여 학습하기 때문에 많은 전문가 데모 데이터를 요구하지
않는다. 하지만 GAIL은 TRPO(Trust Region Policy Optimi- zation)(18)나 PPO(Proximal Policy Optimization)(19)과 같은 확률적 정책 기반으로 하는 방법을 채택하기 때문에 상대적으로 느린 학습 속도와 대용량의 연산을 필요로 하는 문제가 있다. 이를 개선하기 위해
최근 몇 년 동안 결정론적 정책과 GAIL을 결합한 연구가 진행되고 있으며, DDPG(Deterministic Deep Policy Gradient)와
GAIL이 결합된 형태의 DGAIL(Deterministic Generator Adversarial Imitation Learning)이 제안되었다(20). 하지만 DDPG는 가치 함수에 대한 과추정(Overestimation)의 문제가 있기 때문에 이를 해결하기 위해 본 논문에서는 TD3(21) 방법과 GAIL을 결합한 TD3-GAIL 방법을 로봇 매니퓰레이터 모방학습에 적용한다.
3. 시스템 프로세스 및 구조
본 장에서는 가상 모방학습을 위한 전문가의 교시부터 행동을 모방하는 시스템 프로세스 및 시스템 구조에 대해서 설명한다.
3.1 시스템 프로세스
로봇에 대한 다양한 작업을 요구함에 따라 로봇 교시에 대한 관심이 높아졌으나, 다관절 로봇의 경우 직접 접촉하여 교시하기 어렵다는 문제와 직접 교시로
얻어진 데이터를 바탕으로 실제 환경에서 학습하기에 안정성 및 효율성 문제가 있다. 이를 위해 가상 환경에서 다관절 로봇을 자유롭게 조작할 수 있고
학습할 수 있으나, 가상 환경에서는 데이터 불일치와 유사도 문제가 발생할 수 있다. 하지만 적대적 모방학습을 통해 경험 데이터와 생성 데이터를 같이
학습함으로써 해소할 수 있다. 따라서 본 절에서는 가상 환경에서 교시를 통해 모방학습을 수행하는 프로세스 4단계를 설명한다. 그림 2는 모방학습을 위한 시스템 프로세스 4단계를 도식화한 그림이다.
3.1.1 전문가의 교시
교시 과정에서는 전문가의 교시 정보를 수집하기 위해 원격 디바이스로부터 센서 데이터를 수집하고 사용자의 원활한 조작을 위해 민감도에 따라 스케일 값을
조정하거나 조작 모드를 제한하여 교시 정보를 전달한다.
3.1.2 시연 데이터 습득
다관절 로봇은 관절 공간(joint space)에서 움직이기 때문에, 사용자가 작업 공간(task space)으로 조작하기 위해서는 역기구학을 이용하여
관절 공간을 작업 공간으로 변환할 필요가 있다. 따라서 역기구학을 통해 교시 정보를 관절공간으로 변환하여 시뮬레이션하고 이를 상태-행동 쌍으로 매핑하는
데모 파일을 생성한다. 아래 그림 3은 전문가의 교시에 따른 시연 과정을 보여준다.
그림. 2. 모방학습을 위한 시스템 프로세스
Fig. 2. The system process for imitation learning
그림. 3. 전문가의 교시에 따른 로봇 팔의 움직임.
Fig. 3. The movement for robot arm about expert’s teaching
3.1.3 모방 학습 및 작업 재현
본 논문은 적대적 모방학습 방법을 사용하고 있으며, 기존의 DDPG와 GAIL을 결합하여 제안된 DGAIL에서 DDPG의 단점인 가치함수의 과추정
현상을 해결하기 위해 TD3와 GAIL이 결합된 알고리즘을 제안한다.
학습과정은 생성자(Generator) 네트워크를 통해 행동을 결정하고 환경과 상호 작용하여 얻어낸 데이터를 Replay buffer에 저장한다. 다음으로
식별자(Discriminator) 네트워크는 Expert Buffer로부터 샘플화된 전문가의 데모와 생성자 네트워크로부터 생성된 데모를 구분하도록
학습시킨다. 식별자 네트워크로부터 평가받은 모방 보상을 고려하여 학습 시에 Replay buffer로부터 학습 데이터를 샘플화하고 매개 변수를 갱신해야
한다. 이때의 크리틱 네트워크(Critic Network)보다 액터 네트워크(Actor Network)의 업데이트 횟수가 다르다. 이를 통해 안정적인
학습 성능을 갖는다. 그림 4는 이러한 모방학습과정에 대한 블록 다이어그램을 나타내는 그림이다.
그림. 4. 학습에 대한 블록 다이어그램
Fig. 4. The block diagram for training
3.2 시스템 구조
다관절 로봇을 위한 모방학습 시스템 구조는 크게 교시 시스템과 학습 시스템으로 나뉘며, 교시 시스템에서 사용자가 교시를 통한 데이터를 수집하고 이를
학습 시스템에서 학습한다. 그림 5는 이러한 전체적인 시스템의 구조를 나타낸다. 각각의 교시, 학습시스템은 각 세부 절에서 설명한다.
그림. 5. 전체 시스템 구조
Fig. 5. Architecture of whole system
3.2.1 교시 시스템 구성
교시 시스템은 디바이스 래퍼, 전처리 모듈, 역기구학 모듈, 가상 객체 모듈, 데이터처리 모듈로 구성된다. 디바이스 래퍼는 3D Mouse의 6자유도
센서로 수집하여 각 모듈들에게 전송한다. 전처리 모듈은 센서에서 받은 데이터와 사용자가 지정한 민감도에 따라 스케일 값을 조정하거나 축을 제한하는
모듈이다. 역기구학 모듈은 전처리된 교시 정보를 바탕으로 각 관절의 각도를 계산한다. 가상 객체 모듈은 각 관절의 각도에 따라 다관절 로봇을 시뮬레이션한다.
마지막으로, 데이터처리 모듈은 데이터 수집을 위한 모듈이다.
3.2.2 학습 시스템 구성
학습 시스템은 교시 시스템으로 전달받은 전문가의 데이터를 이용하여 모방학습을 진행하며, Python API를 사용하여 학습 환경과 통신한다. 모방학습
알고리즘은 TD3와 GAIL이 결합된 방법으로 그림 6과 같은 네트워크 구조를 가지며, 크게 생성자 네트워크 식별자 네트워크로 나눈다.
그림. 6. TD3-GAIL의 구조
Fig. 6. The architecture of TD3-GAIL
생성자 네트워크는 두 개의 크리틱 네트워크와 한 개의 액터 네트워크가 있다. 두 개의 크리틱 네트워크의 업데이트 주기를 다르며, 학습 목표를 달성할
때까지 두 개의 크리틱 네트워크가 갖는 결과에서 가장 작은 값을 학습에 사용한다. 생성자 네트워크는 아래와 같은 손실 함수를 최소화한다.
식에서 $D$는 식별자 네트워크에서 나온 모방 보상 값이다. $Q_{\pi_{1}}, Q_{\pi_{2}}$는 각각 두 개의 크리틱 네트워크를 의미한다.
생성자 네트워크의 크리틱 네트워크는 4개의 완전 연결 레이어를 사용하였다. 각각의 완전 연결 레이어 300, 200, 100개의 은닉 유닛을 가지며,
활성화 함수로 SELU(Scaled Exponential Linear Unit)와 Softmax를 사용하였다. 이때의 크리틱 네트워크의 학습률은 $10^{-3}$이다.
또한 액터 네트워크는 4개의 완전 연결 레이어를 사용하였으며, 50, 25 12개의 은닉 유닛을 가진다. 활성화 함수는 SELU와 하이퍼볼릭 탄젠트를
사용하였다. 이때의 액터 네트워크의 학습률은 $10^{-3}$이다. 생성자의 최적화 함수는 Adam Optimizer를 사용하였다.
식별자 네트워크는 아래와 같은 손실 함수를 최소화한다.
위 식에서 전문가의 경험 데이터와 생성자 네트워크의 경험 데이터를 함께 학습에 사용된다. 식별자 네트워크는 크리틱 네트워크와 동일한 은닉 유닛 개수를
가지며 활성 함수로 SELU와 Sigmoid 함수를 사용하였다. 이때의 식별자 네트워크의 학습률은 $10^{-4}$이다.
4. 구현 및 실험 결과
본 장에서는 가상 모방학습 방법에 대한 프로토타입을 구현하였으며, TD3-GAIL 알고리즘 검증 및 로봇 시나리오에 대한 작업 재현 성공률을 보여준다.
4.1 시스템 구현
모방학습을 위한 시스템 구현을 위해 2020.1.4. 버전의 Unity3D와 ML-Agents 9 플러그인을 사용하였다. 에이전트 모델로는 다음 그림 7과 같이 7자유도를 가지는 Rethink Robotics사의 Sawyer 로봇 모델을 가지고 유니티의 물리 컴포넌트인 ArticulationBody를
통해 구현하였다. 각각의 기구학 및 동역학 파라미터는 실제 Sawyer 로봇 모델을 참조하였다. 다음 그림 7은 가상환경에서 구현된 다관절 로봇을 보여준다.
그림. 7. 다관절로봇의 구조
Fig. 7. The architecture of manipulator
4.2 실험 결과
실험은 Intel i7-9700 12코어 24스레드 3.0GHz CPU와 Geforce GTX 2080 Ti GPU의 컴퓨팅 환경에서 수행되었다.
로봇 교시를 위해 교시용 디바이스로 3D connextion사의 Space mouse을 사용하였다. 전문가의 교시 데모 시나리오는 총 10번 수행하였다.
학습 및 학습 성능 평가를 위해 그림 8과 같이 25개의 복수의 에이전트를 배치하였다. 학습에 사용되는 데이터는 로봇의 각 조인트 각도(7개)와 각속도(7개) 그리고 대상 물체의 XYZ
위치 값(3개)로 총 17차원의 벡터이다.
본 논문에서 제안하는 TD3-GAIL알고리즘은 기존의 DGAIL알고리즘과 비교하여 성능을 검증한다. 그림 9는 TD3-GAIL과 DGAIL 알고리즘을 로봇 작업에 적용했을 때 평균 작업 재현 성공률을 보여주는 그래프이다. 파란선은 TD3-GAIL, 빨간선은
DGAIL 알고리즘의 평균 작업 재현 성공률을 나타낸다. 그래프의 세로축은 100번 작업에 대한 평균 작업 재현 성공률을 나타내고, 가로축은 학습
시행 횟수를 나타낸다. 학습은 작업을 100번 재연한 후 1번 실시한다.
그림. 8. 모방학습을 위한 가상환경
Fig. 8. The virtual environment for imitation learning
그림. 9. 로봇 작업에 대한 평균 작업 재현 성공률(파란선:TD3-GAIL, 빨간선: DGAIL)
Fig. 9. The average success rate for robot task(blue line: TD3-GAIL, red line: DGAIL)
5. 결 론
본 논문에서는 다관절 로봇을 위한 가상 모방학습 방법을 적용하기 위해 1) 전문가의 교시, 2) 시연 데이터 습득, 3) 모방 학습, 4) 작업 재현
단계의 방법을 제안하였다. 또한 Unity3D 엔진 기반으로 하여 가상 모방학습 방법에 대한 프로토타입을 구현하였다. 구현된 가상 모방학습을 위한
시스템에서 본 논문에서 제안하는 TD3-GAIL알고리즘을 로봇에 적용하여 기존 알고리즘과의 비교를 통해 성능을 검증하였다.
학습된 네트워크 모델이 실제 환경에서 적용 여부는 중요한 요소가 된다. 하지만 실제와 가상의 로봇 모델이나 환경의 차이로 재현하기 어렵다. 이는 sim-to-real
기술을 가상공간에서 구현함으로써 실제와 가상의 차이를 줄일 수 있다. 따라서 향후 실제 환경에서 적용하기 위한 sim-to-real 기술의 모방학습에
대한 연구를 통해 가상모델과 실제모델의 오차를 줄일 수 있도록 차후 연구에서 다룰 예정이다.
Acknowledgements
This work was supported by the Basic Science Research Program through the National
Research Foundation of Korea (NRF) funded by the Ministry of Education, Science and
Technology(NRF-2019 R1I1A3A01060151).
References
Hu-Man Lee, Jung-Bae Kim, Seong-Hun Kim, 2013, Research Trends and Major Issues of
Robot Teaching Technology, Institute of Control, Robotics and Systems, Vol. 19, No.
1, pp. 49-59
V. Villani, F. Pini, F. Leali, C. Secchi, Nov 2018, Survey on human-robot collaboration
in industrial settings: Safety, intuitive interfaces and applications, Mechatronics,
Vol. 55, pp. 248-266
T. Gašpar, B. Nemec, J. Morimoto, A. Ude, Feb 2018, Skill learning and action recognition
by arc-length dynamic move- ment primitives, Robotics and Autonomous Systems, Vol.
100, pp. 225-235
D. Lee, C. Ott, May 2011, Incremental kinesthetic teaching of motion primitives using
the motion refinement tube, Auto- nomous Robots, Vol. 31, No. 2-3, pp. 115-131
A. Hussein, F. Garcia, C. Olaverri-Monreal, 2018, ROS and Unity Based Framework for
Intelligent Vehicles Control and Simulation, 2018 IEEE International Conference on
Vehicular Electronics and Safety (ICVES)
E. Sita, C. M. Horvath, T. Thomessen, P. Korondi, A. G. Pipe, 2017, ROS-Unity3D based
system for monitoring of an industrial robotic process, 2017 IEEE/SICE International
Symposium on System Integration (SII)
A. Konrad, 2019, Simulation of Mobile Robots with Unity and ROS: A Case-Study and
a Comparison with Gazebo, Master’s thesis, Department of Engineering Science, Univer-
sity West
A. Juliani, V. Berges, E. Vckay, Y. Gao, H. Henry, M. Mattar, D. Lange, 2018, Unity:
A general platform for intelligent agents, arXiv preprint arXiv: 1809.02627
A. Billard, S. Calinon, R. Dillmann, S. Schaal, 2008, Robot Programming by Demonstration,
Springer Handbook of Robotics, Springer Berlin Heidelberg, pp. 1371-1394
A. Hussein, M. M. Gaber, E. Elyan, C. Jayne, Jun 2017, Imitation Learning, ACM Computing
Surveys, Vol. 50, No. 2, pp. 1-35
B. Fang, S. Jia, D. Guo, M. Xu, S. Wen, F. Sun, Sep 2019, Survey of imitation learning
for robotic manipulation, International Journal of Intelligent Robotics and Applications,
Vol. 3, No. 4, pp. 362-369
H. Ben Amor, G. Neumann, S. Kamthe, O. Kroemer, J. Peters, 2014, Interaction primitives
for human-robot cooper- ation tasks, 2014 IEEE International Conference on Robotics
and Automation (ICRA)
A. J. Ijspeert, J. Nakanishi, H. Hoffmann, P. Pastor, S. Schaal, Feb 2013, Dynamical
Movement Primitives: Learning Attrac- tor Models for Motor Behaviors, Neural Computation,
Vol. 25, No. 2, pp. 328-373
B. D. Ziebart, A. L. Maas, J. A. Bagnell, A. K. Dey, 2008, Maximum entropy inverse
reinforcement learning, Proc. of AAAI Conference on Artificial Intelligence, Vol.
8, pp. 1433-1438
M. Zucker, Jan 2011, Optimization and learning for rough terrain legged locomotion,
The International Journal of Robotics Research, Vol. 30, No. 2, pp. 175-191
l. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, S.,
Y. Bengio, 2014, Generative adver- sarial nets, Advances in neural information processing
systems, pp. 2672-2680
J. Ho, S. Ermon, 2016, Generative adversarial imitation learning, Advances in neural
information processing systems, pp. 4565-4573
J. Schulman, S. Levine, P. Abbeel, M. Jordan, P. Moritz, 2015, Trust region policy
optimization, International conference on machine learning, pp. 1889-1897
J. Schulman, S. Levine, P. Abbeel, M. Jordan, P. Moritz, 2015, Trust region policy
optimization, International conference on machine learning, pp. 1889-1897
G. Zuo, K. Chen, J. Lu, X. Huang, May 2020, Deterministic generative adversarial imitation
learning, Neurocomputing, Vol. 388, pp. 60-69
S. Fujimoto, H. Van Hoof, D. Meger, 2018, Addressing function approximation error
in actor-critic methods, arXiv preprint arXiv: 1802.09477
저자소개
He received the B.S. degree in computer engineering from Korea Polytechnic University
in 2020.
He is currently toward the M.S. degree with School of Electronic and Electrical Engineering,
Kyungpook National University.
He received the B.S. degree in Electronics Engineering from Kyungpook National University
in 2020.
He is currently toward the M.S. degree with School of Electronic and Electrical Engi-
neering, Kyungpook National University.
He received the B.S degree in Electronics Engineering from Kyungpook National University,
in 1999, M.S and Ph.D. degrees in Electronics Engineering from POSTECH in 2001 and
2006, respectively.
Currently, he is an Associate Professor with the School of Electronic and Electrical
Engineering, Kyungpook National University.