이정한
(Jeonghan Lee)
1iD
이재석
(Jae Suk Lee)
†iD
-
(Dept. of Electrical Engineering, Jeonbuk National University, Korea)
Copyright © The Korea Institute for Structural Maintenance and Inspection
Key words
PMSM, Torque dynamics, MDP, Q-learning
1. 서 론
고효율, 높은 전력 밀도 및 동특성을 가지는 permanent magnet synchronous motor (PMSM)는 친환경 자동차, 가전기기,
산업용 로봇 등 다양한 산업분야에서 사용되고 있다. 하지만 PMSM 구동 시스템의 가용 전압 및 전류는 제한적이며 특히 고속 운전 시 역기전력의 증가로
인해 가용 전압이 감소함에 따라 동특성이 저하된다.
모터의 동특성을 향상시키기 위해 field-oriented control (FOC)의 대역폭을 증가시키는 기법이 제안되었다 [1, 2]. 듀얼 코어 컨트롤러를 사용해 제어 시스템의 대역폭을 향상시키는 기법 [1]과 이중 샘플링을 적용하여 디지털 지연을 줄이고 대역폭을 향상시키는 방법이 제안되었다 [2]. 그러나 센싱 신호 지연, PWM 지연, 연산 시간 증가 등으로 인하여 시스템의 대역폭을 향상시키는 데에는 한계가 있다. 또한 대역폭을 향상시키면
스위칭 주파수 증가로 인해 스위칭 손실이 증가할 수도 있다.
동특성을 향상시키는 다른 방법으로는 전류 궤적을 최적화하는 방법이 있다 [3, 4]. 해밀토니안을 최소화함으로써 time optimal control (TOC)을 해석해 최적의 전류 궤적을 계산할 수 있다. 하지만 이 기법은 초월
방정식을 해결하는 데 있어서 계산 부담이 크고 매 샘플링 순간마다 TOC 계산이 필요하다.
TOC와 유사한 PMSM의 동특성 향상 기법인 model predictive control (MPC)은 비용 함수를 최소화하여 최적의 결정을 내리는
제어 기법이다 [5-7]. 프로세서 기술의 발전으로 복잡한 계산이 필요한 MPC에 대한 연구가 더욱 활발해지고 있다. 하지만 계산 복잡성이라는 근본적인 문제는 여전히 남아있다.
예측 단계를 줄이면 계산 복잡성이 완화될 수 있지만 제어 시스템이 모델 매개변수에 더 민감해질 수 있다.
동특성 향상을 위한 PMSM의 전류 궤적을 최적화하는 또 다른 기법으로는 최적화 이론 중 하나인 dynamic programming (DP)을 사용하는
방법이 있다 [8]. 하지만 이러한 방식은 적용 가능한 모델 형태 측면에서 한계가 있으며 가능한 모든 시나리오에 대해 계산을 진행하는 한계점이 있다.
모터 구동 시스템에서는 사용 가능한 전압 및 전류가 제한적이며, 이를 이용해 전류 벡터 평면에서 사용 가능한 범위를 판단할 수 있다. PMSM의 토크를
변경하는 것은 전류 벡터 평면 위의 한 지점에서 다른 지점으로 전류 벡터를 변경하는 것으로 볼 수 있다. 토크 동특성을 향상시키는 것은 벡터 평면에서
이 두 지점을 최소 시간에 통과하는 최적 궤적을 찾는 것으로 볼 수 있다. Markov Decision Process (MDP)는 궤적을 최적화하는데
사용될 수 있다 [9-12]. 전류 벡터 평면은 MDP 환경으로 표현 가능하며, 각 벡터 포인트는 state, 전류 벡터 변화 방식은 action, action으로 인한 state
변화에 걸리는 시간은 reward로 지정할 수 있다. 이러한 경우 DP를 이용해 최적 궤적을 찾는 연구가 진행되었으며 [8], 강화 학습의 한 형태인 Q-learning을 이용하여 최적 궤적을 찾는 것도 가능하다 [11-13]. Q-learning은 DP에 비해 복잡한 모델에서도 최적 궤적을 찾을 수 있는 장점이 있다.
Q-learning은 효과적인 학습을 위한 exploration과 exploitation 사이의 적절한 균형점을 찾는 데 어려움이 있다. 하지만 이러한
특징이 앞서 언급한 제어 기법에 비해 모델 설정의 유연성을 제공한다. 이러한 유연성을 통해 다른 제어 방법으로는 탐색하기 어려운 영역에서도 학습이
가능하다는 특징이 있다.
본 논문에서는 PMSM의 동특성 향상을 위한 최적 전류 벡터 궤적을 개발하고 학습하기 위해 Q-learning을 사용하고, 해당 전류 벡터 궤적이
최적 궤적임을 검증하기 위해 DP를 사용한다. 학습된 궤적은 PMSM 전류 제어 시뮬레이션 모델에 적용되고 토크 동특성에 미치는 영향을 분석한다.
2. 최적 시간 전류 궤적 개발
2.1 MDP 환경 설계
디지털 제어시스템에서는 연속적인 전류 벡터 공간을 일정한 간격으로 이산화 (descritization) 할 수 있으며, 이산화된 전류 벡터들을 state로
지정한다. 모델의 단순화를 위해 action은 두 가지 ($-i_{ds}^{r}$, $+i_{qs}^{r}$) 로 지정한다. 위 첨자 ‘r’은 rotor
reference (회전좌표계)를 의미하고 아래 첨자의 ‘s’는 stator (고정자)의 성분임을 의미한다. 최적 시간 전류 궤적을 개발하기 위해
전류 벡터 이동에 소요 되는 시간 $\Delta t$를 기준으로 reward를 계산한다.
2.1.1 State 및 action 설계
표 1의 파라미터를 이용해 모터의 정격속도 운전 시 전압 및 전류 제한 범위를 지정하고, 이 조건에서의 출력 가능한 최대 토크 (5[Nm])를 결정한다.
최대 토크를 출력하는 것을 목표로 하여 시작 state는 0[Nm]지점 (($i_{ds}^{r}$, $i_{qs}^{r}$) = (0, 0)), 종료
state는 5[Nm] 지점 (($i_{ds}^{r}$, $i_{qs}^{r}$) = (-6, 9.16))으로 설정한다. 시작 state에서 종료
state까지 이동하는데 필요한 step 수가 많을수록 더 정교한 궤적을 학습할 수 있지만 학습에 요구되는 소요시간 또한 증가하게 된다. 궤적의 정교함과
학습 소요시간 사이의 균형을 맞추기 위해 본 논문에서는 이산화 간격은 1[A] 내외, step 수는 10회 내외로 지정하였다. 이에 따라 $i_{ds}^{r}$,
$i_{qs}^{r}$을 각각 1.2[A], 1.145[A] 간격으로 이산화하고, 9행 6열의 직사각 형태로 state를 지정하였다. 그림 1(a)를 통해 운전 가능 구역 밖의 state를 확인하고 사용 불가능한 state로 향하는 action은 제거하였다. 최종적으로 결정된 sate와 action은
그림 1(b)와 같다.
그림 1. (a) 전압, 전류 제한 곡선 및 5[Nm]토크 곡선, (b) MDP 환경의 state 및 action
Fig. 1. (a) Voltage, current limit and 5[Nm] torque curve, (b) state and action of
MDP environment
표 1 PMSM의 제정수
Table 1 Parameters of PMSM drive
Parameter
|
Value
|
$R_{s}$
|
0.15[$ohm$]
|
$L_{d}$
|
1.15[${m H}$]
|
$L_{q}$
|
5.5[${m H}$]
|
$\lambda_{pm}$
|
64.7[${Wb}$]
|
${P}$
|
8
|
$\omega_{e,rated}$
|
628.3[${rad}/{s}$]
|
${I}_{\max}$
|
11[${A}$]
|
${V}_{\max}$
|
50[${V}$]
|
2.1.2 Reward 설정 원리
디지털 제어시스템 에서의 한 sampling 시간당 전류 벡터의 변화율 $\dfrac{di}{dt}$는 $\dfrac{\Delta i}{\Delta
t}$로 근사화할 수 있다. 근사화 관계를 이용하여 PMSM의 전압 방정식 (1)과 (2)를 식 (3)과 (4)로 유도하고, 각 action ($-i_{ds}^{r}$, $+i_{qs}^{r}$)에 대한 $\Delta t$의 근사치를 계산한다. $i_{ds}^{r}$,
$i_{qs}^{r}$, $\Delta i_{ds}^{r}$, $\Delta i_{qs}^{r}$은 전류 벡터의 state와 action에 의해 결정되고,
$v_{ds}^{r}$, $v_{qs}^{r}$을 제외한 나머지 파라미터들은 표 1의 값을 사용한다. 식 (3), (4)에서 볼 수 있듯이 $|v_{ds}^{r}|$, $|v_{qs}^{r}|$을 전압 제한 범위 내에서 최대로 사용할 때 $\Delta t$를 최소로
할 수 있다.
식 (3)을 이용해 ($-i_{ds}^{r}$) action에서의 $\Delta t$를 계산한다. 이 때 $i_{qs}^{r}$은 변화하지 않으므로 $\dfrac{di_{qs}^{r}}{dt}=0$이
성립하고, $v_{qs}^{r}$은 식 (2)에 의해 결정된다. $v_{ds}^{r}$의 최댓값은 $V_{\max }=\sqrt{v_{d s}^{r^2}+v_{q s}^{r^2}}$을 통해 계산되고,
($-i_{ds}^{r}$) action에서의 $\Delta t$는 식 (3)을 통해 계산된다. ($+i_{qs}^{r}$) action에서의 $\Delta t$는 식 (4)를 이용해 계산하며 ($-i_{ds}^{r}$) action과는 반대로 $\dfrac{di_{ds}^{r}}{dt}=0$이 성립하고, ($+i_{qs}^{r}$)
action에서의 $\Delta t$는 같은 방법으로 계산된다. 그림 2는 각 state에서 ($-i_{ds}^{r}$), ($+i_{qs}^{r}$) action에 따른 $\Delta t$를 나타낸다.
Q-learning은 reward를 최대로 하는 경로를 찾는 알고리즘이므로 누적 $\Delta t$를 최소로 하는 경로를 찾기 위해 $-\Delta
t$를 reward로 사용한다.
그림 2. 각 action에 따른 $\Delta t$
Fig. 2. $\Delta t$ for each action
2.2 Q-learning 적용 결과
MATLAB의 강화 학습 툴 박스를 이용해 Q-learning을 구현하였다. Q-learning은 식 (5)를 통해 각 state에서 action의 가치를 학습해 나간다. $\alpha$는 학습율이고 0에서 1 사이의 값을 가진다. 학습율이 너무 낮을 경우
학습을 완료하는데 소요되는 시간이 길어지게 된다. 반대로 학습율을 너무 높게 설정하면 최대값이 아닌 극대값에 수렴하거나 발산하게 된다. 학습율은 알고리즘을
반복적으로 적용하면서 적절한 값을 찾아가는 과정이 필요하며 본 논문에서는 최종적으로 0.01로 설정하였다. $\gamma$는 감가 인자로써 0과 1
사이의 값을 가지고 누적 reward가 같은 경우 더 적은 step 수를 가지는 episode를 판단하는 용도로 사용된다. 그림 1의 MDP 환경에서는 모든 episode가 같은 step 수를 가지므로 감가 인자는 특별한 역할을 하지 않는다. 각 state에서 가장 높은 가치를
가지는 action이 선택되면서 학습이 진행되며 무작위 변수에 의해 일정 확률로 다른 action이 선택되기도 한다. 이러한 과정을 통해 다양한 경우의
수를 탐색할 수 있다.
특정 모델에 대해 항상 같은 결과를 도출해 내는 DP의 특징을 이용하여 DP의 결과와의 비교를 통해 Q-learning의 학습 결과가 최적임을 검증하였다.
그림 3은 DP를 적용한 결과이며 그림 1(b)와 같은 9행 6열의 state를 나타낸다. 각 state에서의 화살표는 이전 state에서 선택된 action을 나타내며 그림 4(a)의 Q-learning을 적용시킨 결과와 같은 궤적을 나타낸다. 학습 결과를 모터 제어 시스템에 적용시키기 위해 각 step에 소요되는 시간을 반영해
그림 4(b)와 같이 time-domain으로 변환하였다.
그림 3. DP 적용 결과
Fig. 3. Result of DP
그림 4. (a) Q-learning 적용 결과, (b) time-domain으로 표현한 전류 벡터 궤적
Fig. 4. (a) Result of Q-learning, (b) Current vector trajectory on time-domain
3. 시뮬레이션 및 검증
3.1 전류 제어기 설계
전류 궤적 최적화의 효과를 검증하기 위해 학습된 궤적을 적용시킬 전류 제어기를 설계하였다. 인버터의 스위칭 주파수 ($f_{sw}=10k Hz$)를
기반으로 PI 제어기와 deadbeat 제어기 (DB 제어기)를 설계하였고, 효과 검증에 적합한 제어기를 선택하여 PMSM 동특성 개선 시뮬레이션
모델에 적용하였다.
PI 제어기는 pole-zero cancellation과 PMSM 시스템의 d축과 q축간 cross-coupling으로 인한 상호간섭을 제거하기 위해
표 1의 파라미터 값을 이용해 cross-coupling decoupling을 적용하였다.
PI 제어기를 사용한 경우 스위칭 주파수의 1/20로 설정된 대역폭 ($500Hz$)으로 인해 최적 전류 궤적을 따라가지 못하는 문제가 발생하였고,
$i_{ds}^{r}$의 변경이 완료되기 전에 $i_{qs}^{r}$의 변경이 시작되면서 전압 제한에 의해 지연이 발생하였다. 이러한 문제점을 해결하기
위해 DB 제어기를 설계하였다. DB 제어기는 입력받은 지령 값을 가장 적은 step에 시스템에서 출력시키는 특징을 가진다.
DB 제어기는 식 (1), (2)로부터 유도된 식 (6), (7)을 이용해 설계되었다. DB 제어기를 사용한 경우 전류가 Q-learning과 DP를 통해 개발된 최적 전류 지령에 맞추어 전압 제한에 의한 지연
없이 $i_{qs}^{r}$의 변경을 시작할 수 있었다.
그림 5는 학습된 궤적을 지령으로 입력했을 때 PI 제어기를 사용한 경우와 DB 제어기를 사용한 경우의 전류 출력을 보여준다. 전류 지령 궤적을 최적화하더라도
전류 응답이 궤적을 따라가지 못하면 최적화의 의미는 사라지게 된다. 본 논문에서는 학습된 궤적이 토크의 동특성에 주는 효과를 검증하기 위해 최적화된
전류 궤적을 따라갈 수 있는 DB 제어기를 사용하였다.
그림 5. PI 제어기와 DB 제어기를 적용한 경우의 전류 응답
Fig. 5. Current response when PI controller and DB controller are applied
3.2 시뮬레이션 결과
전류 궤적 최적화의 효과를 검증하기 위해 최적화하지 않은 경우와 비교하였으며, 스텝 함수 입력으로 한 경우를 비교군으로 설정하였다. 그림 6은 본 논문에서 제안한 제어 시스템의 전체적인 구조이다. 지령 토크를 입력하면 Q-learning을 통해 지령 토크 값에 도달하기 위한 전류 궤적을
먼저 학습한다. 이후 학습된 궤적이 전류 지령으로 입력되는 전류 제어 시스템이다. 인버터에 의해 모터로 입력되는 전압의 크기는 제한된다. 궤적을 최적화하지
않은 경우는 학습된 궤적 대신 스텝 함수를 입력하였다.
그림 6. 제안된 토크 제어 시스템
Fig. 6. Proposed torque control system
그림 7은 두 가지 경우에 대한 토크 응답을 보여준다. 전류 궤적을 입력한 경우 $i_{ds}^{r}-i_{qs}^{r}$ 평면을 이산화하는 과정에서 발생한
오차로 인해 추가 지연이 발생했음에도 불구하고 스텝 함수를 입력한 경우에 비해 토크의 동특성이 향상되었다.
그림 8은 스텝 함수를 입력한 경우와 전류 궤적을 입력한 경우에 대한 전류 응답을 $i_{ds}^{r}-i_{qs}^{r}$ 평면으로 나타낸 그래프이다.
최적 전류 궤적의 경우는 궤적 초반에 $i_{ds}^{r}$의 절대값이 최대가 되도록 변경된 이후 $i_{qs}^{r}$가 증가하는 반면 스텝 함수를
입력인 경우는 $i_{ds}^{r}$의 변경 도중 $i_{qs}^{r}$이 변경되는 것을 확인할 수 있다.
그림 9는 두 가지 경우에 대한 전류 응답을 time-domain으로 보여준다. 그림 10의 세 번째 그래프와 같이 두 경우 모두 전압을 최대로 사용했음에도 불구하고 전류 궤적을 입력한 경우가 스텝 함수를 입력한 경우보다 최종 전류값에
빠르게 도달하였다.
그림 10에서 볼 수 있듯이 정격속도 구동에 의한 역기전력으로 인해 $v_{qs}^{r}$의 초기값은 40.6[V]이다. 이 조건에서 전류 궤적을 입력한 경우는
$i_{ds}^{r}$을 변경하기 위해 $v_{ds}^{r}$을 먼저 최대로 사용한다. $i_{ds}^{r}$의 변경이 끝난 이후 $v_{ds}^{r}$의
크기를 줄이고 $i_{qs}^{r}$을 변경하기 위해 $v_{qs}^{r}$을 최대로 사용한다. 하지만 스텝 함수를 입력한 경우 $i_{ds}^{r}$과
$i_{qs}^{r}$을 동시에 변경하려고 시도함에 따라 첫 번째 스텝부터 $v_{ds}^{r}$과 $v_{qs}^{r}$을 모두 사용하려고 시도하고
전압 제한에 의해 $v_{ds}^{r}$을 사용하지 못하게 된다. $v_{qs}^{r}$이 먼저 사용됨에 따라 $|i_{ds}^{r}|$이 작은 지점에서
$i_{qs}^{r}$이 증가하게 된다. 그림 2의 각 state에서 전류 변경에 따른 $\Delta t$를 보면 $i_{ds}^{r}$의 변경에 소요되는 시간은 $i_{qs}^{r}$의 변경에
소요되는 시간에 비하면 매우 작다. 따라서 $i_{qs}^{r}$을 어디서 변경하느냐에 따라 응답시간이 크게 달라지는데 $i_{ds}^{r}$이 작을수록
$i_{qs}^{r}$의 변경에 소요되는 시간이 작아짐을 볼 수 있다.
그림 7. 입력한 전류 지령에 따른 토크 응답
Fig. 7. Torque response according to input current command
그림 8. XY plot으로 표현한 입력한 전류 지령에 따른 전류 응답
Fig. 8. Current response on XY plot according to input current command
그림 9. 입력한 전류 지령에 따른 전류 응답
Fig. 9. Current response according to input current command
그림 10. 입력한 전류 지령에 따른 전압 응답
Fig. 10. Voltage response according to input current command
4. 결 론
본 논문에서는 전압 및 전류 제한 조건에서 토크의 동특성을 개선하기 위해 전류 벡터 궤적을 최적화하는 기법을 제안한다. 최적화 방법으로는 상대적으로
모델 설정이 유연한 강화학습기법인 Q-learning을 적용하여 토크의 동특성 향상을 위한 최적 전류 벡터 궤적을 개발하였다. Q-learning의
학습 결과가 최적 결과임을 확인하기 위하여 DP를 이용하여 최적 궤적을 구현하였으며 각각의 기법으로 개발된 궤적 비교를 통하여 최적 궤적임을 검증하였다.
전류 벡터 궤적을 최적화했음에도 불구하고 전류 제어기의 대역폭의 영향으로 궤적을 따라가지 못하는 현상이 발생하였고 이러한 문제점을 개선하기 위해 DB
제어기를 사용하여 매 샘플링 시점마다 전류 지령에 따라 동작할 수 있도록 제어시스템을 구현하였다. $i_{ds}^{r}-i_{qs}^{r}$ 평면을
이산화하는 과정에서 발생한 오차로 인해 계산된 소요 시간보다 지연이 발생하였지만 스텝 함수를 입력한 경우보다 토크 응답속도가 개선되었다.
Acknowledgements
This research was supported by the National Research Foundation of Korea (NRF)
grant funded by the Korea government (MSIT) (No. 2020R1C1C1013260).
References
Y. -C. Zhuo, C. -J. Hsu, Z. -H. Qiu, and Y. -S. Lai, “Bandwidth Boost Method of Current
Control for Servo Motor Drives with Current Observer,” 2021 IEEE International Future
Energy Electronics Conference (IFEEC), Taipei, Taiwan, pp. 1-6, 2021.
A. Yoo, Y. -D. Yoon, S. -K. Sul, M. Hisatune, S. Morimoto, and K. Ide, “Design of
a Current Regulator With Extended Bandwidth for Servo Motor Drive,” 2007 Power Conversion
Conference – Nagoya, Nagoya, Japan, pp. 1308-1314, 2007.
Jong-Woo Choi and S. -K. Sul, “Generalized solution of minium time current control
in three-phase balanced systems,” IEEE Transactions on Industrial Electronics, vol.
45, no. 5, pp. 738-744, Oct. 1998.
S. Bolognani, M. Tomasini, L. Tubiana, and M. Zigliotto, “DSP-based time optimal current
control for high dynamic IPM motor drives,” 2004 IEEE 35th Annual Power Electronics
Specialists Conference (IEEE Cat. No.04CH37551), Achen, Germany, vol. 3, pp. 2197-2203,
2004.
Kay-Soon Low and Hualiang Zhuang, “Robust model predictive control and observer for
direct drive applications,” IEEE Transactions on Power Electronics, vol. 15, no. 6,
pp. 1018-1028, Nov. 2002.
L. Zhang, R. Norman, and W. Shepherd, “Long-range predictive control of current regulated
PWM for induction motor drives using the synchronous reference frame,” IEEE Transactions
on Control Systems Technology, vol. 5, no. 1, pp. 119-126, Jan. 1997.
J. ishida, S. Doki, and S. Okuma, “Fast Torque Control System of PMSM based on Model
Predictive Control Considering Overmodulation Region,” The 2010 International Power
Electronics Conference – ECCE ASIA -, Sapporo, Japan, pp. 1403-1406, 2010.
J.Lee, R.D.Lorenz, and M. Venezuela, “Time optimal and loss minimizing deadbeat-direct
torque and flux control for interior permanent magnet synchronous machines,” IEEE
Transaction. on Ind. Appl, vol. 50. no. 3, pp. 1880-1890, May-June. 2013.
M. I. Mubarak and Z. K. A. Baizal, “Tourism Route Recommendation Using Reinforcement
Learning,” 2023 IEEE 8th International Conference for Convergence in Technology (I2CT),
Lonavla, India, pp. 1-7, 2023.
A. Srivastava and S. M. Salapaka, “Parameterized MDPs and Reinforcement Learning Problems-A
Maximum Entropy Principle-Based Framework,” IEEE Transactions on Cybernetics, vol.
52, no. 9, pp. 9339-9351, Sept. 2022.
A. Habib, M. I. Khan, and J. Uddin, “Optimal route selection in complex multi-stage
supply chain networks using SARSA(λ),” 2016 19th International Conference on Computer
and Information Technology (ICCIT), Dhaka, Bangladesh, pp. 170-175, 2016.
S. Yousefi, F. Derakhshan, and A. Bokani, “Mobile Agents for Route Planning in Internet
of Things Using Markov Decision Process,” 2018 IEEE International Conference on Smart
Energy Grid Engineering (SEGE), Oshawa, ON, Canada, pp. 303-307, 2018.
J. H. Lee and J. S. Lee, “Trajectory optimization using dynamic programming and Q-learning,”
2022 IEEE 5th Student Conference on Electric Machines and Systems (SCEMS), Busan,
Korea, Republic of, pp. 1-4, 2022.
저자소개
received his B.S. degree in electrical engineering from Jeonbuk National University,
Jeonju, Korea, in 2022, where he is presently working toward his M.S. degree. His
current research interests include trajectory optimizing algorithms for time optimal
control of motor using reinforcement learning.
received his B.S. degree in electrical and computer engineering from both Inha
University, Inchon, Korea and the Illinois Institute of Technology, Chicago, IL, USA,
in 2006; and his M.S. and Ph.D. degrees in electrical and computer engineering from
the University of Wisconsin–Madison, Madison, WI, USA, in 2009 and 2013, respectively.
Since 2017, he has been with Jeonbuk National University, Jeonju, Korea. Before joining
Jeonbuk National University, he was with Kyungnam University, Changwon, Korea and
GE Global Research, Niskayuna, NY, USA, where he developed control algorithms for
AC motor drives. His current research interests include the design and implementation
of discrete-time control algorithms for electric motor drives and power converters.