• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Electrical Eng., Myongji University, Korea.)



Off-policy learning-based LQR, Reinforcement learning, Parameter estimation, Disturbance observer, Power system, Out-of-step detection

1. 서 론

제어 대상 시스템으로부터 원하는 성능을 얻기 위한 다양한 제어 기법들이 존재하고, 특히 실제 시스템에서 발생할 수 있는 파라미터 불확실성 및 다양한 외란에 대한 강인성 향상을 위해 활발한 연구가 진행되고 있다(1-4). 그 중 대표적인 제어 기법으로 적응 제어, 슬라이딩 모드 제어, 외란 관측기 기반 제어 등이 있다(1-9).

외란 관측기는 공칭 모델에 기반하여 상태 혹은 외란을 추정하고, 추정한 값을 대상 시스템의 감시 및 제어에 활용할 수 있다는 장점을 가진다(4). 대표적인 외란 관측기로는 비례 적분 관측기가 있으며 상대적으로 느리게 변하는 외란을 상수로 가정하여 출력 추정 오차의 적분으로 상태 및 외란을 모두 추정할 수 있다(10-12). 이때 외란 관측기가 실제 외란을 정확히 추정하기 위해서 시스템 모델에 대한 정보가 유용하게 사용될 수 있다.

본 논문에서는 최적 제어 기법(13,14)을 이용하여 시스템 파라미터를 추정하고 추정한 파라미터를 사용한 모델을 기반으로 외란 관측기를 설계한다. Off-policy 학습 기반 Linear Quadratic Regulator(LQR)는 강화학습을 기반으로 한 최적 제어 기법으로 Adaptive Dynamic Programming (ADP)과 데이터를 기반으로 LQR 문제를 풀어 최적의 제어 이득을 찾는 방식이다(15-18). ADP 방법을 통해 시스템 파라미터를 모르는 환경에서 시스템 상태와 입력의 누적 데이터를 사용하여 반복적으로 algebraic Riccati equation (ARE)을 풀어 최적 제어를 가능하게 한다(16). 본 논문에서는 이러한 강화학습 기반 최적 제어 기법을 이용하여 시스템 모델 파라미터를 추정하였으며 제안하는 시스템 모델 추정 기법을 사용하기 위한 조건을 예시를 통해 설명하였다.

제안하는 파라미터 추정 방법의 적용 대상으로 전력 계통의 선로 사고에 따른 동기 탈조 판별을 위한 외란 관측기 설계 문제를 고려하였다(19-22). 동기 탈조 해석은 동기발전기의 동기화 여부를 파악하는 것으로 선로 고장으로 인해 전력 시스템에 인가되는 외란을 관측기로 추정함으로써 3상 단락 고장과 같은 사고가 발생했을 때 선로 차단 이후 계통의 탈조 여부를 판별할 수 있다(23,24).

논문 (23,24)에서는 외란 관측기를 활용한 계통의 동기 탈조 예측 문제를 다루었지만 관측기를 설계할 때 대상 시스템의 모델 불확실성을 고려하지 않았기 때문에 불확실성이 있는 경우에는 보호 알고리즘에 적용되기 위한 추가적인 연구가 필요하다.

본 논문에서는 고장이 발생하지 않은 계통의 평형 운전 중에 Off-policy 학습 기반 LQR 기법을 이용하여 추정한 파라미터를 외란 관측기에 적용하여 1기 무한 모선 시스템에 인가되는 외란을 추정한다. 모의실험 결과 제안하는 방법으로 시스템 파라미터를 성공적으로 추정할 수 있고, 추정된 모델 파라미터를 사용한 외란 관측기가 동기 탈조 보호 알고리즘에 효과적으로 활용될 수 있음을 확인한다.

본 논문은 다음과 같이 구성된다. 2.1절에서 LQR 제어기를 소개하고, 2.2절에서 강화학습의 Off-policy learning을 이용하여 LQR 제어기를 설계하는 방법을 설명한다. 2.3절에서는 Off-policy 학습 기반 LQR을 이용한 시스템 파라미터 추정 기법을 제안한다. 3.1절에서는 제안하는 방법을 적용하기 위한 1기 무한모선 시스템 모델인 동요방정식과 외란을 정의하고, 3.2절에서는 대상 시스템의 파라미터 추정과 이를 이용하여 외란 관측기를 설계한다. 3.3절에서는 시스템 파라미터 추정 성능과 관측기의 외란 추정 성능을 모의실험으로 확인한다. 4장 결론으로 논문의 끝을 맺는다.

2. Off-Policy 학습 기반 LQR을 이용한 파라미터 추정

2.1 LQR 제어기 소개

본 논문에서는 시스템 파라미터 추정을 위해 아래 시스템에 대한 LQR 제어기 설계 방법을 활용한다.

(1)
$\dot{x}=A x+B u$, $y=C x$

식 (1)에서 $x\in ℝ^{n}$는 시스템 상태, $u\in ℝ^{m}$는 시스템 입력, $y\in ℝ^{r}$는 시스템 출력이고 $A\in ℝ^{n\times n}$, $B\in ℝ^{n\times m}$, $C\in ℝ^{r\times n}$는 각각 시스템 행렬, 입력 행렬, 출력 행렬이다. 시스템은 제어 가능하고 관측 가능하다고 가정한다.

LQR 제어기는 아래와 같은 성능 지수 $J$를 최소화하는 상태 궤환 제어 이득을 찾는 최적 제어 기법이다(14).

(2)
$J =\int_{0}^{\infty}(x^{T}Q x+u^{T}R u)dt$.

위 식의 행렬 $Q$는 positive semi-definite하고 $R$은 positive definite한 행렬이며 $(A,\:\sqrt{Q})$는 관측 가능하게 정한다. 이때 $J$를 최소화하는 최적 이득 $K^{*}$ 및 입력 $u^{*}$를 다음과 같이 얻을 수 있다.

(3)
$u^{*}= -K^{*}x = -R^{-1}B^{T}P^{*}x$.

위 식의 행렬 $P^{*}$는 positive definite하고 아래 식과 같은 algebraic Riccati equation(ARE)의 유일해로 주어진다(14).

(4)
$A^{T}P^{*}+P^{*}A = -Q + P^{*}BR^{-1}B^{T}P^{*}$.

또한 행렬 $A-BK^{*}$가 Hurwitz하므로 행렬 $P^{*}$는 아래 Lyapunov 행렬식을 만족하게 된다.

(5)
$(A-BK^{*})^{T}P^{*}+ P^{*}(A-BK^{*})= -Q -K^{*T}RK^{*}$.

최근까지 다양한 방식으로 LQR 문제의 해를 찾기 위한 시도가 있었으며 그 중 Lewis(15)는 강화학습 기반의 ADP를 활용한 policy iteration을 통해 LQR 문제를 해결하였고, Silva(18)는 Data-Driven 방식을 이용하여 LQR 문제를 해결하였다. 이때 시스템 파라미터는 사용되지 않으며 상태 정보만을 사용한다. Jiang은 강화학습 알고리즘과 Kleinman(13)의 알고리즘을 반복적으로 이용하여 최적 제어 LQR 문제의 해를 제시하였다(16,17). 이때 iteration 변수 $k = 0$에서부터 아래의 과정을 반복한다:

1. $A-BK_{0}$가 Hurwitz 하도록 하는 행렬 $K_{0}\in ℝ^{{m}\times{n}}$를 정한다.

2. $A_{k}:= A-BK_{k}$로 정하고 아래의 Lyapunov 행렬식을 풀어서 행렬 $P_{k}$를 구한다.

(6)
$A_{k}^{T}P_{k}+P_{k}A_{k}= -Q -K_{k}^{T}RK_{k}$.

3. 위에서 구한 $P_{k}$가 수렴할 때까지 아래와 같이 $K_{k+1}$를 정하고 2번으로 돌아간다 ($k a rrow k+1$).

(7)
$K_{k+1}= R^{-1}B^{T}P_{k}$.

위의 과정을 반복하여 $k\ge 0$인 모든 $k$에 대해서 Hurwitz한 행렬 $A-BK_{k}$를 얻을 수 있으며 이때 $P_{k}\ge P_{k+1}\ge P^{*}$가 만족되어 최적의 제어 이득 $\lim_{k\to\infty}K_{k}= K^{*}$를 구할 수 있다(16).

강화학습 알고리즘 기반 LQR 제어기는 위에서 설명한 알고리즘을 바탕으로 최적의 $P^{*}$와 $K^{*}$를 구하는 방법이다. 이때 최적 제어 이득을 계산하는 방법은 On-policy learning과 Off- policy learning이 있다(16). 이 중 Off-policy learning은 이득 $K_{0}$를 사용한 첫 제어 입력을 인가하여 일정 시간 동안 얻은 상태변수 데이터를 반복적으로 사용하여 최적의 제어 이득을 구하는 방법이다. 업데이트되는 $K_{k}$를 제어 입력에 사용하지 않기 때문에 본 논문에서는 Off-policy learning를 이용하여 LQR 이득을 결정하는 방식을 파라미터 추정에 활용한다.

2.2 Off-policy 학습 기반 LQR

식 (1)의 시스템에 대해서 일정 시간 동안 인가하는 제어 입력으로 아래 식을 고려한다 ($k\ge 0$).

(8)
$u_{k}= -K_{k}x+e$.

위 식에서 $K_{k}$는 식 (7)로 구한 상태 궤환 이득이고 $e$는 의도적으로 주입하는 학습 노이즈 신호이다(16). 식 (8)식 (1)의 시스템에 인가하면 아래 식을 얻을 수 있다.

(9)
$\dot x = A_{k}x + Be,\: A_{k}= A-BK_{k}$.

최적의 제어 이득을 구하기 위한 policy를 결정하기 위해 Lyapunov 함수를 $V = x^{T}P_{k}x$와 같이 정의하고 미분하면 다음 식을 얻을 수 있다.

(10)
$\dfrac{d}{dt}V = x^{T}(A_{k}^{T}P_{k}+P_{k}A_{k})x+2e^{T}B^{T}P_{k}x$ $ = -x^{T}Q_{k}x + 2e^{T}RK_{k+1}x.$

위 식에서 $Q_{k}= Q + K_{k}^{T}RK_{k}$이다. 식 (10)의 아래 식에 행렬 $A$와 $B$가 없으므로 이는 두 행렬을 모르는 상황에서도 최적 제어 이득 $K^{*}$를 구할 수 있음을 의미한다.

우변의 $2e^{T}RK_{k+1}x$항을 이항하여 양변을 시간 $\delta$만큼 적분하면 아래 식을 얻을 수 있다.

(11)
$x^{T}(t+\delta)P_{k}x(t+\delta)- x^{T}(t)P_{k}x(t)$ $ - 2\int_{t}^{t+\delta}e^{T}(\tau)RK_{k+1}x(\tau)d\tau$ $ = -\int_{t}^{t+\delta}x^{T}(\tau)Q_{k}x(\tau)d\tau .$

Off-policy learning은 첫 제어 입력($u_{0}$)으로 얻은 상태변수 데이터를 반복해서 사용하기 때문에 $k$번째 시행마다 식 (11)의 학습 노이즈 $e$에 새로운 신호를 인가하는 것처럼 바꿔줘야 한다. 이를 위해 아래 식과 같이 변형한 입력을 생각한다.

(12)
$u = -K_{k}x +(K_{k}x+u_{0})= -K_{k}x + e_{k}$.

위 식에서 $e_{k}$는 $k$번째 시행의 학습 노이즈로 식 (8)의 학습 노이즈 $e$ 대신 $(K_{k}x+u_{0})$가 인가된 것으로 간주할 수 있다.

행렬 $P_{k}$와 $K_{k+1}$를 구하기 위해 행렬을 열벡터로 바꿔주는 vec 연산자를 식 (11)의 양변에 적용하고 Kronecker Product 연산자를 이용하여 정리하면 아래와 같다. 이때 임의의 세 행렬 $M,\: N,\: L$의 곱에 관한 아래 성질을 활용한다(17).

(13)
$\\vec{(MNL)}=(L^{T}\otimes M)vec{(N)}$.

(14)
$(x^{T}(t+\delta)\otimes x^{T}(t+\delta)- x^{T}(t)\otimes x^{T}(t))vec{(}P_{k})$ $ -2\int_{t}^{t+\delta}(x^{T}(\tau)\otimes x^{T}(\tau))d\tau(I_{n}\otimes K_{k}^{T}R)vec{(}K_{k+1})$ $ -2\int_{t}^{t+\delta}(x^{T}(\tau)\otimes u_{0}^{T}(\tau))d\tau(I_{n}\otimes R)vec{(}K_{k+1})$ $ = -\int_{t}^{t+\delta}(x^{T}(\tau)\otimes x^{T}(\tau))d\tau vec{(}Q_{k}).$

위와 같은 policy를 반복적으로 풀기 위해 정한 시간 수열 $\left\{t_{i}:i = 1,\:2,\: ... ,\: l,\: 0\le t_{1}<t_{2}<...<t_{l}\right\}$에 대해 식 (14)를 나열하고 이를 간단히 표현하기 위해 아래 행렬들을 정의한다.

(15a)
$\delta_{xx}=\begin{bmatrix}x^{T}(t_{1}+\delta)\otimes x^{T}(t_{1}+\delta)-x^{T}(t_{1})\otimes x^{T}(t_{1})\\\vdots \\x^{T}(t_{l}+\delta)\otimes x^{T}(t_{l}+\delta)-x^{T}(t_{l})\otimes x^{T}(t_{l})\end{bmatrix}$.

(15b)
$\theta_{xx}=\begin{bmatrix}\int_{t_{1}}^{t_{1}+\delta}x^{T}(\tau)\otimes x^{T}(\tau)d\tau \\\vdots \\\int_{t_{l}}^{t_{l}+\delta}x^{T}(\tau)\otimes x^{T}(\tau)d\tau\end{bmatrix}$,

(15c)
$\theta_{xu}=\begin{bmatrix}\int_{t_{1}}^{t_{1}+\delta}x^{T}(\tau)\otimes u_{0}^{T}(\tau)d\tau \\\vdots \\\int_{t_{l}}^{t_{l}+\delta}x^{T}(\tau)\otimes u_{0}^{T}(\tau)d\tau\end{bmatrix}$.

위를 통해서 $\Theta_{k}:=\left[\delta_{xx},\: -2\theta_{xx}(I_{n}\otimes K_{k}^{T}R)-2\theta_{xu}(I_{n}\otimes R)\right]$, $\Xi_{k}:= -\theta_{xx}vec{(}Q_{k})$라고 정의하면 아래 식을 얻을 수 있다.

(16)
$\Theta_{k}\begin{bmatrix}vec{(}P_{k})\\ vec{(}K_{k+1})\end{bmatrix}=\Xi_{k}$.

위 식의 해가 유일하기 위해서는 $\Theta_{k}$의 rank가 $\dfrac{n(n+1)}{2}+nm$ 이상 되도록 해야 한다(16). 이러한 policy iteration 과정은 충분히 작은 $\epsilon >0$에 대해서 $\left\|P_{k}-P_{k-1}\right\|<\epsilon$이 만족될 때까지 이루어진다 ($k\ge 1$).

위와 같은 방법으로 시스템의 모델 정보 $A$와 $B$ 없이 구한 $P_{k}$와 $K_{k+1}$ 행렬을 이용하여 시스템의 파라미터를 추정하는 기법을 다음 절에서 소개한다.

2.3 Off-policy 학습 기반 파라미터 추정

본 절에서는 Off-policy 학습 기반 LQR을 이용하여 파라미터를 추정하는 방법을 설명한다. 앞 절에서 시스템 정보 $A$와 $B$ 없이 Off-policy 학습 기반 LQR을 통해 성능 지수 $J$를 최소화하는 행렬 $P_{k}$와 제어 이득 $K_{k+1}$을 찾을 수 있음을 확인하였다. 이를 이용하여 식 (7)로부터 매 $k$번째 시행에서 입력 행렬 추정치 $\bar{B}_{k}$는 아래와 같이 구할 수 있다. 이때 $P_{k}$는 positive definite하므로 항상 역행렬이 존재한다.

(17)
$\bar{B}_{k}=(RK_{k+1}P_{k}^{-1})^{T}$.

다음으로 행렬 $A$를 추정하기 위해 식 (17)에서 구한 $\bar{B}_{k}$를 이용하여 식 (5)를 아래와 같이 다시 정리한다.

(18)
$A^{T}P_{k}+P_{k}A =K_{k}^{T}\bar{B}_{k}^{T}P_{k}+P_{k}\bar{B}_{k}K_{k}-Q -K_{k}^{T}RK_{k}$.

위 식에서 가중치 행렬 $Q$와 $R$ 그리고 Off-policy 학습으로 구한 $P_{k}$와 $K_{k}$는 아는 값이다. 위 식으로부터 행렬 $A$를 계산하기 위해 아래와 같이 식을 정리한다.

(19)
$\Psi\Pi =\Gamma(K_{k},\:\bar{B}_{k},\: P_{k},\: Q_{k})$.

위 식에서 $\Psi\in ℝ^{(n\times n)\times j}$는 $P_{k}$의 원소들로 이루어진 행렬이고 $\Pi\in ℝ^{j\times 1}$는 추정해야할 $A$의 원소들로 이루어진 열벡터로 $j$는 추정하는 파라미터 개수를 의미한다. 행렬 $\Gamma$는 괄호 안의 행렬들로 계산된다.

$A^{T}P_{k}+P_{k}A$는 대칭 행렬이므로 행렬 $\Psi$의 rank는 최대 $\dfrac{n(n+1)}{2}$를 가진다. 이때 추정하려고 하는 행렬 $A$의 파라미터의 수가 $\dfrac{n(n+1)}{2}$개를 초과하면 행렬 $A$를 추정할 수 없다.

예를 들어 시스템 $(A,\: B)$가 제어가능하고 아래와 같이 미지의 원소들로 구성된 2차 시스템을 고려한다. 이때 출력 행렬 $C$ = $\begin{bmatrix}1& 0\end{bmatrix}$으로 가정한다.

(20)
$\dot x = Ax + Bu=\begin{bmatrix}a_{11}& a_{12}\\a_{21}& a_{22}\end{bmatrix}\begin{bmatrix}x_{1}\\x_{2}\end{bmatrix}+\begin{bmatrix}b_{1}\\b_{2}\end{bmatrix}u ,\:$ $ y = C x =\begin{bmatrix}1 & 0\end{bmatrix}x.$

위 식에 대해 Off-policy 학습 기반 LQR을 이용하여 얻은 positive definite 행렬 $P_{k}$는 다음과 같다.

(21)
$P_{k}=\begin{bmatrix}p_{11}& p_{12}\\p_{12}& p_{22}\end{bmatrix}$.

$A^{T}P_{k}+P_{k}A$를 계산하여 정리하면 아래와 같고 이를 식 (19)의 행렬 $\Psi\Pi$ 형태로 나타내면 식 (23)과 같다.

(22)
\begin{align*} A^{T}P_{k}+P_{k}A =\begin{bmatrix}2a_{11}p_{11}+2a_{21}p_{12}& a_{11}p_{12}+a_{12}p_{11}+a_{21}p_{22}+a_{22}p_{12}\\ a_{11}p_{12}+a_{12}p_{11}+a_{21}p_{22}+a_{22}p_{12}& 2a_{12}p_{12}+2a_{22}p_{22}\end{bmatrix}. \end{align*}

(23)
$\Psi\Pi =\begin{bmatrix}2p_{11}& 0& 2p_{12}& 0\\p_{12}& p_{11}&p_{22}& p_{12}\\p_{12}& p_{11}&p_{22}& p_{12}\\0& 2p_{12}&0&2p_{22}\end{bmatrix}\begin{bmatrix}a_{11}\\a_{12}\\a_{21}\\a_{22}\end{bmatrix}$.

위 식으로부터 행렬 $\Psi$의 행 계수는 3이므로 유일해 $\Pi$를 구할 수 없다. 이를 해결하기 위해 Off-policy 학습 기반 LQR 단계에서 아래의 식과 같이 출력의 적분 항이 추가된 확장된 시스템을 고려한다.

(24)
$\dot\xi = C x$.

(25)
$\dot z =\begin{bmatrix}0& 1& 0\\0& a_{11}& a_{12}\\0& a_{21}& a_{22}\end{bmatrix}z+\begin{bmatrix}0\\b_{1}\\b_{2}\end{bmatrix}u = A_{e}z+B_{e}u$.

위 식에서 $z$는 출력의 적분 항인 $\xi$로 확장된 상태 $[\xi x_{1}x_{2}]^{T}$이고 $A_{e}$와 $B_{e}$는 각각 확장된 시스템 행렬과 입력 행렬이다.

확장된 시스템에 Off-policy 학습 기반 LQR을 적용하기 위한 제어 가능성 확인을 위해 PBH test를 활용한다(25).

(26)
$\begin{bmatrix}s I-A_{e}&\vert B_{e}\end{bmatrix}=\left[\begin{bmatrix}s& -1& 0\\0& s-a_{11}& -a_{12}\\0& -a_{21}& s-a_{22}\end{bmatrix}\vert \begin{bmatrix}0\\b_{1}\\b_{2}\end{bmatrix}\right]$.

식 (26)의 $s\ne 0$일 때 시스템 $(A,\: B)$의 가제어성에 의해 준 행렬은 항상 full row rank를 가진다. 한편 $s=0$일 때 full row rank를 갖는 조건은 $a_{12}b_{2}-a_{22}b_{1}ne 0$이다. 이 값이 0이 되는 경우는 시스템 (20)의 영점이 원점에 존재하는 경우이므로 원 시스템이 원점에 영점을 갖지 않을 때 아래 조건을 만족하게 되어 확장된 시스템은 제어가능하다.

(27)
${rank}\left(\begin{bmatrix}-1& 0& 0\\-a_{11}& -a_{12}& b_{1}\\-a_{21}& -a_{22}& b_{2}\end{bmatrix}\right)= 3$.

확장된 시스템에 대해서 Off-policy 학습 기반 LQR을 적용하면 새로운 $P_{e,\: k}$와 $K_{e,\: k+1}$을 구할 수 있고 이때 시스템 행렬 $A_{e}$를 추정하는 과정에서 행렬 $\Psi_{e}$는 full rank를 가질 수 있게 된다.

시스템 (25)에 대해 Off-policy 학습 기반 LQR을 이용하여 얻은 행렬 $P_{e,\: k}$는 아래와 같다.

(28)
$P_{e,\: k}=\begin{bmatrix}p_{11}& p_{12}& p_{13}\\p_{12}& p_{22}& p_{23}\\p_{13}& p_{23}& p_{33}\end{bmatrix}$.

행렬 $A_{e}^{T}P_{e,\: k}+P_{e,\: k}A_{e}$를 계산하여 정리하면 아래와 같고 이때 $\nu$와 $\eta$는 각각 $\nu = p_{13}+a_{11}p_{23}+a_{12}p_{22}+a_{21}p_{33}+a_{22}p_{23}$와 $\eta =p_{11}+p_{12}+2a_{11}p_{22}+a_{21}(p_{23}+p_{33})$이다.

(29)
$A_{e}^{T}P_{e,\: k}+P_{e,\: k}A_{e}$ $ =\begin{bmatrix}0& p_{11}+a_{11}p_{12}+a_{21}p_{13}& a_{11}p_{13}+a_{12}p_{12}\\p_{11}+a_{21}p_{13}+a_{22}p_{12}&\eta &\nu \\a_{12}p_{12}+a_{22}p_{13}&\nu & 2a_{12}p_{23}+2a_{22}p_{33}\end{bmatrix}.$

식 (29)에서 알려진 값들을 분리하여 우변으로 이항한 후에 정리한 좌변을 행렬 $\Psi_{e}\Pi$ 형태로 나타내면 아래와 같다.

(30)
$\Psi_{e}\Pi =\begin{bmatrix}0& 0& 0& 0\\p_{12}& 0& p_{13}& 0\\0& p_{12}& 0& p_{13}\\p_{12}& 0& p_{13}& 0\\2p_{22}& 0& p_{23}+p_{33}& 0\\p_{23}& p_{22}& p_{33}& p_{23}\\0& p_{12}& 0& p_{13}\\p_{23}& p_{22}& p_{33}& p_{23}\\0& 2p_{23}& 0& 2p_{33}\end{bmatrix}\begin{bmatrix}a_{11}\\a_{12}\\a_{21}\\a_{22}\end{bmatrix}$.

식 (30)의 행렬 $\Psi_{e}$가 full column rank를 갖지 않는 경우는 $p_{12}=p_{13}$과 $p_{22}=p_{23}=p_{33}$이 동시에 만족될 때이며 $P_{e,\: k}$는 positive definite 성질에 의해 가역행렬이므로 이 조건은 성립하지 않는다. 따라서 행렬 $\Psi_{e}$는 항상 full column rank를 가지므로 유일해를 구할 수 있고 결과적으로 행렬의 추정치 $\bar{A}_{k}$를 결정할 수 있다.

본 절에서 제안한 파라미터 추정 과정을 순서도로 정리하면 그림 1과 같다.

다음 장에서는 제안하는 파라미터 추정 기법을 통해 전력 시스템의 동기 탈조 판별을 위한 외란 관측기를 설계하고 그 성능을 모의한다.

그림. 1. 제안하는 파라미터 추정 알고리즘 순서도

Fig. 1. Flow Chart of Proposed Parameter Estimation Algorithm

../../Resources/kiee/KIEE.2021.70.1.130/fig1.png

3. 동기 탈조 외란관측기 설계

3.1 시스템 모델 및 외란 정의

본 논문에서는 아래 그림과 같이 충분한 양의 발전량과 부하량을 가지는 1기 무한모선 시스템(Single Machine Infinite Bus System)을 고려한다.

그림. 2. 1기 무한모선 시스템

Fig. 2. Single Machine Infinite Bus System

../../Resources/kiee/KIEE.2021.70.1.130/fig2.png

그림 2에서 $F$는 고장 지점을 의미하며 선로에 고장이 발생하면 선로 리액턴스를 변화시켜 계통을 불안정하게 할 수 있고 심한 경우에는 동기 탈조가 발생할 수 있다. 이러한 동기 탈조 해석에 주로 사용되는 일반적인 동요방정식은 아래와 같다(19-22).

(31)
$\dfrac{H}{\pi f_{0}}\ddot\delta = P_{m}-P_{e}(\delta)+ P_{d}-\dfrac{D}{\omega_{0}}\dot\delta$.

위 식에서 $\delta$는 전력각, $f_{0}$는 동기 주파수, $\omega_{0}$는 동기 각주파수이고 $H$는 단위 관성 계수이다. 또한 $P_{m}$은 발전기에 인가되는 기계적 입력, $P_{e}(\delta)$는 발전기의 전기적 출력, $P_{d}$는 추가적인 외란이고 $D$는 댐핑 계수로 일반적으로 0에서 2[${pu}$] 범위의 값을 가진다(22).

식 (31)에서 발전기의 전기적 출력 $P_{e}(\delta)$는 다음과 같다.

(32)
$P_{e}(\delta)=\dfrac{| E | | V |}{X}\sin(\delta):= P_{\max}\sin(\delta)$.

위 식에서 $X$는 발전기와 무한모선 사이의 선로 리액턴스, $E$는 발전기 유기 기전력이고 $V$는 무한모선 전압이다. 이때 무한모선에서 전압의 크기는 일정하고 위상은 0이다.

선로에 고장이 발생하기 전에는 발전기의 기계적 출력과 전기적 출력이 평형을 이루고 있지만 고장이 발생하면 고장 발생 위치에 따라서 발전기의 전기적 출력이 달라진다. 본 논문에서는 고장으로 인한 $P_{\max}$의 변화량을 상수 $d$로 가정하여 외란 $P_{d}:= d\sin(\delta)$로 정의한다.

본 논문에서는 계통이 정상 운전 중($P_{d}= 0$)일 때 식 (31)을 아래와 같이 상태 공간 방정식으로 표현하고 앞 절에서 제안한 방법으로 파라미터를 추정하고 외란 관측기를 설계한다.

(33)
$\begin{bmatrix}\dot\delta \\\dot\omega_{\triangle}\end{bmatrix}=\begin{bmatrix}0& 1\\0& -\dfrac{D}{2H}\end{bmatrix}\begin{bmatrix}\delta \\\omega_{\triangle}\end{bmatrix}+\begin{bmatrix}0\\\dfrac{\pi f_{0}}{H}\end{bmatrix}u_{P}$.

위 식에서 $\omega_{\triangle}$는 동기 주파수에 대한 각주파수 편차이고 $u_{P}$는 $(P_{m}-P_{e}(\delta))$이며 시스템 입력으로 간주한다. 이때 $P_{e}(\delta)$의 비선형성이 학습 노이즈 역할을 하여 Off-policy 학습 기반 LQR을 이용한 파라미터 추정을 가능하게 한다.

선로 고장시 시스템 (33)은 아래의 식과 같이 쓸 수 있다.

(34)
$\begin{bmatrix}\dot\delta \\\dot\omega_{\triangle}\end{bmatrix}=\begin{bmatrix}0& 1\\0& -\dfrac{D}{2H}\end{bmatrix}\begin{bmatrix}\delta \\\omega_{\triangle}\end{bmatrix}+\begin{bmatrix}0\\\dfrac{\pi f_{0}}{H}\end{bmatrix}(u_{P}+P_{d})$.

외란 관측기를 이용하여 외란의 크기 $d$를 추정함으로써 추정한 값과 Critical Clearing Time(CCT)과의 비교를 통해서 계통의 동기 탈조 여부를 빠르게 판단할 수 있다(23).

3.2 파라미터 추정 및 외란 관측기 설계

식 (34)에 대한 정확한 외란 추정을 위한 관측기 설계를 위해 시스템 모델 정보가 필요하며 이때 파라미터 $D$와 $H$에 불확실성이 존재하는 경우 외란 관측기는 외란 이외의 다른 요소가 포함된 등가 외란을 추정하게 된다.

시스템 (34)의 추정 대상 행렬은 아래와 같다.

(35)
$A=\begin{bmatrix}0& 1\\0& -\dfrac{D}{2H}\end{bmatrix}$, $B=\begin{bmatrix}0\\\dfrac{\pi f_{0}}{H}\end{bmatrix}$.

위 식으로부터 ($A,\: B$)는 제어가능하고, 추정해야할 시스템 파라미터는 $a_{22}$와 $b_{2}$로 각 행렬에 한 개씩이다. 이때 식 (19)는 아래와 같이 정리할 수 있다.

(36)
$\Psi\Pi =\begin{bmatrix}0\\p_{12}\\p_{12}\\2p_{22}\end{bmatrix}a_{22}=\begin{bmatrix}2b_{2}k_{1}p_{12}-k_{1}^{2}-1\\b_{2}(k_{2}p_{12}+k_{1}p_{22})-k_{1}k_{2}-p_{11}\\b_{2}(k_{2}p_{12}+ k_{1}p_{22})-k_{1}k_{2}-p_{11}\\b_{2}k_{2}p_{22}-k_{2}^{2}-2p_{12}-1\end{bmatrix}$.

위 식으로부터 시스템 식 (34)는 출력의 적분 항을 추가하지 않고 원하는 파라미터를 추정할 수 있음을 알 수 있다.

충분한 반복 시행을 거쳐 추정된 시스템 파라미터 $\bar{A}_{k}\approx\bar{A}$, $\bar{B}_{k}\approx\bar{B}$라고 할 때 외란 추정을 위해 외란 $d$를 상태로 추가한 확장된 시스템 식은 다음과 같다. 이때 외란은 관측기 동특성에 비해 느리게 변하여 $\dot d\approx 0$이라고 가정한다(4,11).

(37)
\begin{align*} \begin{bmatrix}\dot x \\\dot d\end{bmatrix}=\begin{bmatrix}\bar{A}&\bar{B}\\0& 0\end{bmatrix}\begin{bmatrix}x\\d\end{bmatrix}+\begin{bmatrix}\bar{B}\\0\end{bmatrix}u,\:\\ y =\begin{bmatrix}C& 0\end{bmatrix}\begin{bmatrix}x\\d\end{bmatrix}. \end{align*}

위와 같이 확장된 시스템에 대해 관측기를 다음과 같이 설계할 수 있다.

(38)
$\left[\begin{array}{l}\dot{\hat{x}} \\ \dot{\hat{d}}\end{array}\right]=\left[\begin{array}{ll}\bar{A} & \bar{B} \\ 0 & 0\end{array}\right]\left[\begin{array}{l}\hat{x} \\ \hat{d}\end{array}\right]+\left[\begin{array}{l}\bar{B} \\ 0\end{array}\right] u+L\left[\begin{array}{ll}C & 0\end{array}\right]\left(\left[\begin{array}{l}x \\ d\end{array}\right]-\left[\begin{array}{l}\hat{x} \\ \hat{d}\end{array}\right]\right)$

위 식에서 $\hat x$와 $\hat d$은 각각 시스템 상태와 외란의 추정치이고 $L$은 관측기 이득이다. 식 (37)식 (38)을 이용하여 관측 오차 시스템을 아래와 같이 구할 수 있다.

(39)
$\left[\begin{array}{l}\dot{x} \\ \dot{\tilde{d}}\end{array}\right]=\left(\left[\begin{array}{ll}\bar{A} &\bar{B} \\ 0 &0\end{array}\right]-L\left[\begin{array}{ll}C &0\end{array}\right]\right)\left[\begin{array}{l}\tilde{x} \\ \tilde{d}\end{array}\right]$

위 행렬의 모든 고유치가 음의 실수부를 갖도록 관측기 이득 $L$을 결정하면 관측기는 시스템의 상태와 외란을 추정할 수 있다.

3.3 모의실험

모의실험에 사용되는 각각의 파라미터의 값은 표 1과 같고 시스템의 초기 상태는 $[0.46 0]^{T}$이다.

표 1. 1기 무한모선 시스템 모의실험 파라미터

Table 1. Simulation Parameters of Single Machine Infinite Bus System

$P_{\max}$

$1.8[{pu}]$

$P_{m}$

$0.8[{pu}]$

$D$

$12.5$

$H$

$5[{MJ}/{MVA}]$

$f_{0}$

$60[{Hz}]$

$\omega_{0}$

$120\pi[{rad}/\sec]$

발전 모선에서 고장 지점까지 거리 비율을 50$[%]$라고 했을 때 외란 $d$의 크기는 1.15$[{pu}]$이고 1초에 고장이 발생하고 0.27초 안에 차단기가 정상적으로 동작한 상황을 고려한다.

Off-policy learning에서 사용된 가중치 행렬 $Q$, $R$과 초기 이득값 $K_{0}$은 각각 아래와 같고 iteration이 수렴 오차 $\epsilon$의 값을 $10^{-8}$으로 설정하였다.

(40)
$Q = I$, $R = 1$, $K_{0}=\begin{bmatrix}0.1& 0.1\end{bmatrix}$

외란 관측기 설계를 위해 필요한 시스템 파라미터는 $a_{22}$와 $b_{2}$이며, 추정 행렬의 초기값은 아래와 같다.

(41)
$A_{0}=\begin{bmatrix}0& 1\\0& 0\end{bmatrix},\: B_{0}=\begin{bmatrix}0\\1\end{bmatrix}.$

그림. 3. 시스템 행렬 파라미터 $a_{22}$ 추정 결과

Fig. 3. Estimation Results for System Matrix Parameter $a_{22}$

../../Resources/kiee/KIEE.2021.70.1.130/fig3.png

그림. 4. 입력 행렬 파라미터 $b_{2}$ 추정 결과

Fig. 4. Estimation Result for Input Matrix Parameter $b_{2}$

../../Resources/kiee/KIEE.2021.70.1.130/fig4.png

그림 34는 각각 $a_{22}$와 $b_{2}$에 대한 파라미터 추정 과정과 추정 오차의 크기를 함께 나타내었다. 학습 시작 이후 8번의 시행 만에 $\left\|P_{k}-P_{k-1}\right\|<10^{-8}$이 만족되었고, $a_{22}$와 $b_{2}$에 대한 파라미터의 추정이 잘 이루어지는 것을 확인할 수 있다.

추정된 파라미터 $\bar{A}$, $\bar{B}$를 이용하여 외란 관측기를 설계하였으며 계통 주파수의 4주기 이내로 외란에 수렴하도록 하기 위한 관측기 이득 $L$을 관측 오차 행렬의 고유치가 $s= -1000$에 삼중근이 되도록 하였다.

그림 56은 추정한 시스템 모델을 이용하여 설계된 외란 관측기의 상태 및 외란 추정 성능을 보여준다. 그림 5는 동요방정식의 각속도 추정 결과이고 그림 6은 계통의 선로 고장으로부터 발생된 외란을 추정한 결과이다.

제안하는 방법(Proposed)에 의한 관측기의 추정 성능개선을 확인하기 위해 표 1의 파라미터 $H$에 10%의 오차가 존재하는 $H = 4.5[{MJ}/{MVA}]$일 때 이전 결과 (23)(Previous)와 추정 결과를 비교하였다. 파라미터 불확실성이 있을 때 이전 결과(Previous)는 외란 추정이 만족스럽지 않음을 알 수 있다. 모의실험 결과로부터 제안하는 관측기가 선로 고장으로 발생한 외란을 성공적으로 추정하는 것을 확인할 수 있다.

그림. 5. 외란 관측기의 상태 $\omega_{\triangle}$ 관측 결과

Fig. 5. Estimation Results for State $\omega_{\triangle}$ Using DOB

../../Resources/kiee/KIEE.2021.70.1.130/fig5.png

그림. 6. 외란 관측기의 외란 $d$ 관측 결과

Fig. 6. Estimation Results of disturbance $d$ of DOB

../../Resources/kiee/KIEE.2021.70.1.130/fig6.png

4. 결 론

본 논문은 Off-policy 학습 기반 LQR 제어기 설계 방법으로부터 미지의 시스템 파라미터를 추정하고 추정한 파라미터를 이용하여 모델 기반 외란 관측기를 설계하는 방법을 제안하였다. 제안하는 파라미터 추정 기법을 통해 전력 시스템의 동기 탈조 판별을 위한 외란 관측기를 설계하고 그 성능을 모의실험하였다.

모의실험으로부터 Off-policy 학습 기반 LQR을 이용한 시스템 파라미터 추정이 잘 이루어지는 것을 확인하였으며 설계된 외란 관측기가 계통에 고장이 발생하였을 때 발생되는 외란을 빠른 시간 내에 추정할 수 있음을 확인하였다.

향후 보다 일반적인 시스템에 대한 모델 불확실성 및 다양한 외란에 대한 추가 연구를 진행할 예정이다.

Acknowledgements

This research was supported by Korea Electric Power Corporation (Grant number: R17XA05-2).

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT)

(No. 2019R1F1A1058543).

References

1 
M. Krstic, P. V. Kokotovic, I. Kanellakopoulos, 1995, Non- linear and Adaptive Control Design, John Wiley & SonsGoogle Search
2 
H. K. Khalil, 2002, Nonlinear Systems, 3rd ed., Englewood Cliffs, NJ, USA: Prentice-HallGoogle Search
3 
G. F. Franlin, J. D. Powell, A. Emami-Naeini, 2010, Feed back Control of Dynamic Systems, 6nd Ed. PEARSONGoogle Search
4 
S. Li, J. Yang, W.H. Chen, X. Chen, 2013, Disturbance Observer-Based Control : Methods and Applications, CRC PressGoogle Search
5 
A. Pisano, A. Davila, L. Fridman, E. Usai, 2008, Cascade control of PM DC drives via second-order sliding-mode technique, IEEE Trans. Ind. Electron., Vol. 55, No. 11, pp. 3846-3854DOI
6 
Y. Zhou, Y. C. Soh, J. X. Shen, 2013, Speed estimation and nonmatched time-varying parameter identification for a DC motor with hybrid sliding-mode observer, IEEE Trans. Ind. Electron., Vol. 60, No. 12, pp. 5539-5549DOI
7 
Y. I. Son, I. H. Kim, D. S. Choi, H. Shim, 2015, Robust cascade control of electric motor drives using dual reduced- order PI observer, IEEE Trans. Ind. Electron., Vol. 62, pp. 3672-3682DOI
8 
W. Chen, J. Yang, L. Guo, S. Li, 2016, Disturbance-observer -based control and related methods- an overview, IEEE Trans. Ind. Electron., Vol. 63, No. 2, pp. 1083-1095DOI
9 
H. Shim, G. Park, Y. Joo, J. Back, N. H. Jo, 2016, Yet another tutorial of disturbance observer : robust stabilization and recovery of nominal performance, Control Theory and Technology, Vol. 14, No. 3, pp. 237-249DOI
10 
K. Busawon, P. Kabore, 2001, Disturbance attenuation using proportional integral observers, Int. J. of Control, Vol. 74, pp. 627-648DOI
11 
Y. I. Son, I. H. Kim, May 2010, A robust state observer using multiple integrators for multivariable LTI systems, IEICE Trans. Fundamentals, Vol. E93-A, No. 5, pp. 981-984DOI
12 
J. Yao, Z. Jiao, D. Ma, 2014, Adaptive robust control of DC motors with extended state observer, IEEE Trans. Ind. Electron., Vol. 61, No. 7, pp. 3630-3637DOI
13 
D. L. Kleinman, 1968, On an iterative technique for Riccati equation Computations, IEEE Trans. Autom. Control, pp. 114-115DOI
14 
B. D. O. Anderson, J. B. Moore, 1989, Optimal Control : Linear Quadratic Methods, Prentice-HallGoogle Search
15 
D. Vrabie, O. Pastravanu, M. Abu-Khalaf, F. Lewis., 2009, Adaptive optimal control for contiunuous-time linear systems based on policy iteration, Automatica, Vol. 45, No. 2, pp. 477-484DOI
16 
Y. Jiang, Z. P. Jiang, 2017, Robust Adaptive Dynamic Programming, IEEE PressGoogle Search
17 
H. Shim, 2019, Data-driven LQR for uncertain linear systems, ICROS Mag., Vol. 25, No. 2, pp. 37-42Google Search
18 
G. R. Gonçalves da Silva, A. S. Bazanella, C. Lorenzini, L. Campestrini, Jan 2019, Data-driven LQR control design, IEEE Control Syst. Lett., Vol. 3, No. 1, pp. 180-185DOI
19 
A. R. Bergen, V. Vittal, 2000, Power System Analysis, 2nd ed., Prentice HallGoogle Search
20 
H. Saadat, 2002, Power System Analysis, 2nd ed McGraw-HillGoogle Search
21 
G. W. Kim, S. H. Hyun, 2005, Power System Analysis Using MATLAB 1, UUPGoogle Search
22 
J. D. Glover, T. J. Overbye, M. S. Sama, 2016, Power System Analysis & Design, 6th ed., Cengage LearningGoogle Search
23 
S. Y. Jang, J. W. Kim, Y. I. Son, S. R. Nam, S. H. Kang, 2019, A study on PI observer design for line fault detection of a single machine infinite bus system, KIEE Trans., Vol. 68, No. 10, pp. 1184-1188Google Search
24 
S. J. Yang, S. Y. Jang, Y. I. Son, 2020, Design of a DQN- based DOB for line fault detection of a single machine infinite bus system against measurement noise, KIEE Trans., Vol. 69, No. 7, pp. 1095-1101DOI
25 
T. Kailath, 1980, Linear Systems, Prentice Hall, Inc.Google Search

저자소개

양선직 (Sun Jick Yang)
../../Resources/kiee/KIEE.2021.70.1.130/au1.png

He received the B.S. degree from Myongji University, Korea, in 2019, where he is cur- rently working toward the M.S. degree.

His current research interests are robust and adaptive control of electrical machines using artificial intelligence and observer.

장수영 (Su Young Jang)
../../Resources/kiee/KIEE.2021.70.1.130/au2.png

He received the B.S. and M.S. degrees from Myongji University, Korea, in 2018 and 2020, respectively.

His current research interests are robust and adaptive control of electrical machines using artificial intelligence.

손영익 (Young Ik Son)
../../Resources/kiee/KIEE.2021.70.1.130/au3.png

He received the B.S., M.S., and Ph.D. degrees from Seoul National University, Korea, in 1995, 1997 and 2002, respectively.

He was a visiting scholar at Cornell University (2007~2008) and University of Connecticut (2016~2017).

Since 2003, he has been with the Department of Electrical Engineering at Myongji University, Korea, where he is currently a professor.

His research interests include robust controller design and its application to industrial elec- tronics.