• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept.of IT Applied Engineering, Jeonbuk National University, Jeonju, Rebublic of Korea.)
  2. (Dept. of Safety Research Department Researcher, Electrical Safety Research Institute, Korea.)
  3. (Dept.of IT Applied Engineering, Jeonbuk National University, Jeonju, Rebublic of Korea. )



Topology, Reinforce learning, DQN(Deep Q-Learning), Transmission Line Reconfiguration, Energy Loss Optimization

1. 서 론

전 세계적인 에너지 패러다임 전환의 흐름 속에서 화석연료 기반 에너지 시스템의 한계와 심각한 환경 문제가 부각 되면서, 재생 가능 에너지원의 중요성이 그 어느 때보다 강조되고 있다. 특히 해상풍력 발전은 육상 풍력 발전과 비교하여 더욱 강력하고 안정적인 바람 자원을 활용할 수 있으며, 소음 및 경관 문제에서도 자유롭다는 장점을 지니고 있어 미래에너지 시스템의 핵심 요소로 주목받고 있다[1].

그러나 해상풍력 발전 시스템은 육상에 비해 접근성이 낮고 설치 및 유지보수 비용이 높다는 어려움이 존재한다. 특히 해상에 위치한 다수의 풍력 발전기에서 생산된 전력을 육상으로 효율적으로 전송하기 위해서는 송전 손실을 최소화하는 것이 시스템 전체의 경제성 확보에 필수적이다. 이러한 송전 손실은 해상풍력단지의 토폴로지, 즉 발전기 배치 및 연결 구조에 따라 크게 달라질 수 있다[2].

기존의 해상풍력단지 토폴로지 최적화 연구는 주로 초기에 토폴로지 설치 시에 토폴로지 구조를 고려하는 정적인 방법에 초점을 맞추었다. 유전 알고리즘[3], 입자 군집 최적화[4], 혼합정수계획법[5] 등을 이용하여 최적의 토폴로지를 찾는 방법들이 제안되었다. 그러나 이러한 방법들은 실시간으로 변화하는 환경에 대응하기 어렵다는 한계가 있다.

최적의 토폴로지는 전력 전송 거리를 단축하고 선로 부하를 균형 있게 분산시켜 송전 손실을 최소화하는 동시에 건설 및 유지보수 비용을 절감하는 효과를 가져온다. 하지만 해상풍력단지는 일반적으로 수십에서 수백 기에 이르는 대규모 풍력 발전기로 구성되며, 바람의 속도와 방향 등 환경적인 요인이 시시각각 변화하기 때문에 전통적인 방법으로 최적의 토폴로지를 결정하는 것은 매우 어려운 과제이다. 기존의 연구들은 특정 시점의 환경 조건을 가정하여 정적인 토폴로지를 설계하는 데 집중해왔으나, 이러한 접근 방식은 실시간으로 변화하는 해상 환경에 효과적으로 대응하기 어렵다는 한계를 지닌다[6].

해저 개폐장치(subsea switchgear)는 해상풍력발전단지의 전력 설비 중 하나로 평상시에는 개방 상태로 유지되다가, 계통에 사고가 발생했을 시 고장 구간을 신속히 차단하고 건전 구간으로 전력을 우회 공급하여 사고에 대처하는 역할을 한다[7]. 해저 개폐장치의 동작으로 계통의 토폴로지가 변경되면, 그에 따른 전력조류의 변화가 나타난다. 선행 연구에서는 이러한 특성을 바탕으로 개폐기를 통해 토폴로지를 재구성하여 고장 대응 외에도 선로손실 감소, 전압안정도 향상[8] 등 다양한 목적으로 운영이 가능하였다.

본 연구에서는 특정 환경 조건에만 최적의 토폴로지 구조를 갖고 실시간으로 대응이 힘든 기존의 문제점을 해결하기 위해 Deep Q-Network(DQN) 알고리즘 기반의 강화학습 기법을 활용하여 해상풍력단지의 발전기 토폴로지를 동적으로 제어하는 새로운 방법론을 제안한다. 강화학습은 에이전트가 주어진 환경과 상호작용하며 시행착오를 통해 최적의 행동 정책을 스스로 학습해 나가는 인공지능 기술로, 스스로 의사결정 방식을 통해 게임, 로봇, 자율주행 등 폭넓은 분야에서 인간보다 더욱 뛰어난 성과를 나타내기도 했다[9~10]. 전력 분야에서도 에너지 스케줄링[11], 전압 안정도[12] 등 선행 연구를 통해 강화학습의 효용성이 입증되었다.

본 연구에서는 해상풍력단지의 각 풍력 발전기를 에이전트로 모델링하고, 실시간으로 변화하는 바람 조건과 발전기 출력 등을 환경 정보로 입력받아 DQN 알고리즘을 통해 최적의 토폴로지 결정 정책을 학습시킨다. 이렇게 학습된 에이전트는 실시간으로 환경 변화에 적응하며 에너지 효율을 극대화하는 토폴로지를 능동적으로 결정할 수 있다.

본 연구를 통해 개발된 강화학습 기반 동적 토폴로지 제어 시스템은 기존의 정적인 토폴로지 설계 방식과 비교하여 에너지 효율성을 크게 향상시키고 송전 손실을 최소화할 수 있음을 본 논문에 제시하였다.

2. 해상풍력단지 토폴로지 시뮬레이션 모델링

본 논문에서는 그림 1과 같이 5MW급 풍력발전기 40기가 방사형 형태로 이루어진 해상풍력단지와 에너지저장장치(ESS)로 구성된 해상풍력발전소를 고려하였다. 풍력발전기는 최소 3m/s, 최대 25m/s의 풍속 조건에서 발전을 수행하며, 풍속과 풍향 데이터는 전북 부안 해상의 실측 데이터를 기준으로 1년간의 시계열 데이터를 사용하였다.

해상풍력단지 내부 계통은 33kV급 3상 400mm^2 XLPE 해저 케이블로 구성되며, 각 풍력발전기는 0.69/33kV 변압기를 통해 해저 케이블에 연계된다. 해저 케이블은 x축으로는 0.5km y축으로는 0.8km 길이로 설치되어 있으며, 총 40km의 케이블 길이를 가정하였다. 해저 케이블의 허용전류는 해저 매설 심도와 주변 해저 환경을 고려하여 820A로 설정하였다[13].

해상풍력단지에서 생산된 전력은 33/220kV 해상변전소를 통해 육상 계통에 연계된다. 해상변전소에는 50MVA급 변압기 2대가 설치되어 있으며, 220kV 해저 케이블을 통해 육상의 기존 변전소와 연결된다. 해상변전소와 육상 변전소 간의 거리는 약 20km로 가정하였다.

해상풍력단지의 토폴로지는 그림 1과 같이 방사형 구조로 구성되며, 각 풍력발전기 간 연결 지점에는 차단기가 설치되어 있다. 이 차단기들은 강화학습 기반 토폴로지 최적화 알고리즘에 의해 실시간으로 제어되며, 이를 통해 전력 손실 최소화와 출력 삭감량 저감을 도모한다.

시뮬레이션 모델에서는 해상풍력단지의 전력조류 계산을 위해 Newton-Raphson 기법을 사용하였다[14]. 또한, 해저 케이블의 임피던스는 XLPE 케이블의 일반적 특성을 반영하여 선로 길이에 비례하게 모델링하였다. 풍력발전기의 출력은 실측 풍속 데이터를 기반으로 풍력발전기 출력 곡선을 통해 계산된다.

그림 1. 해상풍력단지 토폴로지 모델

Fig. 1. Offshore Wind Farm Topology Model

../../Resources/kiee/KIEE.2024.73.11.2045/fig1.png

3. 심층 강화학습

3.1 강화학습

강화학습은 에이전트가 주어진 상태(State)에서 특정 행동(Action)을 선택하고, 그 결과로 환경(Environment)으로부터 보상(Reward)을 받으며 학습하는 과정을 반복한다. 에이전트는 행동을 할 때마다 보상을 받고 누적 보상을 최대화하는 최적 정책을 찾도록 하는 것이 에이전트의 목표이다. 강화학습에서 에이전트가 주어진 문제를 효과적이고 정확하게 학습할 수 있도록 하려면 문제의 목적에 부합하는 보상 함수를 적절히 설계하는 것이 중요하다. 정책(policy)은 에이전트가 특정 상태에서 어떤 행동을 취할지를 정의한 것으로, 강화학습에서는 이 정책을 학습하는 방식에 따라 크게 두 가지 범주로 나눌 수 있다.

첫 번째는 온폴리시(on-policy) 알고리즘으로, 학습에 사용되는 정책과 실제로 행동하는 정책이 동일한 경우를 말한다. 반면, 오프폴리시(off-policy) 알고리즘은 학습에 사용되는 정책과 행동 정책이 서로 다른 경우를 의미하며, 대표적인 예로 Q-러닝을 들 수 있다.

오프폴리시 알고리즘은 온폴리시 알고리즘과 비교했을 때 몇 가지 이점이 있다. 우선, 오프폴리시 알고리즘은 과거에 수집된 데이터를 활용하여 학습할 수 있다는 장점이 있다. 또한, 오프폴리시 알고리즘은 온폴리시 알고리즘에 비해 샘플링 효율이 높다는 특징도 가지고 있다[15].

이러한 이유로 본 연구에서는 오프폴리시 알고리즘의 대표적인 기법인 Q-러닝을 사용하여 문제를 해결하고자 하였다. Q-러닝은 모델 정보 없이 학습이 가능한 강화학습 기법으로, 행동 가치 함수인 $Q(s,\: a)$를 학습하여 최적의 정책을 찾는 데 사용된다. Q-러닝의 학습 과정은 식 (1)과 같은 반복적인 절차를 통해 이루어진다. 이 과정에서 $Q(s,\: a)$는 점진적으로 업데이트되며, 궁극적으로는 최적의 행동 가치 함수로 수렴하게 된다.

$Q(s,\: a)$가 수렴하면, 식 (2)에서와 같이 주어진 상태에서 가능한 행동 들 중 Q 값이 가장 큰 행동을 선택함으로써 최적의 정책을 결정할 수 있다. 즉, 수렴된 $Q(s,\: a)$를 바탕으로 에이전트는 각 상태에서 최선의 행동을 수행할 수 있게 된다.

(1)
$Q(s,\: a)= Q(s^{t},\: a^{t})+[R(t)+\gamma\times\max Q(s^{t+1},\: a)-Q(s^{t},\: a^{t})]$
(2)
$\left.\pi^{*}: s^{t}\right.→\arg\max_{a}Q^{*}(s^{t},\: a)$

여기서, Q(s, a)는 상태 s에서 행동 a를 선택했을 때의 기대 가치(Q-value)이고, R(s, a)는 상태 s에서 행동 a를 선택했을 때 받는 즉각적인 보상 값, γ는 가중치(Discount factor) 즉, 미래 보상에 대한 가중치이다. max[Q(s', a')]는 다음 상태 s'에서 선택 가능한 모든 행동 a'에 대한 최대 기대 가치이다.

Q-러닝은 모델 정보 없이 최적 정책을 학습할 수 있으며, 간단하고 직관적인 알고리즘이다. 또한, 이론적으로 수렴성이 보장된다는 장점이 있다. 그러나 상태와 행동 공간이 커질수록 학습 시간이 크게 증가하며, 연속적인 상태와 행동 공간을 다루기 어렵다는 한계가 있다.

3.2 심층 Q-네트워크(DQN)

DQN의 핵심 아이디어는 Q 함수를 심층 신경망으로 근사하는 것이다. 기존의 Q-러닝은 Q 테이블을 사용하여 각 상태-행동 쌍에 대한 Q 값을 저장하고 업데이트하는 방식을 취했다. 그러나 이는 상태와 행동 공간이 커질수록 메모리 사용량이 급격히 증가하고, 학습 속도가 느려지는 문제를 야기했다.

DQN은 이러한 문제를 해결하기 위해 Q 함수를 심층 신경망으로 근사한다. Q-네트워크라고 불리는 이 심층 신경망은 상태를 입력으로 받아 각 행동에 대한 Q 값을 출력하는 구조를 가진다. Q-네트워크의 학습은 경험 재현(Experience Replay)을 통해 이루어진다. 에이전트가 환경과 상호작용하면서 얻은 경험을 식 (3)과 같이 재현 버퍼(Replay Buffer)에 저장하고, 이 버퍼에서 미니배치를 샘플링하여 Q-네트워크를 학습한다.

(3)
$L(\theta^{Q})=[r^{t}+\gamma *\max Q(s,\: ^{t+1},\: a';\theta^{Q-})-Q(s^{t},\: a^{t};\theta^{Q})]^{2}$

여기서 θ'는 타겟 네트워크(Target Network)의 파라미터를 나타낸다. 타겟 네트워크는 일정 주기마다 Q-네트워크의 파라미터를 복사하여 업데이트되며, 학습의 안정성을 높이는 역할을 한다[16].

4. 토폴로지 최적화 문제 정의

4.1 토폴로지 최적화를 위한 목적 함수 및 제약 조건

본 논문에서는 전력손실을 선로 손실과 차단기 제어에 따른 무효전력 보상 장치 동작으로 정의하고 이를 최소화하는 기법을 제안한다. 차단기 제어를 전력손실로 간주한 이유는 차단기 동작 시 발생하는 저항 손실과 차단기 동작에 필요한 에너지 소모, 차단기 동작에 따른 과도현상으로 인해 전력 품질에 영향을 주며, 이러한 손실은 경제성에 영향을 끼치기 때문이다. 본 논문에서는 전력 손실 최소화를 위해 토폴로지 구조를 변경하고자 할 때 계통의 안정성을 유지하는 범위 내에서 이루어져야 한다. 이를 위해 본 논문에서는 다음과 같은 제약 조건을 고려하였다.

(4)
$V_{\min}< v_{n}^{t}<V_{\max}\quad \forall n\in N$
(5)
$i_{e}^{t}<I_{\max}\quad \forall e\in E$

여기서 $v_{n}^{t}$는 각 버스마다 시간 t에서 버스 n의 전압, $V_{\min}$과 $V_{\max}$는 전압 범위의 최소와 최대전압이고, $i_{e}^{t}$는 선로 e에서 흐르는 전류를 시간 t로 나타낸 전류이며, $I_{\max}$는 최대 허용전류, N과 E는 모든 버스와 선로의 집합을 나타낸다. 식 (4)는 각 버스의 전압이 허용 범위 내에 있어야 함을 나타내며, 식 (5)는 각 해저 케이블의 전류가 최대 허용 전류를 초과하지 않아야 함을 나타낸다. 이러한 제약 조건들은 해상풍력발전의 계통 연계 시 전압 안정성과 설비의 과부하를 방지하기 위해 반드시 고려되어야 한다.

(6)
$\Sigma(i,\: j)\in E x_{ij}= | N | -1$
(7)
$\Sigma(i,\: j)\in L_{k}s_{ij}\ge 1,\: \forall k\in K$
(8)
$$ L_{i j}^{\min } \leq L_{i j}^{\neq w} \leq L_{i j}^{\max } \forall(i, j) \in E $$

또한 방사형 구조를 유지하기 위해 식 (6)과 같은 제약 조건을 고려하였고, 식 (7)은 각 루프 k에 적어도 하나의 개방된 해저 스위치기어가 있어야 함을 나타내며 식 (8)는 해저 케이블의 길이가 최소길이와 최대길이 $L_{ij}^{\min}$,$L_{ij}^{\max}$ 사이의 값을 가져야 함을 나타낸다.

이를 바탕으로 해상풍력단지 토폴로지 최적화 문제의 목적 함수를 다음과 같이 정의하였다. $E$는 모든 선로의 집합, $R_{e}$는 시간 t에서의 선로 e의 저항, $I_{e}$는 시간 t에서의 선로 e의 전류, $Q_{e}$는 시간 t에서의 선로 e의 무효전력 손실, $I_{e_{\max}}$는 선로 e의 최대 허용 전류이며, $L_{ij}$는 노드 i와 j 사이의 선로 길이 값, N은 모든 노드의 집합, C는 차단기 조작 비용 상수이다.

(9)
\begin{align*}f_{\min}=w_{1}\times\Sigma(i,\: j)\in Er_{ij}\times\left | I_{ij(t)}^{2}\right |\\+w_{2}\times\Sigma(i,\: j)\in S \vert Q_{ij(t)\vert}\\+w_{3}\times √(\Sigma(i,\: j)\in E(\vert I_{ij(t)\vert}/I_{ij}^{\max}-\mu)^{2}/ \vert E \vert)\\+w_{4}\times\Sigma(i,\: j)\in E(L_{ij}^{\ne w}-L_{ij}^{old)}+w_{5}\times{C}\end{align*}

가중치 $w_{1}$은 전력 손실을 나타내는 항이고 $w_{2}$는 무효전력 보상에 따른 손실, $w_{3}$는 선로 부하 불균형을 나타내는 항이다. $w_{4}$는 토폴로지 구조 변경에 따른 선로 길이 변화에 대한 식이고 $w_{5}$는 차단기 조작에 따른 비용 C의 값이다. 각 항의 가중치를 조절함으로써 문제의 특성에 맞게 최적화 목표를 설정할 수 있도록 하였다.

4.2 토폴로지 최적화 문제 MDP 모델링

본 논문에서는 강화학습을 적용하기 위해 2장에서 모델링한 해상풍력발전단지 모델링을 MDP(Markov Decision Process; 마르코브 결정과정)으로 나타낸다. MDP는 상태(state), 행동(Action), 보상(Reward), 전이함수(Transition kernel), 감가율(Discount factor)로 나타내며 해상풍력발전단지 모델링을 토대로 각각 정의하면 아래와 같다.

상태(State) : 해상풍력발전단지의 구성요소와 계통의 상태를 모두 포함한다. 시간 t에 대하여 상태$s_{t}= V_{t},\: I_{t},\: P_{t},\: T_{t}$로 정의한다. 요소 또한 시간 t에 대하여 $V_{t}$는 버스의 전압을 나타내는 벡터이고, $I_{t}$는 각 해저 케이블의 전류를 나타내는 벡터, $P_{t}$는 각 풍력발전기의 출력을 나타내는 벡터, $T_{t}$는 토폴로지 구조를 나타내는 인접행렬이다.

행동(Action) : 해상풍력발전단지의 구성요소 중 제어 가능한 해저 스위치기어의 개폐 상태로 정의할 수 있다. 해저 스위치기어의 개폐 상태는 이진 변수(0:개방, 1:폐쇄)로 나타내며, 이를 조합하여 토폴로지 구조를 변경한다.

보상(Reward) : 전력손실 최소화와 전압 안정도 고려 및 선로 과부화 방지를 목표로 하는 보상함수는 식 (10)과 같이 정의하였다.

(10)
\begin{align*}Reward = \\\min w_{1}\Sigma(P_{e}^{t}loss+Q_{e}^{t}loss)+w_{2}\Sigma[V_{\min}\le v_{n}^{t}\le V_{\max}]\\+w_{3}\sqrt{(\Sigma(I_{e}^{t}/I_{e}^{\max})^{2}}+w_{4}\Sigma\left | L_{i}-L_{j}\right | +w_{5}\times C_{switching}\end{align*}

1항의 $P_{e}^{t}loss$와 $Q_{e}^{t}loss$는 각각 시간 t에서의 선로 e의 유효전력과 무효전력 손실, 2항은 전압 안정도를 나타내는 지시함수로 범위 내면 0, 벗어나면 1의 값을 가진다. 3항의 $I_{e}^{t}$는 시간 t에서의 선로 e의 전류, $I_{e}^{\max}$는 선로 e의 최대 허용 전류이며, 4항의 $L_{i}L_{j}$는 선로 I와 j의 길이이고 5항의 C는 차단 동작에 따른 비용을 나타내는 상수이다. 차단기의 차단 동작 비용은 [17]의 차단 동작비용의 산정 방식을 참조하여 설정하였다.

전이함수(Transition kernel) : 현재 상태와 선택한 행동에 따라 다음 상태로 전이될 확률을 의미하며, 해상풍력발전단지의 토폴로지 최적화 문제에서는 현재 토폴로지 구조와 풍력발전기의 출력, 그리고 선택한 차단기 동작에 따라 다음 시점의 전압, 전류, 토폴로지 구조를 확률적으로 나타낸다.

감가율(Discount factor) : $\gamma\in[0,\: 1]$는 미래 보상의 현재 가치를 나타내는 파라미터이다. 감가율이 클수록 미래의 보상을 중요하게 고려하며, 작을수록 현재의 보상에 더 가치를 둔다. 적절한 감가율을 선택함으로써 장기적인 토폴로지 구조 운영을 최적화할 수 있다.

4.3 토폴로지 최적화 문제 DQN 강화학습 학습과정

DQN의 학습 과정을 다음 표 1과 같이 정리하였다. 먼저, 하이퍼파라미터로는 감가율(γ), 학습률(α), ε-greedy 계수(ε), mini-batch 크기(K), 타겟 매개변수 업데이트 간격(C), 최대 반복 학습 수(N)를 설정한다. 다음으로 리플레이 버퍼(D)와 Q 네트워크의 가중치(θ)를 초기화하고, 초기 상태($s_{1}$)를 관측한다.

에피소드를 시작하면, 현재 상태($s_{t}$)에서 ε-greedy 정책에 따라 행동($a_{t}$)을 선택한다. 즉, ε의 확률로 무작위 행동을 선택하고, 1-ε의 확률로 Q($s_{t}$, a;θ)를 최대화하는 행동을 선택한다. 선택한 행동을 실행하고 보상($r_{t}$)과 다음 상태($s_{t+1}$)를 관측한 후, 전이 샘플($s_{t},\: a_{t},\: r_{t},\: s_{t+1}$)을 리플레이 버퍼(D)에 저장한다.

(11)
$y_{j}=r_{j}+\gamma\max_{a'}Q'(s_{j+1},\: a';\theta')$
(12)
$L(\theta)= 1/N\Sigma_{j}(y_{j}-Q(s_{j},\: a_{j};\theta))^{2}$

이후 리플레이 버퍼에서 미니배치 ($s_{j},\: a_{j},\: r_{j},\: s_{j+1}$)를 무작위로 샘플링하여 타겟 Q-값을 계산한다. 타겟 Q-값은 식 (11)로 계산되며, 여기서 θ'는 타겟 네트워크의 매개변수이다. 그 다음 손실함수는 식 (12)로 계산하고, 경사 하강법을 사용하여 Q 네트워크의 가중치 θ를 업데이트한다.

일정 주기(C)마다 타겟 네트워크의 가중치를 Q 네트워크의 가중치로 업데이트하며, 에피소드가 종료되면 ε를 κε로 감소시킨다. 이러한 과정을 최대 반복 학습수(N)만큼 반복하여 Q 네트워크를 학습시킨다. 학습이 완료되면 최적화된 Q 네트워크를 사용하여 주어진 상태에서 최적의 행동을 선택함으로써 해상풍력발전단지의 토폴로지를 최적화한다.

표 1 DQN 학습 알고리즘

Table 1 DQN learning algorithm

../../Resources/kiee/KIEE.2024.73.11.2045/tb1.png

5. 토폴로지 최적화 실행 및 평가

제안하는 DQN 강화학습 기반 토폴로지 최적화 기법의 성능을 평가하기 위해 사례 연구를 진행하였다. 풍력발전을 위한 풍향과 풍속 데이터가 1시간 단위로 존재하여 하루를 24개의 타임 스텝으로 분할하였다. 사례 연구 결과에서는 성능 비교를 위해 개폐를 전혀 하지 않는 고정 토폴로지, 무작위 차단기 개폐 토폴로지, DQN 강화학습 기반 최적화 차단기 개폐 기법을 비교하였다.

5.1 제안된 DQN 강화학습 알고리즘 적용

DQN 모델의 하이퍼파라미터는 표 2와 같이 설정하였다.

표 2 DQN 파라미터

Table 2 DQN parameters

하이퍼파라미터

감가율(γ)

0.99

학습률(α)

0.001

ε-greedy 계수(ε)

0.3에서 시작하여 0.01까지 선형적으로 감소

Mini-batch 크기(K)

64

타겟 네트워크 업데이트 주기(C)

100 스텝

최대 학습 에피소드 수(N)

5,000

DQN 모델은 총 5,000 에피소드 동안 학습되었으며, 각 에피소드는 1년(8,760시간)에 해당한다. 학습 과정에서 ε-greedy 정책을 사용하여 초기에는 0.3의 확률로 무작위 행동을 선택하고, 학습이 진행됨에 따라 점차 0.01까지 선형적으로 감소시켰다. 이를 통해 초기에는 다양한 상태와 행동을 탐험하고, 후반부에는 학습된 정책을 더 많이 활용할 수 있도록 하였다. 또한 매 학습 단계마다 64개의 샘플로 구성된 미니배치를 리플레이 버퍼에서 무작위로 추출하여 학습에 사용하였다. 또한, 100 스텝마다 타겟 네트워크를 업데이트하여 학습의 안정성을 높였다. 학습이 진행됨에 따라 에피소드 누적 보상이 증가하는 추세를 보였으며, 약 3,000 에피소드 이후로는 안정적인 수렴 양상을 나타냈다.

학습 과정에서 주기적으로 모델의 성능을 검증하기 위해, 매 500 에피소드마다 학습된 모델을 사용하여 1년간의 시뮬레이션을 수행하고 성능 지표를 평가하였다. 이를 통해 학습이 올바른 방향으로 진행되고 있는지 확인하고, 필요한 경우 학습 파라미터를 조정하였다.

5.2 토폴로지 최적화 성능 평가

학습된 DQN 모델의 성능을 평가하기 위해, 다음의 세 가지 토폴로지 제어 기법을 비교하였다.

고정(Fixed) 방식 : 초기에 설정된 토폴로지를 변경하지 않고 유지하는 방식

무작위(Random) 차단기 개폐 : 매 타임스텝마다 차단기를 무작위로 개폐하는 방식

DQN 차단기 개폐: 학습된 DQN 모델을 사용하여 최적의 차단기 개폐 상태를 결정하는 방식

위 3가지 토폴로지 제어기법에 대하여 각각 1년 간의 시뮬레이션을 수행하고, 총 에너지 생산량 (Annual Energy Production, AEP), 평균 송전 손실률 (Average Transmission Loss Ratio, ATLR) 두 가지 성능 지표를 비교하였다.

그림 2는 세 가지 토폴로지 제어 기법의 월별 평균 송전 손실률을 비교하여 나타낸 그래프이다. 무작위 차단기 개폐 방식(파란색 선)은 전반적으로 가장 높은 손실률을 나타낸다.

반면, DQN 기반 최적화 차단기 개폐 방식(녹색 선)은 연중 가장 낮고 안정적인 손실률을 유지하고 있다. 특히 주목할 만한 점은 다른 두 방식에서 손실률이 증가하는 시기에도 상대적으로 낮은 손실률을 유지한다. 또한 DQN 방식은 풍황 조건의 계절적 변화에 따라 유연하게 대응하는 모습을 보인다. 봄(3-5월)과 가을(9-11월)에는 손실률이 더욱 감소하는 경향을 보이는데, 이는 해당 시기의 풍력 발전 조건이 유리한 상황에서 DQN이 최적의 토폴로지를 선택하여 효율을 극대화하고 있음을 나타낸다.

그림 2. 월별 송전 손실률 비교 그래프

Fig. 2. Monthly transmission loss rate comparison graph

../../Resources/kiee/KIEE.2024.73.11.2045/fig2.png

그림 34는 세 가지 기법의 AEP와 ATLR을 비교한 결과를 나타낸 그래프이다. 고정 토폴로지 방식은 차단기 동작이 전혀 없어, 변화하는 풍황 조건에 적응하지 못해 상대적으로 높은 송전 손실률(5.50%)을 보였다. 무작위 차단기 개폐 방식은 매 시간 차단기를 무작위로 동작시켜(차단 횟수 = 8,760) 가장 높은 송전 손실률(5.79%)과 가장 낮은 에너지 생산량(741.72 GWh)을 기록했다. 이는 무분별한 토폴로지 변경이 오히려 시스템 효율을 저하 시킬 수 있음을 보여준다. 반면, DQN 기반 최적화 차단기 개폐 방식은 연간 에너지 생산량이 894.7 GWh로 가장 높았으며, 송전 손실률도 4.80%로 가장 낮았다. 차단기 개폐 횟수는 1,248회로, 무작위 방식에 비해 크게 줄어들어 가장 우수한 성능을 보였다.

그림 3. AEP 성능 비교 그래프

Fig. 3. Performance comparison of AEP

../../Resources/kiee/KIEE.2024.73.11.2045/fig3.png

그림 4. ATLR 성능 비교 그래프

Fig. 4. Performance comparison of ATLR

../../Resources/kiee/KIEE.2024.73.11.2045/fig4.png

6. 결 론

본 연구에서는 해상풍력발전단지의 토폴로지 최적화를 위한 심층 강화학습 기반의 새로운 접근 방식을 제안하였다. 기존의 정적인 토폴로지 설계 방식의 한계를 극복하고자, 실시간으로 변화하는 해상 환경 조건에 적응할 수 있는 Deep Q-Network (DQN) 알고리즘을 적용하였다. DQN은 모델에 대한 정확한 사전 정보 없이 스스로 학습하여 행동하기 때문에, 복잡하고 가변적인 해상 환경에 효과적으로 대응할 수 있다.

제안된 DQN 기반 최적화 차단기 개폐 방식은 40개의 5MW급 풍력발전기로 구성된 해상풍력단지 모델을 시뮬레이션하여 사례연구를 진행하였다. DQN 기반 최적화 차단기 개폐 방식은 연간 에너지 생산량(AEP)은 894.7 GWh이며, 평균 송전 손실률(ATLR)은 4.80%로 고정 토폴로지와 무작위 차단기 개폐 방식에 비해 현저히 우수한 성능을 보였다. 또한 제안된 방식은 여름철 전력 수요 피크 시기에도 효과적으로 손실률 증가를 억제하였으며, 봄과 가을의 유리한 풍력발전 조건에서는 효율을 더욱 극대화하는 모습을 보여, 계절별 풍황 변화와 전력 수요 변동에 탁월하게 대응하여 연중 안정적인 성능을 유지함을 보였다.

제안하는 기법은 전역 데이터 없이 과거 데이터만을 통한 학습으로도 전통적인 최적화 기법보다 뛰어난 수준의 성능을 보였으며. 이는 실제 운영 환경에서 데이터 수집의 제약이 있는 상황에서도 효과적으로 적용할 수 있음을 의미한다.

향후 연구에서는 더 큰 규모의 해상풍력단지와 다양한 환경 조건에서의 성능 검증을 통해 제안된 방식의 일반화 가능성을 확대할 계획이며, 토폴로지 변경에 따른 과도현상과 시스템 안정성에 대한 심층 분석을 통해 안정성을 더욱 강화하고자 한다.

Acknowledgements

This work was supported by the Korea Institute of Energy Technology Evaluation and Planning(KETEP) grant funded by the Korea government(MOTIE)(RS-2022-KP002707, Jeonbuk Regional Energy Cluster Training of human resources).

References

1 
D. B. Nah, H. S. Shin, and D. J. Nah, “Offshore Wind Power, Review,” Journal of Energy Engineering, vol. 20, no. 2, pp. 143–153, Jun. 2011.DOI:10.5855/energy.2011.20.2.14URL
2 
H. Ergun, D. Van Hertem, and R. Belmans, “Transmission System Topology Optimization for Large-Scale Offshore Wind Integration,” IEEE Transactions on Sustainable Energy, vol. 3, no. 4, pp. 908–917, Oct. 2012.DOI:10.1109/TSTE.2012.219934DOI
3 
D. Song, J. Yan, H. Zeng, X. Deng, J. Yang, X. Qu, R. M. Rizk-Allah, V. Snášel, and Y. H. Joo, “Topological Optimization of an Offshore-Wind-Farm Power Collection System Based on a Hybrid Optimization Methodology,” Journal of Marine Science and Engineering, vol. 11, no. 2, pp. 279, Jan. 2023.DOI:10.3390/jmse1102027DOI
4 
A. C. Pillai, J. Chick, L. Johanning, and M. Khorasanchi, “Offshore wind farm layout optimization using particle swarm optimization,” Journal of Ocean Engineering and Marine Energy, vol. 4, no. 1, pp. 73–88, Jan. 2018.DOI:10.1007/s40722-018-0108-DOI
5 
J.-A. Pérez-Rúa, “Solver-free heuristics to retrieve feasible points for offshore wind farm collection system,” Engineering Optimization, vol. 55, no. 10, pp. 1652–1667, Aug. 2022.DOI:10.1080/0305215X.2022.210802DOI
6 
J.-A. Pérez-Rúa, S. Lumbreras, A. Ramos, and N. A. Cutululis, “Reliability-based topology optimization for offshore wind farm collection system,” Wind Energy, vol. 25, no. 1, pp. 52–70, Jun. 2021.DOI:10.1002/we.266DOI
7 
E. Spahic, A. Underbrink, V. Buchert, J. Hanson, I. Jeromin, and G. Balzer, “Reliability model of large offshore wind farms,” in 2009 IEEE Bucharest PowerTech, pp. 1–6, Jun. 2009.DOI:10.1109/PTC.2009.528187DOI
8 
I. Sanz, M. Moranchel, J. Moriano, F. J. Rodriguez, and S. Fernandez, “Reconfiguration Algorithm to Reduce Power Losses in Offshore HVDC Transmission Lines,” IEEE Transactions on Power Electronics, vol. 33, no. 4, pp. 3034–3043, Apr. 2018.DOI:10.1109/TPEL.2017.270925DOI
9 
D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, and Y. Chen, “Mastering the game of Go without human knowledge,” Nature, vol. 550, no. 7676, pp. 354–359, Oct. 2017.DOI:10.1038/nature2427URL
10 
J. Kober, J. A. Bagnell, and J. Peters, “Reinforcement learning in robotics: A survey,” The International Journal of Robotics Research, vol. 32, no. 11, pp. 1238–1274, Aug. 2013.DOI:10.1177/027836491349572DOI
11 
S. Kim, and H. Lim, “Reinforcement Learning Based Energy Management Algorithm for Smart Energy Buildings,” Energies, vol. 11, no. 8, pp. 2010, Aug. 2018.DOI:10.3390/en1108201DOI
12 
Q. Yang, G. Wang, A. Sadeghi, G. B. Giannakis, and J. Sun, “Two-Timescale Voltage Control in Distribution Grids Using Deep Reinforcement Learning,” IEEE Transactions on Smart Grid, vol. 11, no. 3, pp. 2313–2323, May 2020.DOI:10.1109/tsg.2019.295176DOI
13 
X. Zheng, Y. Ge, Z. Lu, C. Cao, P. Zhou, S. Li, and J. Chen, “Study on Buried Depth Protection Index of Submarine Cable Based on Physical and Numerical Modeling,” Journal of Marine Science and Engineering, vol. 10, no. 2, pp. 137, Jan. 2022.DOI:10.3390/jmse1002013DOI
14 
W. Zhang, Z. Wei, and G. Sun, “Power flow calculation for power system including offshore wind farm,” in 2009 International Conference on Sustainable Power Generation and Supply, pp. 1–6, Apr. 2009.DOI:10.1109/supergen.2009.534812DOI
15 
N. Hammami, and K. K. Nguyen, “On-Policy vs. Off-Policy Deep Reinforcement Learning for Resource Allocation in Open Radio Access Network,” in 2022 IEEE Wireless Communications and Networking Conference (WCNC), pp. 1461–1466, Apr. 2022.DOI:10.1109/wcnc51071.2022.977160DOI
16 
V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. Riedmiller, “Playing atari with deep reinforcement learning,” arXiv preprint arXiv:1312.5602, 2013.DOI:10.48550/arXiv.1312.560URL
17 
Y. Gao, J. Shi, W. Wang, and N. Yu, “Dynamic Distribution Network Reconfiguration Using Reinforcement Learning,” in 2019 IEEE International Conference on Communications, Control, and Computing Technologies for Smart Grids (SmartGridComm), Oct. 2019.DOI:10.1109/smartgridcomm.2019.890977DOI

저자소개

김민재(Min-Jae Kim)
../../Resources/kiee/KIEE.2024.73.11.2045/au1.png

He is currently enrolled in a Master degree program in the dept. of IT Applied System Engineering at Jeonbuk National University. His main research interests are deep learning and energy optimization.

방준호 (Junho Bang)
../../Resources/kiee/KIEE.2024.73.11.2045/au2.png

He received B.S., M.S. and Ph.D. degrees in Department of Electrical Engineering from Jeonbuk National University, in 1989, 1991 and 1996 respectively. He was a research engineer with LG Semiconductor from 1997 to 1998. He is currently working as a professor in Division of Convergence Technology Engineering and Department of Energy/ Conversion Engineering of Graduate School, Jeonbuk National University, Jeonju, Rebublic of Korea. His main research interests include IT convergency systemdesign.

김든찬 (Deunchan Kim)
../../Resources/kiee/KIEE.2024.73.11.2045/au3.png

He is currently enrolled in a Ph.D. program at Jeonbuk National University with a master's degree in the dept. of IT Applied Systems Engineering. His main research interests are fault diagnosis and anomaly detection for power distribution facilities.

김지원 (Ji-won Kim)
../../Resources/kiee/KIEE.2024.73.11.2045/au4.png

She is currently enrolled in a enrolled in a Master degree program in the dept. of IT Applied System Engineering at Jeonbuk National University. Her main research interests are control optimization and machine learning.

박소연 (Soyeon Park)
../../Resources/kiee/KIEE.2024.73.11.2045/au5.png

She received M.S. degrees in IT application system engineering at Jeonbuk National University and currently enrolled in a doctor’s course. Her main research interests are electrical energy storage system and machine learning.

강해권 (Hae-Gweon Kang)
../../Resources/kiee/KIEE.2024.73.11.2045/au6.png

He received the M. S. degree in electrical engineering from Chonbuk National University, Korea, in 2010. He is currently a researcher in the Electrical Safety Research Institute of Korea Electrical Safety Corporation(KESCO) since 2017.

권명회 (Myeong-hoi Kwon)
../../Resources/kiee/KIEE.2024.73.11.2045/au7.png

He received B.S. and M.S. degrees in Department of Electrical Engineering from Jeonbuk National University, Hanyang Univesity in 1995 and 2003 respectively. He is currently working as a General Manager in Korea Land & Housing Corporation. His main research interests include analysis of Renewable Energy Generation System.