권경빈
(Kyung-bin Kwon)
1iD
홍수민
(Su-Min Hong)
1iD
허재행
(Jae-Haeng Heo)
1iD
정호성
(Hosung Jung)
2iD
박종영
(Jong-young Park)
†iD
-
(RaonFriends Co., Ltd., Korea.)
-
(Electrification System Research Division, Korea Railroad Research Institute, Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Energy management, ESS, Particulate matter, Policy Gradient Method, Reinforcement learning
1. 서 론
미세먼지(PM10)와 초미세먼지(PM2.5)는 각각 지름 10㎛, 지름 2.5㎛ 이하의 미세먼지를 의미하며, 심폐질환과 심혈관질환을 유발한다고 알려져
있다 (1). 특히 역사의 경우 환기가 어려운 구조 특성상 미세먼지를 포함한 대기 오염에 취약하다 (2). 따라서 역사 내 송풍기와 공조기 등 에너지설비를 활용하여 역사 내 미세먼지 농도를 조절하는 것이 필요하다.
미세먼지 저감 설비를 작동시키는 만큼 전력비용이 발생하게 되므로, 미세먼지 농도를 고려하여 미세먼지 저감 설비의 제어를 담당하는 에너지관리 에이전트의
개발이 필요하다. 이에 더하여, 전력비용을 감소시키는 방법으로 에너지 저장장치(Energy Storage System; ESS)를 활용하는 방법이
있다. 에너지 저장장치는 생산된 전기 에너지를 저장하여 전력이 필요한 시기에 사용할 수 있는 시스템으로, 전력가격이 낮을 때 충전하여 전력가격이 높을
때 방전하거나 에너지가 필요한 시설에 공급함으로써 에너지 비용을 줄일 수 있다. (3). 따라서 에너지관리 에이전트는 에너지 저장장치가 역사에 함께 설치된 경우, 미세먼지 저감 설비와 에너지 저장장치의 충·방전 제어를 동시에 시행하여
총 전력가격을 감소시킴과 동시에 역사 내 미세먼지 농도를 조절해야 한다.
그렇지만 이를 위해선 역사 내 미세먼지 농도에 영향을 주는 시간, 역사 내외의 온도, 습도 및 미세먼지 농도와 더불어, 전력비용에 영향을 주는 전력가격
등 에너지관리 에이전트의 결정에 영향을 주는 여러 가지 요소가 한꺼번에 고려되어야 한다. 이러한 요소들은 제어할 수 없는 불확실성을 가지는 요소이며,
기존의 방법들은 이를 확률분포로 모델링하여 몬테카를로 방법(Monte Carlo Method)에 기초한 표본을 토대로 문제를 해결하였다 (4). 하지만 각 역사별 역사 심도, 혼잡도, 구조 등에 따라 송풍기 및 공조기의 제어에 따른 미세먼지 농도 변화가 달라지므로 (5), 이를 고려하여 제어시스템을 구축하기 위해선 미세먼지 저감 설비와 환경과의 상호작용을 역사별로 직접 모델링을 해야 하는 문제가 있다. 이러한 문제는
불확실성을 확률분포로 모델링하는 대신, 모델에 대한 정보 없이 불확실성 데이터를 기반으로 최적 운영 정책을 찾을 수 있는 강화학습(Reinforcement
learning; RL)을 적용함으로써 해결할 수 있다.
강화학습은 현재 상태에 기초하여 선택 가능한 행동 중 총 평균 보상을 최대화하는 행동을 선택하는 최적 정책(Policy)을 선택하는 방법이다 (6). 강화학습을 적용하여 최적 정책을 찾기 위해선 매개변수화된 함수를 사용하여 정책을 직접 찾는 대신 정책에 해당하는 매개변수를 찾는 것이 더 효율적이다
(7). 이러한 매개변수화된 함수는 크게 정책을 찾는 데 활용되는 Q 함수 또는 가치함수(Value function)를 매개변수화 하는 방법과 정책을 직접
매개변수화 하는 방법이 있다. 예를 들어 Q-learning의 대표적인 방법인 Deep Q-Network (DQN) 방법은 Q 함숫값을 근사화하는
인공신경망을 구축하여 근사화된 Q 함숫값을 구한다 (8). 이때 Q 함수는 인공신경망의 가중치 행렬로 매개변수화되며, 따라서 인공신경망의 각 가중치 값을 최적화하여 최적 정책을 구한다.
반면 정책을 직접 매개변수화 하는 대표적인 방법으로는 정책 경사법(Policy Gradient Method)이 있다 (9). 정책 경사법은 정책을 조건부 확률로 나타내고, 조건부 확률의 확률분포를 매개변수화 하여 최적 매개변수를 구함으로써 최적 정책을 찾게 된다. 예를
들어 선형 정규분포 정책(Linearlized Gaussian Policy)을 가정한 경우, 조건부 확률분포를 나타내는 정규분포의 평균 및 분산을
상태(state)에 대한 선형 함수로 매개변수화하여 나타내게 된다 (10). 이 경우 각 매개변수의 최적화를 통해 이에 따른 최적 정책을 구하게 된다.
이산 행동(Discrete action)을 고려하는 경우. DQN 방법의 경우 인공신경망의 입력층 노드 개수는 상태(state)에 포함된 요소 개수와
출력층 노드 개수가 선택 가능한 행동(action)의 개수와 일치하므로 선택 가능한 행동의 개수가 증가할수록 출력층 노드의 개수도 증가하게 된다.
이는 인공신경망 전체의 노드 증가로 이어지므로 최적값을 구해야 하는 매개변수의 값도 기하급수적으로 증가하게 된다. DQN 방법을 활용한 이전 연구가
존재하지만 (12), 본 연구에서와같이 미세먼지 저감 설비의 제어에 더하여 에너지 저장장치의 충·방전 제어까지 함께 고려하는 경우 선택 가능한 행동의 개수가 많아지기
때문에 DQN 방법은 한계를 가지게 된다.
반면 정책 경사법의 경우 총 필요한 매개변수의 개수는 상태에 포함된 요소의 개수와 선택 가능한 행동의 개수의 곱으로 결정된다 (12). 따라서 DQN 방법과 비교해 훨씬 적은 매개변수로 표현할 수 있으며, 선택 가능한 행동의 증가에 따라 매개변수 수도 선형적으로 증가한다는 장점이
있다.
본 연구에서는 미세먼지 저감 설비 및 에너지 저장장치의 최적 운영 정책을 위해 지도학습에 기반한 인공신경망을 학습시켜 미세먼지 저감 설비와 저장장치
제어에 따른 다음 시간대의 미세먼지 농도를 예측하였다. 이를 토대로 최적 정책을 확률적으로 나타내는 매개변수를 직접 구하는 정책 경사법(Policy
Gradient Method)을 적용하여 강화학습 기반 에너지관리 에이전트를 개발하였다. 이를 위하여 2장에서는 마르코브 의사결정 과정에 기초한 시스템
모델링을, 3장에서는 지도학습 기반 인공신경망 기반 역사 내 미세먼지 농도 변화 예측 모델에 대하여 설명하였다. 4장에서는 3장에서 개발한 인공신경망을
마르코브 의사결정 과정의 전이함수로 사용하고, 정책 경사법을 적용하여 최적 정책을 구하였다. 5장에서는 남광주역의 실측 데이터를 기반으로 사례연구를
통해 학습된 에이전트의 성능을 분석하였으며, 6장에서는 본 연구의 결론을 서술하였다.
2. 시스템 모델링
에너지관리 에이전트의 최적 정책을 강화학습을 통해 구축하기 위해서 먼저 마르코브 성질(Markov property)을 가정하고 이를 기반으로 마르코브
결정 과정(Markov Decision Process) 기반의 시스템 모델링을 구성하였다 (13).
마르코브 결정 과정은 상태(State), 행동(Action), 전이함수(Transition kernel), 보상(Reward), 감가율(Discount
factor)을 정의하여 구성할 수 있다. 이를 위해 먼저 마르코브 결정 과정의 구성 요소를 정의하기 위한 변수를 표 1에 나타내었다.
표 1. 마르코브 결정의 구성 요소를 정의하기 위한 변수
Table 1. Variables to define the components of a Markov decision process
변수
|
변수 설명
|
$t$
|
시간
|
$L_t$(1), $O_t$(1)
|
역사 내, 외 PM2.5 미세먼지 농도
|
$I_t$(2), $O_t$(2)
|
역사 내, 외 PM10 미세먼지 농도
|
$H_t^i$, $H_t^0$
|
역사 내, 외 습도
|
$T_t^i$, $T_t^0$
|
역사 내, 외 온도
|
$v_t^{(i)}$
|
$i$번째 송풍기 제어 전력량 (kWh)
|
$w_t^{(j)}$
|
$j$번째 공조기 제어 전력량 (kWh)
|
$B_t$
|
에너지 저장장치 충ꞏ방전 신호
|
$b_t$
|
에너지 저장장치 실제 충ꞏ방전량 (kWh)
|
$c_t$
|
에너지 저장장치 충전상태 (SoC) (kWh)
|
$\bar{c}$, $\underline{c}$
|
에너지 저장장치 최대, 최소 충전량 (kWh)
|
$\beta$
|
에너지 저장장치 시간당 최대 충ꞏ방전 (kWh)
|
$p_t$
|
에너지 가격 (₩/kWh)
|
표 1에서 PM2.5, PM10 미세먼지 농도는 각각 지름이 2.5㎛, 10㎛ 보다 작은 미세먼지의 농도를 의미한다. 다음으로 에너지 저장장치의 충·방전
신호를 나타내는 $B_{t}$는 $\{-1,\:-0.5,\: 0,\: 0.5,\: 1\}$ 중 하나의 값을 가지며 –1 또는 1인 경우 $\beta$만큼
방전 또는 충전, -0.5인 경우 최대 방전 가능 용량의 50%인 0.5$\beta$만큼 방전 또는 충전함을 의미한다. $B_{t}$의 값이 0인
경우 충·방전을 진행하지 않는다.
이어서 표 1의 변수들을 활용하여 마르코브 결정 과정을 정의하는 5가지 요소는 표 2와 같이 나타내었다.
표 2. 마르코브 결정의 구성 요소
Table 2. Components of Markov decision process
구성 요소
|
정의
|
상태
|
$$s_t=\left\{s_t^e, s_t^i, s_t^b\right\}$$
$$s_t^e=\left\{t, p_t, O_t^{(1)}, O_t^{(2)}, H_t^i, H_t^0, T_t^i, T_t^o\right\}$$
$$s_t^i=\left\{I_t^{(1)}, I_t^{(2)}\right\}$$
$$s_t^b=\left\{c_t\right\}$$
|
행동
|
$$a_t=\left\{a_t^e, a_t^b\right\}$$
$$a_t^e=\left\{v_t^{(1)}, \cdots, v_t^{(K)}, w_t^{(1)}, \cdots, w_t^{(L)}\right\}$$
$$a_t^b=\left\{b_t\right\}$$
|
전이함수
|
$$\operatorname{Pr}\left(s_{t+1}^e \mid\left\{s_\tau^e\right\}_{\tau=1}^t\right)=\operatorname{Pr}\left(s_{t+1}^e
\mid s_t^e\right)$$
$$\operatorname{Pr}\left(s_{t+1}^i \mid\left\{s_\tau^e, s_\tau^e, a_\tau\right\}_{\tau=1}^t\right)=\operatorname{Pr}\left(s_{t+1}^i
\mid s_t^e, s_t^i, a_t\right)$$
$$c_{t+1}=c_t+b_t$$
|
보상
|
$$r_t\left(s_t, a_t\right)=\rho\left(\Delta_t^{(1)}+\Delta_t^{(2)}\right)-C_t$$
$$C_t=p_t\left(\sum_{k=1}^K v_t^{(k)}+\sum_{l=1}^L w_t^{(l)}+B_t\right)$$
$$\Delta_t^{(1)}=i_t^{(1)}-i_{t-1}^{(1)}, \Delta_t^{(2)}=i_t^{(2)}-i_{t-1}^{(2)}$$
|
감가율
|
$\gamma \in(0,1\rceil$
|
먼저 상태(State)는 역사 외부의 미세먼지 및 역사 내 미세먼지 농도에 영향을 주는 역사 내외의 요소를 포함하는 $s_{t}^{e}$, 역사 내
미세먼지 농도를 나타내는 $s_{t}^{i}$ 및 에너지 저장장치의 상태를 나타내는 $s_{t}^{e}$을 모두 포함한다. 마찬가지로 행동(Action)
또한 미세먼지 저감 설비의 제어를 나타내는 $a_{t}^{e}$ 및 배터리 제어를 의미하는 $a_{t}^{b}$로 정의할 수 있다. 이때 총 $K$
개의 송풍기와 $L$ 개의 공조기가 있는 경우 $a_{t}^{e}$는 총 $K+L$개의 요소를 가지게 된다.
전이함수(Transition kernel)는 상태에 포함된 $s_{t}^{e}$, $s_{t}^{i}$, $s_{t}^{e}$각각에 대하여 다르게
정의된다. 먼저 $s_{t}^{e}$는 환경에 의해 변화하는 값으로 미세먼지 저감 설비의 제어에 따라 변하지 않으므로 마르코브 성질을 따른다고 가정한다.
즉, 시간 $t+ 1$에서의 상태에서 특정 상태가 될 확률은 시간 $t$에서의 상태에 대해서만 영향을 받는 조건부 확률로 정의할 수 있으며, 이는
시간 $t-1$ 이전의 상태에는 영향을 받지 않는다는 것을 의미한다. $s_{t}^{i}$의 경우 $s_{t}^{e}$, $s_{t}^{i}$와 행동
$a_{t}$의 영향을 모두 받으므로, 마르코브 성질을 따른다는 가정하에 $\left\{s_{t}^{e},\:s_{t}^{i},\:a_{t}\right\}$에
대한 조건부 확률로 표현할 수 있다. 3장에서는 $s_{t}^{i}$의 전이함수를 지도학습 기반의 인공신경망을 학습하여 구현한다. 마지막으로 배터리의
상태를 나타내는 $c_{t}$는 실제 에너지 충·방전량인 $b_{t}$에 따라 변하게 된다. 이때 $c_{t}\in[\underline c , \bar{c}]$이므로
이를 만족하는 $b_{t}$는 최적 신호 $B_{t}$에 따라 다음과 같이 정의된다 (14).
다음으로 보상(Reward)은 미세먼지 저감 설비 및 에너지 저장장치의 제어로 인한 전력비용인 $C_{t}$ 및 역사 내 미세먼지 농도 감소인 $\triangle_{t}$
(1),$\triangle_{t}$
(2)를 통해 나타낼 수 있다. 이때 $\gamma$는 미세먼지 농도 감소로 인한 보상과 총 전력비용 간의 비를 의미하며, $\gamma$값이 클수록 미세먼지
농도 감소로 인한 이득을 더 크게 평가한다는 것을 나타낸다.
마지막으로 감가율(Discount factor) $\gamma$는 현재 얻는 보상과 미래에 얻을 수 있는 보상 간의 비를 의미하며, $(0,\:1]$
범위의 값으로 결정한다. 즉, $\gamma$의 값이 작을수록 현재의 보상을 미래에 얻는 보상의 가치보다 더 가치 있게 여김을 의미한다.
3. 역사 내 미세먼지 농도 예측 모델 개발
앞서 논의한 바와 같이, 역사 내 미세먼지 농도인 $s_{t}^{i}$의 전이함수를 표현하기 위해 인공신경망을 활용한 지도학습(Supervised
learning) 기반의 예측 모델을 개발하였다.
예측 모델의 인공신경망은 현재 상태 $s_{t}$와 행동 $a_{t}$를 입력 노드의 입력값으로, 다음 시간의 역사 내 미세먼지 농도 $s_{t+1}^{i}$를
출력 노드의 출력값으로 가진다. 이때 $k$번째 층과 $k+1$번째 층 사이에 가중치 행렬 $W_{k}$와 바이어스 $d_{k}$값을 가지는 경우
$k+1$번째 층에서의 출력 벡터값 $Y_{k+1}$는 다음과 같이 계산된다 (15).
이때 $\sigma(ꞏ)$은 $k+1$번째 층의 활성화 함수(Activation function)를 의미하며, 보통 tanh 함수, Relu 함수
등 비선형함수가 사용된다
(16). 각 층에서
식(2)의 과정을 반복하여 최종적으로 계산된 $s_{t+1}^{i}$ 값은 데이터에서 확인된 실제값 $S_{t+1}^{i}$와 비교하여 MSE(Mean-squared
Error) 값을 나타내는 손실함수 $\ell$을 다음과 같이 계산할 수 있다.
이때 인공신경망을 통하여 예측된 $s_{t+1}^{i}$이 실제값 $S_{t+1}^{i}$와 가까울수록 손실함수 $\ell$값은 작아지게 되며, 따라서
인공신경망 학습 시 손실함수 $\ell$값을 최소화하는 각 층의 가중치 행렬 $W_{k}$와 바이어스 $d_{k}$의 값을 찾는 것이 목적이 된다.
최적 행렬 $W_{k}$를 찾기 위해서 가중치 행렬의 각 요소 $w_{i}$는 경사 하강법을 이용하여 값을 업데이트하게 된다. 즉, $n+1$번째
반복 학습에서 $w_{i}$의 값은 식(4)와 같이 계산할 수 있다.
즉, 가중치 행렬의 각 요소는 손실함수 $\ell$값을 감소시키는 방향으로 업데이트를 하며, 이를 통해 반복 학습이 진행될수록 손실함수의 값은 최솟값에
다가가게 된다. 이는 인공신경망 모델의 예측값과 실제값의 차이가 최소가 됨을 의미한다.
4. Title
2장에서 정의한 보상함수 및 감가율에 기초하여, 미세먼지 저감 설비 및 에너지 저장장치 제어를 위한 최적 정책 $\pi$는 다음의 최적화 문제로 나타낼
수 있다.
이때 정책 $\pi$는 행동 $a$에 대한 조건부 확률 분포로 나타낼 수 있으며, 매개변수 $\mu$로 매개변수화 함으로써 최적 매개변수 $\mu
*$를 통해 직접적으로 정책을 표현할 수 있다. 본 논문에서는 조건부 확률분포를 분산이 $\sigma$이고 평균을 매개변수 $\mu =[\mu_{s},{\bar{\mu}}]$로
나타낼 수 있는 정규분포를 사용함으로써 최종적으로 정책 $\pi$를 아래와 나타낼 수 있다
(17).
식 (6)에 기초하여, 최종 보상함수 값 $J(\mu)$는
식(7)과 같이 정의할 수 있다.
이때 Q 함수는 특정 상태 $s$에서 특정 행동 $a$를 했을 때 기대되는 보상의 기댓값을 의미한다. 즉 정책의 매개변수 $\mu$에 대한 Q 함수는
매개변수 $\mu$에 의해 결정되는 정책 $\pi_{\mu}$에 따라 행동을 취하였을 때의 총 보상의 기댓값을 나타내며,
식(8)과 같이 나타내어진다.
$J(\mu)$의 값을 최대화하기 위해선 $\mu$에 대한 기울기 값 $\nabla_{\mu}J(\mu)$를 계산하고 경사 상승법을 토대로 $\mu$값을
업데이트해야 한다. 이때 $\nabla_{\mu}J(\mu)$는 Log-derivative trick을 활용하여 아래와 같이 구할 수 있다
(18).
따라서,
식(6)의 정규분포에
식(9)의 로그함수에 대한 기울기를 구하면 결과적으로 $\mu =[\mu_{s},\bar{\mu}]$에 대한 기울기는 아래와 같이 계산할 수 있다
(19).
추가로
식(9)의 평균값을 구하는 대신, 샘플링을 통해 평균을 구함으로써
식(9)의 값을 근사적으로 구할 수 있다. 즉, 시간 $T$까지 정책 $\mu_{\pi}$를 따라 발생한 샘플 결과인 $\left\{s_{0},\:a_{0},\:s_{1},\:a_{1},\:\cdots
,\:s_{T},\:a_{T}\right\}$에 대하여, Q 함수의 기댓값 및 이에 따른 기울기의 근삿값 $\hat\nabla_{\mu}J(\mu)$은
각각
식(12),
(13)과 같이 구할 수 있다.
식 (13)의 기울기를 토대로 경사 상승법을 적용하여, $n$번째 반복 학습에서 매개변수 $\mu^{n}$ 은 학습률을 $\alpha$라 할 때 다음과 같이
업데이트가 진행된다.
최종적으로 3장과 4장의 내용에 기초하여 강화학습 기반 에너지관리 에이전트의 학습 알고리즘은
그림 1과 같다.
그림. 1. 에너지관리 에이전트 최적 운영 알고리즘
Fig. 1. Energy Management Agent optimal operation algorithm
5. 사례연구
그림 1의 알고리즘의 효과를 입증하기 위하여 (11)의 사례연구와 같이 광주 남광주역의 데이터에 기초하여 사례연구를 진행하였다. 미세먼지 저감 설비의 경우 송풍기 3개($K=3$), 공조기 2개($L=2$)에
대하여 송풍기는 총 3개의 운전 모드, 공조기는 총 2개의 운전 모드를 선택할 수 있다고 가정하였으며 이에 따라 미세먼지 저감 설비의 총 선택 가능한
행동 수는 $3^{3}\times 2^{2}=108$로 설정하였다. 추가로 에너지 저장장치는 표 1에서 한 설명과 같이 최대 충·방전, 50% 충·방전, 충·방전을 실시하지 않는 총 5가지의 제어 신호를 사용하였다. 그 결과 총 선택 가능한 행동
수는 $3^{3}\times 2^{2}\times 5=540$개로 설정하였다.
예측 모델의 인공신경망과 정책 경사법은 그림 1의 알고리즘에 기초하여 Python과 Keras 패키지를 이용하여 구현하였다 (20). 학습 시 15분 단위로 업데이트된 한 달간의 데이터를 활용하여 학습을 진행하였으며 ($T=2880$), $\rho$값은 1로 설정하였다. 전력가격의
경우 EPSIS 전력통계정보시스템에서 제공하는 시간별 SMP 데이터를 사용하였다 (21). 에너지 저장장치의 경우 100kWh의 용량에 15분 단위로 10kWh를 충전할 수 있다고 가정하였으며, 최소 SoC는 10kWh로 설정하였다.
먼저 알고리즘 1을 토대로 진행한 학습 결과는 아래와 같다. 먼저 역사 내 미세먼지 예측모델 학습 결과 MSE값인 손실함수 값은 0.042로 매우
작은 값을 가짐을 확인하였다. 이어서 그림 2는 학습 과정 중 평균 총 보상과 평균 기울기 값의 변화를 나타낸다. 두 그림에서 나타난 바와 같이, 학습이 진행됨에 따라 평균 총 보상은 대체로
증가하고, 평균 기울기 값은 0에 가까워지는 것을 확인할 수 있다. 이때 평균 기울기 값이 0에 가까이 수렴하고, 평균 총 보상은 이에 따라 최댓값을
가지는 것을 통해 최적 정책에 다다랐음을 알 수 있다. 추가로 반복 중 평균 총보상이 감소하는 것을 확인할 수 있는데, 이는 식(13)과 같이 기울기의 근삿값을 사용하면서 발생하는 부정확함에 기인한다. 이때 평균 기울기 값은 증가하게 되면서, 최적 정책에 다시 수렴하도록 함으로써
평균 총보상 값은 다시 증가하게 된다.
이어서 학습된 인공신경망을 토대로 4일간의 데이터를 토대로 학습 과정에서 구한 최적 정책에 기초하여 미세먼지 저감 설비 및 에너지 저장장치 제어에
대한 테스트를 진행하였다.
그림. 2. 정책 경사법 학습 과정 중 평균 총보상 및 평균 기울기 값의 변화
Fig. 2. Changes in average total reward and average slope values during policy gradient
learning process
그림 3과
그림 4는 미세먼지 저감 설비의 제어 수준에 따른 PM2.5, PM10 농도 변화를 나타낸다. 여기서 미세먼지 저감 설비의 제어 수준은 높을수록 더 많은
총 전력사용량을 가지는 것을 의미한다. 두 그림에서 볼 수 있듯이, 학습 과정에서 구한 정책은 에너지 설비의 제어 수준을 높임으로써 미세먼지 농도가
어느 수준 이상을 넘어가지 않도록 제어하는 것을 확인할 수 있다. 이때
그림 3과
그림 4의 농도가 거의 비슷하게 제어되는 것을 확인할 수 있는데, 이는 실측 데이터에서 PM2.5 및 PM10 농도가 거의 같은 추이로 변하기 때문이며,
따라서 아래 결과를 통해 실측 데이터의 추이를 잘 따라고 있음을 확인할 수 있다.
그림. 3. 시간대별 미세먼지 저감 설비 전력사용량 제어에 따른 역사 내 PM2.5 농도 변화
Fig. 3. Changes in PM2.5 concentration in stations according to power consumption
control of fine dust reduction facilities by time
그림. 4. 시간대별 미세먼지 저감 설비 전력사용량 제어에 따른 역사 내 PM10 농도 변화
Fig. 4. Changes in PM10 concentration in stations according to power consumption control
of fine dust reduction facilities by time
추가로 전력가격 및 에너지 저장장치 저장상태는
그림 5와 같다. 직관적으로 시장가격이 높아지면 에너지 저장장치는 방전을, 시장가격이 낮아지면 충전을 진행하는 것을 확인할 수 있다. 이를 통해 에너지 저장장치는
추가적인 이득을 얻을 수 있으며, 결과적으로 미세먼지 저감 설비를 제어하는데 필요한 전력비용 일부를 충당함으로써 총비용을 감소시키는 역할을 한다.
그림. 5. 시간대별 시장가격에 따른 에너지 저장장치 저장상태
Fig. 5. SoC of ESS according to market price by time period
6. 결 론
본 논문에서는 인공신경망의 지도학습과 정책 경사법을 토대로, 역사 내 미세먼지 농도를 관리하기 위해 미세먼지 저감 설비 및 에너지 저장장치를 제어하는
에너지관리 에이전트를 개발하였다. 이를 위해 시간, 온도, 습도, 미세먼지 농도 및 전력가격 등 미세먼지 농도 및 에너지 저장장치 제어에 영향을 주는
변수들을 고려하여 마르코브 의사결정 모델을 구성하였다. 이때 미세먼지 저감 설비의 제어에 따른 역사 내 미세먼지 농도 변화를 예측하기 위해 지도학습에
기초한 인공신경망을 구성하고 이를 학습하여 전이함수로 사용하였다. 이어서 정책 경사법을 적용하여 정규분포를 따르는 조건부 확률 형태의 최적 정책을
직접 구함으로써 에너지관리 에이전트의 정책을 완성하였다. 사례연구에서는 남광주역에서 측정한 실제 데이터를 활용하여 학습을 통해 구현한 정책이 역사
내 미세먼지 농도를 제어하고, 에너지 저장장치의 충·방전 제어를 통해 결과적으로 총 전력비용을 감소시키는 것을 확인하였다. 후속 연구로는 본 논문에서
개발한 에너지관리 에이전트를 기존의 운영 방법과 비교함으로써 본 논문에서 개발한 방법의 유효성을 입증하는 것을 제안한다.
Acknowledgements
This research was supported by a grant from R&D Program (Virtualization-based railway
station smart energy management and performance evaluation technology development,
PK2203E1) of the Korea Railroad Research Institute.
References
D. C. Shin, 2007, Health Effects of Ambient Particulate Matter, Journal of the Korean
Medical Association, Vol. 50, No. 2, pp. 175-182
B. Jung, Feb 2021, Measurement and Management of Fine Dust in Railroad and Station,
National Technology Proposal Insight, Vol. 2, pp. 1-29
Gi-Bong An, Mar 2012, The importance and role of Energy Storage Systems, In The Proceedings
of the Korean Institute of Illuminating and Electrical Installation Engineers, Vol.
26, No. 2, pp. 13-17
R. Y. Rubinstein, D. P. Kroese, 2016, Simulation and the Monte Carlo Method, 3rd ed.
Wiley
S. Kim, H. Kang, Y. Son, S. Yoon, J. Kim, G. Kim, I. Kim, 2010, Compensation of Light
Scattering Method for Real-time Monitoring of Particulate Matters in Subway Stations,
Journal of Korean Society for Atmospheric Environment, Vol. 26, No. 5, pp. 533-542
R. S. Sutton, A. G. Barto, 2018, Reinforcement Learning: An Introduction, 2nd ed.
The MIT Press
B. Recht, 2019, A tour of reinforcement learning: The view from continuous control,
Annual Review of Control, Robotics, and Autonomous Systems, Vol. 2, No. 1, pp. 253-279
D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. V. D. Driessche, G.,
J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, 2016,
Mastering the game of Go with deep neural networks and tree search, Nature, Vol. 529,
No. 7587, pp. 484-489
J. Peters, J.A. Bagnell, 2016, Policy Gradient Methods. In: Sammut, C., Webb, G. (eds),
Encyclopedia of Machine Learning and Data Mining. Springer, Boston, MA.
J. Peters, S. Schaal, 2008, Natural actor-critic, Neurocomputing, Vol. 71, No. 7-9,
pp. 1180-1190
K. Kwon, S. Hong, J. Heo, H. Jung, J. Park, 2021, Reinforcement Learning-based HVAC
Control Agent for Optimal Control of Particulate Matter in Railway Stations, The Transactions
of the Korean Institute of Electrical Engineers, Vol. vol 70, No. 10, pp. 1594-1600
D. Silver, G. Lever, N. Heess, T. Degris, D. Wierstra, M. Riedmiller, Jan 2014, Deterministic
policy gradient algorithms, International converence on machine learning, pp. 387-395
J. R. Norris, 1997, Markov Chains, Cambridge University Press
K. Kwon, H. Zhu, 2022, Reinforcement Learning Based Optimal Battery Control Under
Cycle-based Degradation Cost, IEEE Transactions on Smart Grid
C. M. Bishop, 1995, Neural Networks for Pattern Recognition, Clarendon: Oxford
S. Sharma, S. Sharma, A. Athaiya, 2017, Activation functions in neural networks, Towards
data science, Vol. 6, No. 12, pp. 310-316
K. Doya, Jan 2000, Reinforcement Learning in Continuous Time and Space, Neural Comput.,
Vol. 12, No. 1, pp. 219-245
R. J. Williams, 1992, Simple statistical gradient-following algorithms for connectionist
reinforcement learning, Machine Learning, Vol. 8, No. 229
T. Zhao, H. Hachiya, G. Niu, M. Sugiyama, 2011, Analysis and Improvement of Policy
Gradient Estimation, Advances in Neural Information Processing Systems, 24
Keras, 2022-08-27, , https://github.com/fchollet/keras
Electric Power Statistics Information System (EPSIS), Hourly SMP, 2022 -08-27, https://epsis.kpx.or.kr/epsisnew/selectEkmaSmpShdChart.do?menuId=040202
저자소개
He received a B.S. and M.S. degree in Electrical and computer engineering from Seoul
National University, Republic of Korea, in 2012 and 2014, respectively.
He is currently pursuing a Ph.D. degree from The University of Texas at Austin from
2019.
He is currently on an internship in R&D department of Raon Friends, Anyang, South
Korea.
He received a B.S degree in Naval Architecture and Ocean Engineering from Seoul National
University, Republic of Korea, in 2008.
Currently, He is a team leader at RaonFriends Co., Ltd., Korea from 2019.
He recent research interests include the Power system, Urban railroad and AI.
He was born in Korea in 1978.
He received his Ph.D. degree in Electrical Engineering from Seoul National University,
Korea.
Currently, he works at the RaonFriends Co. that is a consulting company for the power
system and power system economics.
His research field of interest includes power system reliability, equipment maintenance
and urban railroad.
He received a B.S and M.S. degree in Electrical engineering from Sungkyunkwan University,
Republic of Korea, in 1995 and 1998, respectively.
He received a Ph.D. degree from the Electrical Electronic and Computer Engineering
from Sungkyunkwan University in 2002.
He is currently a chief Researcher with the Smart Electrical & Signaling Division,
Korea Railroad Research Institute, Uiwang, South Korea.
Jong-young Park received the B.S., M.S., and Ph.D. degrees from Seoul National University,
Seoul, Korea, in 1999, 2001, and 2007, respectively.
He was a Senior Researcher at LS Electric Co., Ltd., Korea from 2009 to 2013.
Currently, he is a Senior Researcher at Korea Railroad Research Institute (KRRI) since
2013.
His recent research interests include the optimal operation of power systems in railway
with the smart grid technology.