1. ์ ๋ก
์ ๋ ฅ์์คํ
์ ๋น์ ํ ๋์ญํ์ผ๋ก ์ด๋ฃจ์ด์ ธ์์ผ๋ฉฐ, ํํ, ํธ์ฐ, ๋๋ขฐ ๋ฑ์ ์์ฐ์ฌํด๋ ์์คํ
๊ณ ์ฅ ๋ฑ์ ๋งค์ฐ ์ทจ์ฝํ ์ ์๋ค. 3์ ๋จ๋ฝ ๊ณ ์ฅ๊ณผ ๊ฐ์
์ ๋ก ๊ณ ์ฅ์ด ๋ฐ์ํ๋ฉด ์ ๋ก์ ๋ฆฌ์กํด์ค์ ๋ณํ๋ฅผ ๊ฐ์ ธ์ ๊ณํต์ ๋ถ์์ ํ๊ฒ ๋ง๋ค ์ ์์ผ๋ฉฐ ์ฌํ ๊ฒฝ์ฐ์๋ ๋์ ์ง์ญ์ ์ ์ ์ ์ผ์ผํฌ ์ ์๋ค. ๋ฐ๋ผ์
์ ๋ ฅ์์คํ
์ ๊ณ ์ฅ์ ์ ์ํ๊ฒ ํ๋จํ๊ณ ๋ณดํธํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํ๊ณ ์ ๋ก ๊ณ ์ฅ์ ํ๋จํ๊ธฐ ์ํ ๋ค์ํ ์ฐ๊ตฌ๊ฐ ์งํ๋๊ณ ์๋ค (1-10).
์ ๋ ฅ์์คํ
์ ์ ๊ธฐ๏ฝฅ๊ธฐ๊ณ์ ์ธ ์ง๋์ ๋๊ธฐ๋ฐ์ ๊ธฐ์ ๊ธฐ๊ณ์ ์ธ ์
๋ ฅ๊ณผ ์ ๊ธฐ์ ์ธ ์ถ๋ ฅ ์ฌ์ด์ ๋ถ๊ท ํ์ ์ํด์ ๋ฐ์ํ๊ณ ์ฌํ ๊ฒฝ์ฐ์๋ ๋๊ธฐ ํ์กฐ๋ผ๊ณ ํ๋ ๋ฌธ์ ๋ฅผ
์ผ๊ธฐํ ์ ์๋ค. ์ ๋ ฅ์์คํ
์ ์์ ๋ ํด์์ ๋๊ธฐ๋ฐ์ ๊ธฐ์ ๋๊ธฐํ์ฌ๋ถ๋ฅผ ํ์
ํ๋ ๊ฒ์ผ๋ก ๋น์ ํ ๋์๋ฐฉ์ ์์ ํด๋ฅผ ๊ตฌํจ์ผ๋ก์จ ํด์์ด ๊ฐ๋ฅํ๊ณ , ์ฌ๊ณ ์
๋ฐ๋ฅธ ๊ณ ์ฅ ์ ๋ก ์ฐจ๋จ ์ดํ์ ๊ณํต์ด ์๋ก์ด ํํ์ ์ผ๋ก ์๋ ดํ ๊ฒ์ธ์ง ํน์ ์ ๋ ฅ ๋์ ์ดํ์ ๋๊ธฐ ํ์กฐ๋ก ์ด์ด์ง ๊ฒ์ธ์ง๋ฅผ ํ๋จํ ์ ์๋ค (1-4,10).
๋
ผ๋ฌธ (11)์์๋ ์์คํ
์ ๋ถํ์ค์ฑ์ ๋ํ ๊ฐ์ธ์ฑ ํฅ์ ๊ธฐ๋ฒ์ผ๋ก ๋ง์ด ์ฌ์ฉ๋๋ ์ธ๋ ๊ด์ธก๊ธฐ(DOB; Disturbance Observer) (12)๋ฅผ ํ์ฉํ์ฌ ๊ณํต์ ์ ๋ก ๊ณ ์ฅ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์๋ค. ์ฃผํ์ 60[Hz]์ธ ๊ณํต ์ ์์ 5์ฃผ๊ธฐ ์ด๋ด๋ก ๊ณ ์ฅ์ ํ๋จํ๊ธฐ ์ํด ๊ณ ์ด๋(high gain)
PI ๊ด์ธก๊ธฐ๋ฅผ ๊ณ ์ํ์ง๋ง, ์ถ๋ ฅ์ ์ธก์ ์ก์์ด ์กด์ฌํ ๊ฒฝ์ฐ ๊ด์ธก๊ธฐ๊ฐ ์ก์์ด ํฌํจ๋ ์ํ๋ฅผ ์ถ์ ํ์ฌ ๊ด์ธก ์ค์ฐจ๊ฐ ์ฆ๊ฐํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค (13).
๋ณธ ๋
ผ๋ฌธ์ ์ธ๊ณต์ง๋ฅ์ ์ด์ฉํ์ฌ ์ธ๋๊ณผ ์ธก์ ์ก์์ด ๋ชจ๋ ์กด์ฌํ๋ 1๊ธฐ ๋ฌดํ๋ชจ์ ์์คํ
์์ ๊ฐ์ธํ๊ฒ ์ ๋ก ๊ณ ์ฅ ํ๋ณ์ ํ๊ธฐ ์ํ ๋ชฉ์ ์ผ๋ก ๊ฐํํ์ต ๊ธฐ๋ฐ
์ธ๋ ๊ด์ธก๊ธฐ๋ฅผ ์ ์ํ๋ค. ๊ฐํํ์ต์ ๋ณด์์ ๋ฐ๋ฅธ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํตํด ์ต์ ๊ฐ๋
์ ๊ฐ๋ ๊ด์ธก ์ด๋์ ๊ฒฐ์ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก, ์ ์๋ ค์ง ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ธ
Deep Q-Network(DQN)์ ์ด์ฉํ์๋ค. ์ด์ ๊ฒฐ๊ณผ๋ก ๋
ผ๋ฌธ (14)์์๋ ์ก์์ ๊ณ ๋ คํ์ง ์์ ํ๊ฒฝ์์ 3๊ฐ์ Deep Q-Network๋ฅผ ์ฌ์ฉํ์ฌ ์ธ๋ ๊ด์ธก๊ธฐ๋ฅผ ์ค๊ณํ์๋ค. ์ด๋ ํ์ฅ๋ network ์ฌ์ฉ์ผ๋ก ์๊ตฌํ๋
data์ ์์ด ๋ง์์ ธ ์ปดํจํ
์ ๋ถ๋ด์ ์ค ์ ์์ผ๋ฉฐ ํ์ต ํ๋ผ๋ฏธํฐ ์ค๊ณ ์์ ์ธก์ ์ก์์ ๊ณ ๋ คํ์ง ์๊ธฐ ๋๋ฌธ์ ์ธก์ ์ก์์ด ์กด์ฌํ๋ ํ๊ฒฝ์์ ์ธ๋
๊ด์ธก๊ธฐ์ ๊ฐ์ธํ ์ํ ์ถ์ ์ ๋ณด์ฅํ ์ ์๋ค.
๋ณธ ๋
ผ๋ฌธ์์๋ network๋ฅผ ํ๋๋ง ๊ตฌ์ฑํ์ฌ ํ์ต์ ์งํํ์์ผ๋ฉฐ, ์ธก์ ์ก์์ ๊ฐ์ธํ๋๋ก ์์คํ
์ ์ ์์ ์ผ๋ก ๊ด์ธก๊ธฐ ์ด๋์ ์ ํํ๋ Deep Q-Network
๊ธฐ๋ฐ ์ธ๋ ๊ด์ธก๊ธฐ๋ฅผ ์ค๊ณํ์๋ค. ๋ํ ์ ์ ํ ๊ด์ธก ์ด๋์ ์ฌ์ฉํ ํ์ต์ ํตํ ์ค๊ณ ๋ฐฉ๋ฒ์ผ๋ก ์ ์ํ ๊ณ ์ฅ ํ๋จ์ด ๊ฐ๋ฅํ๋๋ก ํ์๋ค. ํ์ต๊ณผ ๋ชจ์์คํ์๋
๊ฐ๊ฐ Python๊ณผ Matlab์ ์ด์ฉํ์๋ค.
๋ณธ ๋
ผ๋ฌธ์ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค. 2.1์ ์์ 1๊ธฐ ๋ฌดํ๋ชจ์ ๊ณํต ๋ชจ๋ธ๊ณผ ์ธ๋์ ์ ์ํ๊ณ , 2.2์ ์์๋ Deep Q-Network์ ๋ํด์ ์๊ฐํ๊ณ ,
2.3์ ์์๋ Deep Q-Network ๊ธฐ๋ฐ ์ธ๋ ๊ด์ธก๊ธฐ๋ฅผ ์ค๊ณํ๋ค. 2.4์ ์์๋ ํ์ต์ ์ํ ์ํ(state), ํ๋(action), ๋ณด์(reward)์
1๊ธฐ ๋ฌดํ๋ชจ์ ์์คํ
์ ๋ํด์ ์ ์ํ๋ค. 2.5์ ์์๋ ๋์๋ฐฉ์ ์์ ์ํ data๋ก๋ถํฐ Deep Q-Network ํ์ต์ ์งํํ๊ณ ํ์ต๋ network๋ก๋ถํฐ
์ค๊ณ๋ ๊ด์ธก๊ธฐ๊ฐ ์ธก์ ์ก์์ ๊ฐ์ธํ๊ฒ ๊ณ ์ฅ ํ๋ณ์ด ๊ฐ๋ฅํจ์ ๋ชจ์์คํ์ ํตํด ํ์ธํ๋ค. ๋ง์ง๋ง์ผ๋ก ๊ฒฐ๋ก ์์ ๋
ผ๋ฌธ์ ๋์ ๋งบ๋๋ค.
2. ๋ณธ ๋ก
2.1 ์์คํ
๋ชจ๋ธ ๋ฐ ์ธ๋ ์ ์
๋ณธ ๋
ผ๋ฌธ์์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ 1๊ธฐ ๋ฌดํ๋ชจ์ ์์คํ
(Single Machine Infinite Bus System, SMIB)์ ๊ณ ๋ คํ๋ค. ๋ฌดํ๋ชจ์ ์์์ ์ ์์ ํฌ๊ธฐ๋
์ผ์ ํ๋ฉฐ ์์์ 0์ด๊ณ ์ธ์ ๋ ์ถฉ๋ถํ ์์ ๋ฐ์ ๋๊ณผ ๋ถํ๋์ ๊ฐ์ง๋ค (3).
๊ทธ๋ฆผ. 1. 1๊ธฐ ๋ฌดํ๋ชจ์ ์์คํ
Fig. 1. Single Machine Infinite Bus System
์ ๋ ฅ์์คํ
์ ๋๊ธฐ ํ์กฐ ํด์์ ์ธ๋์ ๋ํ ๋๊ธฐ๋ฐ์ ๊ธฐ์ ๋๊ธฐํ ์ฌ๋ถ๋ฅผ ํ์
ํ๋ ๊ฒ์ผ๋ก 2๊ณ ๋ฏธ๋ถ๋ฐฉ์ ์์ธ ๋์๋ฐฉ์ ์์ ํตํด ํด์์ด ๊ฐ๋ฅํ๋ค. ๊ณ ์ฅ์ผ๋ก
์ธํ ๊ณผ๋ํ์ ์ดํ ๊ณํต์ ์ํ๊ฐ ์๋ก์ด ํํ์ ์ผ๋ก ์๋ ดํ๋ ๊ณผ์ ์ ํํํ๊ธฐ ์ํ ๋์๋ฐฉ์ ์์ ์ํ ๊ณต๊ฐ ๋ฐฉ์ ์์ผ๋ก ๋ํ๋ด๋ฉด ์๋ ์๊ณผ ๊ฐ๋ค (1).
์ ์์์ $\delta$๋ ์ ๋ ฅ๊ฐ, $\omega_{\triangle}$์ ๋๊ธฐ ์ฃผํ์์ ๋ํ ๊ฐ์ฃผํ์ ํธ์ฐจ, $H$๋ ๋จ์ ๊ด์ฑ ๊ณ์, $f_{0}$์
$\omega_{0}$๋ ๊ฐ๊ฐ ๋๊ธฐ ์ฃผํ์์ ๋๊ธฐ ๊ฐ์ฃผํ์, $P_{m}$์ ๋ฐ์ ๊ธฐ์ ์ธ๊ฐ๋๋ ๊ธฐ๊ณ์ ์
๋ ฅ, $P_{e}$๋ ๋ฐ์ ๊ธฐ์ ์ ๊ธฐ์ ์ถ๋ ฅ,
$P_{d}$๋ ๊ณ ์ฅ ๋ฐ์์ผ๋ก ์ธํ ์ถ๊ฐ์ ์ธ ์ธ๋์ด๊ณ $D$๋ ๋ํ ๊ณ์๋ก ์ผ๋ฐ์ ์ผ๋ก 0 ~ 2 [${pu}$] ๋ฒ์์ ๊ฐ์ ๊ฐ์ง๋ค. ์(1)์์ ๋ฐ์ ๊ธฐ์ ์ ๊ธฐ์ ์ถ๋ ฅ $P_{e}$๋ ์(2)์ ๊ฐ๋ค (2).
์ ์์์ $X$๋ ๋ฐ์ ๊ธฐ์ ๋ฌดํ๋ชจ์ ์ฌ์ด์ ๋ฆฌ์กํด์ค, $E$๋ ๋ฐ์ ๊ธฐ ์ ๊ธฐ๊ธฐ์ ๋ ฅ, $V$๋ ๋ฌดํ๋ชจ์ ์ ์์ด๋ค. ์ ๋ก์ ๊ณ ์ฅ์ด ๋ฐ์ํ๊ธฐ ์ ์๋ ๋ฐ์ ๊ธฐ์
๊ธฐ๊ณ์ ์ถ๋ ฅ๊ณผ ์ ๊ธฐ์ ์ถ๋ ฅ์ด ํํ์ ์ด๋ฃจ๊ณ ์๋ค.
์ ๋ก์ ๊ณ ์ฅ์ด ๋ฐ์ํ๋ฉด ๋ฐ์ ๊ธฐ์ ๋ฌดํ๋ชจ์ ์ฌ์ด์ ๋ฆฌ์กํด์ค $X$๊ฐ ๋ณํ๊ฒ ๋๊ณ ๊ทธ ๊ฐ์ ๊ณ ์ฅ ๋ฐ์ ์์น์ ๋ฐ๋ผ์ ๋ฌ๋ผ์ง๋ค. ๋ฐ์ ๋ชจ์ ์์ ๊ณ ์ฅ ์ง์ ๊น์ง์
๊ฑฐ๋ฆฌ ๋น์จ์ $\lambda$($0\le\lambda\le 1$)๋ผ๊ณ ํ ๋, 3์ ๋จ๋ฝ ๊ณ ์ฅ ํ์ ๋ฆฌ์กํด์ค ๊ฐ $X_{post}$๋ฅผ ์๋์ ๊ฐ์ด
์ธ ์ ์๋ค (1).
์ ์์์ $X_{s}$๋ ๋ณ์๊ธฐ ๋ฐ ๋ฐ์ ๊ธฐ $d$์ถ ๊ณผ๋ ๋ฆฌ์กํด์ค์ด๊ณ $X_{L1}$๊ณผ $X_{L2}$๋ ๊ฐ๊ฐ ๊ฑด์ ์ ๋ก ๋ฐ ๊ณ ์ฅ์ ๋ก์ ๋ฆฌ์กํด์ค์ด๋ค.
๊ณ ์ฅ ์ ํ์ ๋ฐ์ ๊ธฐ ์ ๊ธฐ๊ธฐ์ ๋ ฅ $E$์ ๋ฌดํ๋ชจ์ ์ ์ $V$๊ฐ ๋์ผํ๋ค๊ณ ํ๋ค๋ฉด ์์ $d$์ ๋ํด์ ์ธ๋ $P_{d}$๋ฅผ ์๋์ ๊ฐ์ด ์ ์ํ ์
์๋ค.
๋ณธ ๋
ผ๋ฌธ์์๋ ๊ณ ์ฅ์ผ๋ก ์ธํ $P_{\max}$์ ๋ณํ๋์ ์ธ๋์ ํฌ๊ธฐ $d$๋ก ๊ฐ์ ํ๊ณ ์ธ๋ ๊ด์ธก๊ธฐ๋ฅผ ํตํด ์ด๋ฅผ ์ถ์ ํ๋ค. ๊ณ ์ฅ ์ ์ ๋ฆฌ์กํด์ค๋ฅผ
$X_{pre}$๋ผ๊ณ ํ๋ค๋ฉด $P_{\max}$์ ๋ณํ๋ $d$๋ ์๋์ ๊ฐ๋ค.
2.2 Deep Q-Network(DQN)
๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ธ Deep Q-Network๋ ์ฃผ์ด์ง ํ๊ฒฝ์์ ํ์ฌ ์ํ(state)์ ํ๋(action)์ ์
๋ ฅ์ผ๋ก ์ฃผ๋ฉด ๋ค์ ํ๋์
๋ํ ๊ธฐ๋๊ฐ์ ์ถ๋ ฅํด์ฃผ๋ $Q$ ํจ์๋ฅผ ํ์ต์์ผ ์ต๋์ ๋ณด์(reward)์ ๋ฐ๊ฑฐ๋ ์ต์์ ๋ฒ์น์ ๋ฐ๋๋ก ์์ด์ ํธ์ ํ๋์ ๊ฒฐ์ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค (15).
DQN์์ ์
๋ ฅ์ ํ์ฌ ์ํ์ด๊ณ ์ถ๋ ฅ์ ํ์ฌ ์ํ์์ ์ทจํ ์ ์๋ ๋ค์ ํ๋์ ๋ํ ๊ธฐ๋๊ฐ๋ค์ด๋ค. Deep neural network์ ํ์ต์ ์๋์
์๊ณผ ๊ฐ์ ๋น์ฉํจ์๋ฅผ ์ต์ํ ํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋ค (18).
์(6)์์ $s$์ $s'$์ ๊ฐ๊ฐ ํ์ฌ ์ํ์ ๋ค์ ์ํ, $a$์ $a'$์ ๊ฐ๊ฐ ํ์ฌ ํ๋๊ณผ ๋ค์ ์ํ์์ ์ทจํ ์ ์๋ ํ๋, $r$์ ํ์ฌ ํ๋์ผ๋ก
์ธํด ๋ฐ์ ๋ณด์์ด๋ค. $\gamma$๋ ๊ฐ๊ฐ์จ(discount factor)์ด๋ฉฐ ์ด๋ฅผ ํตํด ๋ณด์์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ ์ ์๊ณ ๊ฐ๊ฐ์จ์ด 0์ ๊ฐ๊น๋ค๋ฉด
์ง๊ธ ๋น์ฅ์ ๋ณด์๋ง ๊ณ ๋ คํ๋ค๋ ์๋ฏธ์ด๋ฉฐ, ๊ฐ๊ฐ์จ์ด 1์ ๊ฐ๊น๋ค๋ฉด ๋จผ ๋ฏธ๋์ ๋ณด์๊น์ง ๊ณ ๋ คํ๋ค๋ ์๋ฏธ์ด๋ค. $\theta$์ $\bar{\theta}$๋
๊ฐ์ค์น๋ก ์ด๋ฃจ์ด์ง ํจ์์ด๊ณ ๊ฐ๊ฐ main network์ target network์ ํฌํจ๋๋ค. ํ์ต์ ์ํด ๊ฐ์ค์น๊ฐ ์ฆ์ update๋๊ธฐ ๋๋ฌธ์
๋ฐ์ํ๋ Non-stationary targets ๋ฌธ์ ๋ฅผ ๋
๋ฆฝ์ ์ธ target network๋ฅผ ๋ง๋ค์ด ํด๊ฒฐํ์๋ค (19).
ํํธ, ๊ฐํํ์ต์์์ ํ์ต ๋ฐ์ดํฐ๋ ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์์ฐจ์ ์ผ๋ก ์์ง๋๋ฉฐ, ์์ฐจ์ ์ธ ๋ฐ์ดํฐ๋ ๊ทผ์ ํ ๊ฒ๋ค๋ผ๋ฆฌ ๋์ ์ฐ๊ด์ฑ(correlation)์
๊ฐ์ง๊ฒ ๋๋ค. ์ด๋ฅผ Correlation between samples ๋ฌธ์ ๋ผ๊ณ ํ๋ฉฐ, ์ ํ ํ๊ท(linear regression) ์์ ๊ทธ๋ฆผ 2์ (b)์ ๊ฐ์ด network์ ํ์ต์ด ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ ์ ์๋ค.
๊ทธ๋ฆผ. 2. ์ ํ ํ๊ท
Fig. 2. Linear regression
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ์ํ์ํค๊ธฐ ์ํด์ Google์ Deep Mind Team์ด ๋ฐํํ replay memory ๊ธฐ๋ฒ์ ์ด์ฉํ์์ผ๋ฉฐ, ๊ฐ ์๊ฐ step๋ณ๋ก
์ป์ data samples๋ฅผ ์(7)๊ณผ ๊ฐ์ด tuple ํํ๋ก data set์ ์ ์ฅํ๊ฒ ๋๋ค. ์ด๋, data set์ ๋ฉ๋ชจ๋ฆฌ์ ๋ฌดํํ ์ ์ฅํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ฉ๋ชจ๋ฆฌ ํฌ๊ธฐ๋ฅผ ๊ณ ์ ํ๊ณ
FIFO(first in first out) ๋ฐฉ์์ผ๋ก ์ ์ฅํ๋ค.
์ ์์์ $D_{train}$์ ์(6)์ ์ฌ์ฉํ data set์ด๋ฉฐ, ์์์ set์ ์ ํํ์ฌ network๋ฅผ ํ์ต ์ํจ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ด์ฉํ๋ฉด ๊ทธ๋ฆผ 2์ (c)์ ๊ฐ์ด ์์์ sampling์ ํตํด minibatch๋ฅผ ๊ตฌ์ฑํ์ฌ ๋ฐ์ดํฐ ์ฌ์ด์ ์ฐ๊ด์ฑ์ ํฌ๊ฒ ์ค์ผ ์ ์๋ค (19).
DNN์ ํตํด ๊ตฌํ ๊ธฐ๋๊ฐ $Q$๋ฅผ ์ด์ฉํ์ฌ ์ต์ ์ ํ๋์ ์ ํํ๋ ์ ์ฑ
(policy) $\pi(s)$๋ ์(8)๊ณผ ๊ฐ๋ค. ์ด๋, ์ง์ญ ์ต์ ๊ฐ์ ๋น ์ ธ ์ ์ญ ์ต์ ๊ฐ์ ์ฐพ์ ์ ์์ ํ๋ฅ ์ด ์ปค์ง๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ก์ค๋ก ํ์($\epsilon$-greedy)
์ ์ฑ
์ ์ถ๊ฐ๋ก ์ฌ์ฉํ๋ค (15).
์ ์์ผ๋ก๋ถํฐ ๋์ถ๋๋ ๊ฒฐ๊ณผ ๊ฐ์ ์์ ์ ์์ด๋ฉฐ ์ ํ ๊ฐ๋ฅํ ํ๋๋ค์ ๋์๋๋ค. $N$์ ์ผ์ ํ ๊ฐ์ ๊ฐ์ง๋ ์์์ด๊ณ , $\epsilon$์ ํ์ต์ด
์งํ๋จ์ ๋ฐ๋ผ์ ์ ์ ์์์ง๋ ๋ณ์์ด๋ค. ์ฆ, ํ์ต ์ด๊ธฐ์๋ ๋ฌด์์ํ ํ๋์ ์ทจํจ์ผ๋ก์จ ๋ค์ํ ๊ฒฝํ์ ์ฃผ์ด ์ ์ญ ์ต์ ๊ฐ์ ์ฐพ๋ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ํ๋ค
(15).
์ต์ข
์ ์ผ๋ก DQN์ ํ์ต๊ณผ ์ต์ ์ ํ๋์ ์ ํํ๋ ๊ณผ์ ์ ํ๋ฆ๋๋ก ์ ๋ฆฌํ๋ฉด ๊ทธ๋ฆผ 3๊ณผ ๊ฐ๋ค.
๊ทธ๋ฆผ. 3. Deep Q-Network ํ๋ฆ๋
Fig. 3. Deep Q-Network flowchart
2.3 DQN ๊ธฐ๋ฐ ์ธ๋ ๊ด์ธก๊ธฐ ์ค๊ณ
๋์๋ฐฉ์ ์์ผ๋ก ํํ๋ 1๊ธฐ ๋ฌดํ๋ชจ์ ์์คํ
๊ณผ ์ธ๋ ๊ด์ธก๊ธฐ๋ ๊ทธ๋ฆผ 3์ Environment์ ํด๋นํ๋ฉฐ ์ธ๋์ ํฌ๊ธฐ $d$๋ฅผ ์ถ์ ํ๋ DQN ์ธ๋ ๊ด์ธก๊ธฐ๋ ์๋์ ๊ฐ์ด ์ค๊ณํ ์ ์๋ค. ์ด๋ ์ ๋ ฅ๊ฐ $\delta$๋
์ธก์ ์ด ๊ฐ๋ฅํ๋ค๊ณ ๊ฐ์ ํ๋ค (8).
์ ์์์ $\hat\delta$, $\hat\omega_{\triangle}$, $\hat d$์ ๊ฐ๊ฐ ๋์๋ฐฉ์ ์์ ์ํ ๋ฐ ์ธ๋ ์ถ์ ๊ฐ์ด๊ณ $\bar{\delta}$๋
์ธก์ ์ก์์ ํฌํจํ ์ ๋ ฅ๊ฐ์ด๋ค. $l_{a1}$, $l_{a2}$, $l_{a3}$๋ ๊ด์ธก๊ธฐ ์ด๋์ผ๋ก ์(8)์ ์ํด ๊ฒฐ์ ๋ ๊ฐ์ ๋ฐ๋ผ์ ์ ํ๋๋ ์ผ๋ จ์ ํ๋์ด๋ค.
์์คํ
์ ์ธ๋์ด ์ธ๊ฐ๋ ๋ ๊ด์ธก๊ธฐ ์ด๋์ด ์ถฉ๋ถํ ํฌ๋ค๋ฉด ๊ด์ธก๊ธฐ๋ ์ธ๋์ ๊ฐ์ธํ๊ฒ ์ํ๋ฅผ ์ถ์ ํ ์ ์๋ค (11,12). ํ์ง๋ง ์ถ๋ ฅ์ ์ธก์ ์ก์์ด ์กด์ฌํ ๊ฒฝ์ฐ, ๊ด์ธก๊ธฐ ์ด๋์ ํฌ๊ฒ ์ค๊ณํ๋ค๋ฉด ๊ด์ธก๊ธฐ๋ ์ธก์ ์ก์์ด ํฌํจ๋ ์ํ๋ฅผ ์ถ์ ํ๊ธฐ ๋๋ฌธ์ ์ค์ ์ํ์์ ์ค์ฐจ๋ฅผ
์ฆ๊ฐ์ํค๋ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๋ค (13).
2.4 ์ํ, ํ๋, ๋ณด์ ์ ์
๋ณธ ์ ์์๋ 1๊ธฐ ๋ฌดํ๋ชจ์ ์์คํ
์ ๋ํด์ DQN ๊ธฐ๋ฐ ์ธ๋ ๊ด์ธก๊ธฐ๋ฅผ ์ค๊ณํ ๋, ํ์ต์ ํ์ํ data set์ ๋ชจ์ผ๊ธฐ ์ํ ์ํ(state),
ํ๋(action), ๋ณด์(reward)์ ์ ์ํ๋ค. ๋ณธ ๋
ผ๋ฌธ์ DQN์์ ์ํ $s$๋ฅผ ์๋์ ๊ฐ์ด ์ ์ํ๋ค.
๋ค์์ผ๋ก Environment๋ฅผ ๋ณํ์ํฌ ํ๋์ ์ ์ํ๋ค. ์์์ ์ธ๊ธํ ๋ฐ์ ๊ฐ์ด ์์คํ
์ ์ธ๋์ด ์ธ๊ฐ๋ ๋, ์ํ ์ถ์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด์๋
๊ด์ธก๊ธฐ ์ด๋์ด ์ปค์ผํ์ง๋ง ์ถ๋ ฅ์ ์ธก์ ์ก์์ด ์กด์ฌํ ๊ฒฝ์ฐ, ๊ด์ธก ์ค์ฐจ๋ฅผ ์ฆ๊ฐ์ํค๋ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๋ค. ๋ฐ๋ผ์ ์ธ๋๊ณผ ์ธก์ ์ก์์ ๋ชจ๋ ๊ฐ์ธํ ๊ด์ธก๊ธฐ ์ค๊ณ๋ฅผ
์ํด์๋ ์ํฉ์ ๋ง๋ ๊ด์ธก๊ธฐ ์ด๋ ์ ํ์ด ์ค์ํ๋ฉฐ, ๋ณธ ๋
ผ๋ฌธ์์๋ ์ ํ ๊ฐ๋ฅํ ํ๋ ์งํฉ $A$๋ฅผ ์๋์ ๊ฐ์ด ์ถ์ ์๋์ ๋ฐ๋ผ ๋ฏธ๋ฆฌ ์ค๊ณ๋ ๊ด์ธก๊ธฐ
์ด๋์ผ๋ก ๊ฒฐ์ ํ๋ค.
์ ์์์ $L_{pole_{p}}$๋ ๊ด์ธก ์ค์ฐจ ์์คํ
์ ๊ทน์ ์ $s= -p$ ์ผ์ค๊ทผ์ด ๋๋๋ก ํ์ ๋์ ๊ด์ธก ์ด๋ ํ๋ ฌ์ด๋ค.
๋ง์ง๋ง์ผ๋ก ์ํ์ ๋ฐ๋ฅธ ํ๋์ ํ๊ฐํ ๋ณด์์ ์ ์ํ๋ค. $\bar{\delta}$๊ฐ ์ธก์ ์ก์์ ํฌํจํ ์ ๋ ฅ๊ฐ์ด๊ณ ์คํ์ ํตํด ์ธก์ ์ก์์ ์ต๋ ํฌ๊ธฐ๋ฅผ
์๊ณ ์๋ค๊ณ ํ ๋, ๋
ธ์ด์ฆ ๋ ๋ฒจ ์์ $\nu$๋ฅผ ์๋์ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
์ด๋ ๊ด์ธก ์ค์ฐจ $|\bar{\delta}-\hat{\delta}|$๊ฐ ๋
ธ์ด์ฆ ๋ ๋ฒจ ์์ $\nu$๋ณด๋ค ์์ผ๋ฉด ๊ด์ธก๊ธฐ ์ด๋์ ์์์ ธ์ผํ๊ณ ๋ฐ๋์ผ ๊ฒฝ์ฐ
๊ด์ธก๊ธฐ ์ด๋์ด ์ปค์ ธ์ผ ํ๋ค๋ ๊ฒ์ ์๊ฐํ ์ ์๋ค. ์ด์ ๊ฐ์ ์ ์ฑ
์ ๋ฐ๋ผ ๋ณธ ๋
ผ๋ฌธ์์๋ ์ ์ ํ ์กฐ๊ฑด๋ฌธ์ ํ์ฉํ์ฌ ๊ฐํํ์ต์ ์ํ ๋ณด์์ ์ค๊ณํ๋ค.
๋ณด์์ ํ์ฌ ํ๋์ ๋ํด Environment๋ก๋ถํฐ ์ข๊ณ ๋์จ์ ํ๊ฐ๋ฅผ ์์น์ ์ผ๋ก ๋ํ๋ด๊ธฐ ์ํ ๊ฒ์ผ๋ก, ํ์ฌ ์ํ์ ๋ค์ ์ํ ๊ทธ๋ฆฌ๊ณ ๋
ธ์ด์ฆ ๋ ๋ฒจ
์์ $\nu$์ ํฌ๊ธฐ ๊ด๊ณ์ ๋ฐ๋ผ์ ๋ณด์์ ๋๋์ด ์ค๊ณํ๋ค.
๋ณด์ ์ ์ฑ
์ ๋ฐ๋ผ ๋ณธ ๋
ผ๋ฌธ์์๋ $r_{1}$์ ํตํด์ ํ์ฌ ๊ด์ธก ์ค์ฐจ๊ฐ $\nu$๋ณด๋ค ํด ๋ ์๋์ ์ผ๋ก ํฐ ๊ด์ธก๊ธฐ ์ด๋์ ์ ํํ๋๋ก ํ์์ผ๋ฉฐ, ๋ฐ๋์
๊ฒฝ์ฐ์๋ ์์ ๊ด์ธก๊ธฐ ์ด๋์ ์ ํํ๋๋ก ํ์๋ค. $r_{2}$๋ฅผ ํตํด์ ํ์ฌ ํ๋์ ๋ฐ๋ฅธ ๋ค์ ๊ด์ธก ์ค์ฐจ๊ฐ ์ฌ์ ํ $\nu$๋ณด๋ค ํด ๋ ํฐ ๊ด์ธก๊ธฐ
์ด๋์ ์ ํํ๋๋ก ํ์์ผ๋ฉฐ, ๋ฐ๋์ ๊ฒฝ์ฐ์๋ ์ฌ์ ํ ์์ ๊ด์ธก๊ธฐ ์ด๋์ ์ ํํ๋๋ก ํ์๋ค. ์ด๋ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ๋ณด์ ๊ฐ์ ์กฐ์ ํ์๋ค.
์๋ฅผ ๋ค์ด, ์ธ ๊ฐ์ง ํ๋์ ๋ํด ์ด๋ฅผ ์์์ ์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ผ๋ฉฐ ์ต์ข
์ ์ผ๋ก ๋ฐ๊ฒ ๋ ๋ณด์์ $r_{1}$๊ณผ $r_{2}$๋ฅผ ๋ํ์ฌ ์์ ๋ถํธ๋ฅผ
์ทจํ ๊ฐ์ด๋ค.
์ ์์์ $\mu$๋ ์(8)๋ก๋ถํฐ ๋์ถ๋ ์์ ์ ์๊ฐ $a$์ด๊ณ $T_{n}(\mu)$($n=1,\:2,\:3,\:4$)์ ์ค์นผ๋ผ ๊ฐ์ผ๋ก $T_{n}$์ $\mu$๋ฒ์งธ ๊ฐ์
๋ํ๋ด๋ฉฐ ์ค๊ณ์๊ฐ ๊ฒฐ์ ํ๋ค. $\xi_{1}$, $\xi_{2}$, $\xi_{3}$, $\xi_{4}$ ๋ํ ์ค๊ณ์๊ฐ ๊ฒฐ์ ํ ์์ ๊ฐ์ด๋ฉฐ, ๋ณด์
$r_{1}$๊ณผ $r_{2}$์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๊ธฐ ์ํ ์์ $\alpha$์ $\beta$๋ฅผ ์ด์ฉํ์๋ค. ๋ณ์ ๊ฐ๋ค์ ์ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๋ค์ ์ ์์
์คํ์ ํตํด ์ถ๊ฐ ์ค๋ช
ํ๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์ ํ๋ ํ๋์ ๋ํด์ ์(13)๊ณผ ๊ฐ์ด ๋ณด์์ ์ค๊ณํ ์ ์์ผ๋ฉฐ, ์ค๊ณ์๊ฐ ์ํ๋ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ธฐ ์ํด์๋ ์ ์ ํ ๋ณด์ ์ ์ฑ
์ ๋ฐ๋ฅธ ๋ณด์ ์ค๊ณ๊ฐ ์ค์ํ๋ค.
๋ค์ ์ ์์๋ ํ์ฌ ์ํ์ ๋ค์ ์ํ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ชจ์์คํ์์ ์ฌ์ฉํ ๋ณด์์ ์ ์ํ๊ณ DQN ๊ธฐ๋ฐ ์ธ๋ ๊ด์ธก๊ธฐ์ ์ฑ๋ฅ ํ์ธ์ ์ํ ๋ชจ์์คํ์ ์งํํ๋ค.
2.5 ๋ชจ์์คํ
๋ณธ ์ ์์๋ ํ 1์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง 1๊ธฐ ๋ฌดํ๋ชจ์ ์์คํ
์ ๋ํด ์ค๊ณํ ๊ด์ธก๊ธฐ์ ์ธ๋ ์ถ์ ์ฑ๋ฅ์ ๋ชจ์ํ๋ค. ๋ฐ์ ๋ชจ์ ์์ ๊ณ ์ฅ ์ง์ ๊น์ง์ ๊ฑฐ๋ฆฌ ๋น์จ($\lambda$)์
50[$\%$]์ด๊ณ 1.027์ด์ 3์ ๋จ๋ฝ ๊ณ ์ฅ์ด ๋ฐ์ํ๊ณ ๊ณ ์ฅ ๋ฐ์ ์ฝ 0.39์ด ์์ ์ฐจ๋จ๊ธฐ๊ฐ ์ ์ ๋์ํ ์ํฉ์ ๊ณ ๋ คํ๋ค. ์ด๋ ์ธ๋ $d$์
ํฌ๊ธฐ๋ 1.15[${pu}$]์ด๊ณ ์์คํ
์ ์ด๊ธฐ ์ํ๋ $[0.46055 \quad 0]^{T}$์ด๋ค.
ํ 1. 1๊ธฐ ๋ฌดํ๋ชจ์ ์์คํ
๋ชจ์์คํ ํ๋ผ๋ฏธํฐ
Table 1. Simulation Parameters of SMIB System
$P_{\max}$
|
$1.8[{pu}]$
|
$| V |$
|
$1[{pu}]$
|
$P_{m}$
|
$0.8[{pu}]$
|
$\omega_{0}$
|
$120\pi[{rad}/\sec]$
|
$D$
|
$12.5$
|
$f_{0}$
|
$60[{Hz}]$
|
$H$
|
$5[{MJ}/{MVA}]$
|
$X_{s}$
|
$j0.5[{ohm}]$
|
$| E |$
|
$1.17[{pu}]$
|
$X_{L1},\: X_{L2}$
|
$j0.3[{ohm}]$
|
์ธก์ ์ก์์ ์ ๊ท ๋ถํฌ๋ฅผ ๊ฐ์ง๋ ๊ฐ์ฐ์์ ๋
ธ์ด์ฆ์ด๋ฉฐ, ๋
ธ์ด์ฆ ๋ ๋ฒจ ์์ $\nu$์ ๊ฐ์ $3.8e-3$์ด๋ค. DQN์ ํ์ต์ ์งํํ๊ธฐ ์ํ ์ ํ
๊ฐ๋ฅํ ํ๋ ์งํฉ($A$)๋ฅผ ์๋์ ๊ฐ์ด ์ ์ํ์๋ค. ์ด๋ ๊ณ ์ฅ์ผ๋ก ์ธํ ์ธ๋์ด ์์คํ
์ ์ธ๊ฐ๋์์ ๋, ์ธ๋์ ์ถ์ ์น๊ฐ ๊ณํต ์ฃผํ์์ธ 60[Hz]์
4 ์ฌ์ดํด ์ด๋ด๋ก ์ค์ ์ธ๋์ ์๋ ดํ ์ ์๋๋ก ๊ด์ธก๊ธฐ์ ์ต๊ณ ์ด๋์ ์ ํ์ผ๋ฉฐ, ์ธก์ ์ก์์ ์ํ ๊ด์ธก ์ค์ฐจ ์ฆ๊ฐ์ ์ํฅ์ ์ต์ํํ๊ธฐ ์ํ ๊ด์ธก๊ธฐ์
์ต์ ์ด๋์ ์ ํ์๋ค.
๋ณด์์ ์(13)์ ์ด์ฉํ์์ผ๋ฉฐ, ๊ฐ ๋ณ์๋ค์ ๋ณด์ ์ ์ฑ
์ ์ํด์ ์คํ์ ์ผ๋ก ์ ํด์ง ๊ฐ์ด๋ค. ์ ํ๋ ํ๋์ ๋ํด ์ต์ข
์ ์ผ๋ก ์์ ๊ฐ์ผ๋ก ์ ํ์ผ๋ฉฐ, ํ์ต์ ์ํด ๋ณด์์ด
์ต๋๊ฐ ๋๋๋ก, ์ฆ, ๊ด์ธก๊ธฐ ์ถ์ ์ค์ฐจ๊ฐ ์ต์๊ฐ ๋๋ ๋ฐฉํฅ์ผ๋ก ๋ณด์์ ์ฌ์ฉํ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ์๋ค. ์ด๋, $\mu$๋ 1๊ณผ 3์ฌ์ด์ ์ ์ ๊ฐ์ด๊ณ
$\mu$์ ๋ฐ๋ฅธ ์ค์นผ๋ผ $T_{n}(\mu)$($n=1,\:2,\:3,\:4$)์ ๊ฐ์ ํ 2์ ๊ฐ๋ค. ๋ํ ์์ $\xi_{1}$, $\xi_{2}$, $\xi_{3}$, $\xi_{4}$๋ ๊ฐ๊ฐ 1000, 1000, 2000, 1๋ก ์ ํ์์ผ๋ฉฐ,
๋ณด์ $r_{1}$๊ณผ $r_{2}$์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๊ธฐ ์ํ $\alpha$์ $\beta$ ๊ฐ์ ๊ฐ๊ฐ 0.5, 130์ผ๋ก ์ ํ์๋ค.
ํ 2. ๋ณด์ ์ค๊ณ ํ๋ผ๋ฏธํฐ
Table 2. Parameters for reward design
|
$\mu = 1$
|
$\mu = 2$
|
$\mu = 3$
|
$T_{1}(\mu)$
|
$5$
|
$20$
|
$20$
|
$T_{2}(\mu)$
|
$500$
|
$10$
|
$5$
|
$T_{3}(\mu)$
|
$10$
|
$200$
|
$2000$
|
$T_{4}(\mu)$
|
$200$
|
$10$
|
$1$
|
ํํธ, DNN์ ์ด๊ธฐํ์๋ Xavier initializer๋ฅผ ์ฌ์ฉํ์์ผ๋ฉฐ, ์ต์ ํ์๋ Adam(Adaptive Moment Estimation)
optimizer๋ฅผ ์ฌ์ฉํ์๋ค. ๋ํ ํ์ฑํ์๋ ์ถ๋ ฅ์ธต์ ์ ์ธํ๊ณ ReLu๋ฅผ ์ฌ์ฉํ์๋ค. ํ์ต์ ์ํ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ ํ 3๊ณผ ๊ฐ๋ค.
ํ 3. ํ์ต ํ์ดํผ ํ๋ผ๋ฏธํฐ ๊ฐ
Table 3. Learning hyper-parameters and their values
minibatch size
|
$128$
|
discount factor
|
$0.99$
|
replay memory size
|
$100000$
|
learning rate
|
$0.002$
|
replay start size
|
$5000$
|
initial exploration($\epsilon$)
|
$1$
|
target network
update frequency
|
$5000$
|
final exploration($N$)
|
$0.1$
|
ํ์ต์ด ์งํ๋ Deep Q-Network๋ฅผ ์ด์ฉํ์ฌ ์ธ๋ ๊ด์ธก๊ธฐ(Proposed Obs.)๋ฅผ ์ค๊ณํ์๊ณ , ์ถ์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ์ํด ์ฐธ๊ณ ๋ฌธํ (11)์ ์ฐธ๊ณ ํ์ฌ ์ธ๋ ์ถ์ ์น๊ฐ ๊ณํต ์ฃผํ์์ 5 ์ฃผ๊ธฐ ์ด๋ด๋ก ์ธ๋์ ์๋ ดํ๊ธฐ ์ํ ๊ด์ธก๊ธฐ (9)์ ํน์ฑ๋คํญ์์ด $(s+400)$$(s+100\pm j200)$์ด
๋๋๋ก ๊ณ ์ด๋ ๊ด์ธก๊ธฐ(Conven- tional Obs. 1)๋ฅผ ์ค๊ณํ์๋ค. ๋ํ ์ธก์ ์ก์์ ์ํฅ์ ์ต์ํํ๊ธฐ ์ํ์ฌ ๊ด์ธก๊ธฐ (9)์ ํน์ฑ๋คํญ์์ด
$(s+10)^{3}$์ด ๋๋๋ก ์ ์ด๋ ๊ด์ธก๊ธฐ(Conventional Obs. 2)๋ฅผ ์ค๊ณํ์๋ค.
๊ทธ๋ฆผ. 4. Conventional Obs. 1์ ์ํ ์ถ์ ์ฑ๋ฅ
Fig. 4. State estimation performance of Conventional Obs. 1
๊ทธ๋ฆผ. 5. Conventional Obs. 2์ ์ํ ์ถ์ ์ฑ๋ฅ
Fig. 5. State estimation performance of Conventional Obs. 2
๊ทธ๋ฆผ. 6. Proposed Obs.์ ์ํ ์ถ์ ์ฑ๋ฅ
Fig. 6. State estimation performance of Proposed Obs.
๊ทธ๋ฆผ. 7. Proposed Obs.์ ๊ฐ ์๊ฐ step์์์ ๊ด์ธก ์ด๋
Fig. 7. Observer gains at each time step of Proposed Obs.
๊ทธ๋ฆผ 4 ~ 6์ $\delta$, $\omega_{\triangle}$, $d$์ ๊ฐ ๊ด์ธก๊ธฐ์ ์ถ์ ์น๋ฅผ ํจ๊ป ๋ํ๋ด์๋ค. ๊ทธ๋ฆผ 4 ~ 6์ $\delta$์ ๊ทธ ์ถ์ ์น์ ๋ํ ๊ทธ๋ํ์์ ๋ถ๋ถ ํ๋๋ ๊ทธ๋ํ์ y์ถ ๋ฒ์๋ 26.3 ~ 26.6[deg]์ด๋ค. ๊ทธ๋ฆผ 4๋ ๊ณ ์ด๋ ๊ด์ธก๊ธฐ๋ฅผ ํตํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ ๊ฒ์ด๋ค. ์ ์๋ ๊ด์ธก๊ธฐ๋ณด๋ค ๋๋ฆฐ ์ถ์ ์๋๋ก ์ค๊ณ๋ ๊ด์ธก๊ธฐ์์๋ ๋ถ๊ตฌํ๊ณ ์ธก์ ์ก์์ ์ํฅ์ผ๋ก ์ค์ ์ํ์
์ธ๋์ ์ ์ถ์ ํ์ง ๋ชปํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค.
๊ทธ๋ฆผ 5๋ ์ ์ด๋ ๊ด์ธก๊ธฐ์ ์ถ์ ์น๋ฅผ ๋ํ๋ธ ๊ฒ์ผ๋ก ๊ด์ธก ์ด๋์ด ๋ฎ์์ ์ธก์ ์ก์์ ์ํฅ์ ํฌ๊ฒ ๋ฐ์ง ์์ง๋ง, ์์คํ
์ ์ธ๋์ด ์ธ๊ฐ๋์์ ๋ ์ธ๋ ์ถ์ ์ด ๋งค์ฐ
๋๋ฆฐ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๊ทธ๋ฆผ 6์ ์ ์ํ๋ ๊ด์ธก๊ธฐ๋ฅผ ์ฌ์ฉํ ๊ฒฐ๊ณผ์ด๋ฉฐ ์ค์ ์ํ์ ์ธ๋์ ์ฑ๊ณต์ ์ผ๋ก ์ถ์ ํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ๋ํ ์ธ๋์ ์ถ์ ์น๊ฐ ๊ณํต ์ฃผํ์์ 4 ์ฃผ๊ธฐ ์ด๋ด๋ก
์ค์ ์ธ๋์ ์๋ ดํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
๋ง์ง๋ง์ผ๋ก ๊ทธ๋ฆผ 7์ ์ ์ํ๋ ๊ด์ธก๊ธฐ์ ๊ฐ ์๊ฐ step์์ ์ ํ๋ ํ๋์ ๋ํ๋ธ ๊ฒ์ผ๋ก, ์ ํ๋ ํ๋์ด $L_{pole_{10}}$์ผ ๋ 1, $L_{pole_{30}}$์ผ
๋ 2 ๊ทธ๋ฆฌ๊ณ $L_{pole_{120}}$์ผ ๋ 3์ ๊ฐ์ ๊ฐ์ง๋ค. ํ์ต์ ์ํด์ ์ค๊ณ๋ ๊ด์ธก๊ธฐ๊ฐ ์ธก์ ์ก์์ด ์กด์ฌํ ๋์๋ ์ ์ ํ ๊ด์ธก ์ด๋์
์ ํํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก DQN ๊ธฐ๋ฐ ์ธ๋ ๊ด์ธก๊ธฐ๊ฐ ๊ฐ์ธํ ์ํ ์ถ์ ๊ณผ ์ธ๋ ์ถ์ ์ด ๊ฐ๋ฅํ๊ณ ์ค์ ์ ๋ก์ ๊ณ ์ฅํ๋ณ์ ํ์ฉ๋ ์ ์์์
์๋ฏธํ๋ค.