์ดํ๊ฑด
(Taegun Lee)
1iD
์ฃผ๋์ค
(Doyoon Ju)
1iD
์ด์์ผ
(Young Sam Lee)
โ iD
-
(Dept. of Electrical and Computer Engineering, Inha University, Incheon, Korea)
Copyright ยฉ The Korean Institute of Electrical Engineers(KIEE)
Key words
Reinforcement Learning, Double Inverted Pendulum, Sim-to-Real Learning, Recovery Property
1. ์ ๋ก
๋๋ฆฝ์ง์ ์์คํ
์ ์ ์ด๊ณตํ์ ์ธ ์ธก๋ฉด์์ ๋ถ์์ ํ ๋ํน์ฑ๊ณผ ๋น์ ํ ๋ชจ๋ธ ๋ฐฉ์ ์, ๊ทธ๋ฆฌ๊ณ ๋น์ต์ ์์์ด๋ผ๋ ๋๋ ๋์ ํน์ฑ์ ๋ชจ๋ ํจ์ ํ๋ ์์คํ
์ด๋ค.
์ด๋ฌํ ํน์ฑ ๋๋ฌธ์ ํด๋น ์์คํ
์ ์ค๋ ๊ธฐ๊ฐ ๋ค์ํ ์ ์ด ๊ธฐ๋ฒ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ํ
์คํธ๋ฒ ๋๋ก์จ ๋๋ฆฌ ์ฌ์ฉ๋์ด ์๋ค. ๋๋ฆฝ์ง์ ์์คํ
์ ํ์ฉํ
์ฃผ์ ์ฐ๊ตฌ ๋ถ์ผ๋ ์ง์๋ฅผ ๋๋ฆฝ์ํค๊ธฐ ์ํ swing-up ์ ์ด์ด๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์ํ ์ ์ด ๊ธฐ๋ฒ์ ์ฌ์ฉํ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ๋์๋ค(1-2). ํนํ ์ง์์ ๋จ์๊ฐ ์ฆ๊ฐํ ํํ์ธ 2๋จ ๋๋ฆฝ์ง์์ ๊ฒฝ์ฐ์๋ swing-up ์ ์ด ๋ฌธ์ ์์ฒด์ ๋๋๊ฐ ๋์ 2007๋
์ ์์์ผ Graichen์
์ํด 2์์ ๋ ๊ตฌ์กฐ์ ํจ๊ณผ์ ์ธ swing-up ์ ์ด ๊ธฐ๋ฒ์ด ์ ์๋์๋ค(3).
๋ํ, ์ต๊ทผ ์ธ๊ณต์ง๋ฅ ๊ธฐ์ ์ ๊ธ๊ฒฉํ ๋ฐ์ ์ ๋ฐ๋ผ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ํ์ฉํ ๊ฐํํ์ต์ ์ ์ด๊ณตํ ๋ถ์ผ์ ์ ์ฉํ๋ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ๋๊ณ ์๋ค(4). ๊ฐํํ์ต์ ์์ด์ ํธ๊ฐ ๊ด์ธกํ ํ๊ฒฝ์ ์ํ ์ ๋ณด์ ๋ฐ๋ผ ์์ ์ ํ๋ ์ ์ฑ
์ ๊ธฐ๋ฐํ์ฌ ํ๋์ ์ํํ๊ณ , ๊ทธ๋ก ์ธํด ๋ณํํ ํ๊ฒฝ์ผ๋ก๋ถํฐ ์ป์ด์ง๋ ๋ณด์์ด
์ต๋๊ฐ ๋๋๋ก ์์ ์ ํ๋ ์ ์ฑ
์ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ์ฌ ํ์ตํ๋ ๊ธฐ๋ฒ์ด๋ค. ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ด๊ธฐ๋ ์ฃผ์ด์ง ์์คํ
์ ์ํ ์ ๋ณด๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ ํ์ต๋
ํ๋ ์ ์ฑ
์ ๋ฐ๋ฅธ ์ต์ ์ ํ๋, ์ฆ ์ ์ด๋์ ์ถ๋ ฅํ๊ฒ ๋๋ค. ์ด๋ฌํ ์ตํฉ์ ์ธ ์ฐ๊ตฌ ๋ถ์ผ์ ์์ด์๋ ์ฌ์ ํ ๋๋ฆฝ์ง์ ๋ฐ ๋ค๋จ ๋๋ฆฝ์ง์๋ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฐ
์ ์ด๊ธฐ์ ํจ์ฉ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํ ํ
์คํธ๋ฒ ๋๋ก์ ํ์ฉ๋๊ณ ์๋ค. ๊ธฐ์กด์ ์ ํต์ ์ธ ์ ์ด๊ธฐ๋ฅผ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ด๊ธฐ๋ก ๋์ฒดํ์ฌ ์์ ์ธ๊ธํ swing-up
๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ฑฐ๋(5-6), ํน์ ์๋กญ๊ฒ ์ ์๋๋ ์ธ๊ณต์ง๋ฅ ํ์ต ๊ธฐ๋ฒ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํ ์ฐ๊ตฌ ๋ฑ์ ๋ค์ํ ๋ถ์ผ์์ ํ๋ฐํ ์ฌ์ฉ๋๊ณ ์๋ค(7-8).
ํ์ง๋ง ๊ฐํํ์ต์์ ํ์ต์ ์ฃผ์ฒด๊ฐ ๋๋ ์์ด์ ํธ๊ฐ ์ค๋ฌผ ์์คํ
๊ณผ ์ง์ ์ํธ์์ฉํ๋ฉฐ ํ์ต์ ์งํํ๋ ๊ฒฝ์ฐ, ๋ช๊ฐ์ง ๋ฌธ์ ์ ์ด ๋ฐ์ํ๋ค. ์ฌ๊ธฐ์ ์ํธ์์ฉ์
์๊ตฌ๋๋ ๋ฌผ๋ฆฌ์ ์ธ ์๊ฐ์ ์์์ ๋ฐ์ดํฐ ํ๋ ๋น์ฉ์ ์ฆ๊ฐ, ๊ทธ๋ฆฌ๊ณ ์คํ ์ค ๋ฐ์ํ ์ ์๋ ๋ฌผ๋ฆฌ์ ์ธ ์ํ ๋ฑ์ ์์๋ค์ด ํฌํจ๋๋ค(9). ์๊ธฐ๋ ๋ฌธ์ ์ ๋ค๋ก ์ธํด ๊ฐํํ์ต์ ์ด์ฉํ์ฌ ์ ์ด๊ธฐ๋ฅผ ์ค๊ณํ๋ ์ฐ๊ตฌ๋ ์ฃผ๋ก ์ค๋ฌผ ์์คํ
์ ๋ํน์ฑ์ ๋ฌ์ฌํ๋ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ๊ตฌ์ถํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก
๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ๋ ๋ฐฉ์์ ์คํ์ ํตํด ์ด๋ฃจ์ด์ง๊ณ ์๋ค(10). ์ด๋ ๊ฒ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ํ์ต์ด ์ด๋ฃจ์ด์ง๊ณ , ํ์ต์ด ์๋ฃ๋ ํ ์ด๋ฅผ ์ค์ ์์คํ
์ ์ ์ฉํ๋ ๋ฐฉ์์ Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ด๋ผ๊ณ ํต์นญํ๋ค.
๊ทธ๋ฌ๋ Sim-to-Real ํ์ต ๊ธฐ๋ฒ์๋ ํ ๊ฐ์ง ํฐ ๋ฌธ์ ์ ์ด ์กด์ฌํ๋๋ฐ, ์ด๋ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค๋ฌผ ์์คํ
๊ฐ์๋ ํญ์ ๊ฐ๊ทน, ์ฆ ํ์ค ๊ฒฉ์ฐจ(reality
gap)๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ด๋ค. ๋ ํ๊ฒฝ ๊ฐ์ ํ์ค ๊ฒฉ์ฐจ ํฌ๊ธฐ์ ๋ฐ๋ผ ์๋ฎฌ๋ ์ด์
์์ ํ์ตํ ๋ชจ๋ธ์ด ์ค์ ์์คํ
์์ ์ํํ๊ฒ ๋์ํ์ง ์๊ฑฐ๋, ๋์์
์ฑ๋ฅ ์ ํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค(11). ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ณธ ๋
ผ๋ฌธ์์๋ ์ ์๋ค์ด ์ํ ์ฐ๊ตฌ์ค์์ ์ค๋๊ธฐ๊ฐ ์ฐ๊ตฌํ๋ ๋๋ฆฝ์ง์ ์์คํ
์ ๋ํ ์ ์ด๊ณตํ ๋ฐ ๊ธฐ๊ตฌํ์ ์ง์์ ๋ฐํ์ผ๋ก, ์ค์
์์คํ
์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ์ฌ์ฉ๋๋ ๋ชจ๋ธ๊ณผ ์ ํฉ์ฑ์ด ์ฐ์ํ๋๋ก ์ค๊ณํ์ฌ ์ด ๊ฒฉ์ฐจ๋ฅผ ์ต์ํ ํ๋ค. ํด๋น ์์คํ
์ Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ ์ ์ฉํ
๊ฒฝ์ฐ ํ์ค ๊ฒฉ์ฐจ๋ก ์ธํ ์ฑ๋ฅ ์ ํ์ ๊ฑฑ์ ์์ด, ๋ฌผ๋ฆฌ์ ์ธ ์ ์ฝ์ผ๋ก๋ถํฐ ์์ ๋ก์ด ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ํ์ฉํด ํญ๋์ ๋ฐ์ดํฐ๋ฅผ ์ทจ๋ํ๊ณ ํ์ตํ ์ ์๋ค.
์ด๋ฌํ ๋ฐฉ์์ผ๋ก ํ์ต๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ ๊ธฐ์กด์ ์ ํต์ ์ธ ์ ์ด ๊ธฐ๋ฒ์ผ๋ก๋ ๋๋ฌํ๊ธฐ ์ด๋ ค์ ๋ ์๋ก์ด ์ ์ด ๋ฐฉ์์ ๊ตฌํ์ด ๊ฐ๋ฅํด์ง๋ค. ์ด๋ฅผ ํตํด
์ ํต์ ์ธ ์ ์ด ๊ธฐ๋ฒ์ผ๋ก๋ ํด๊ฒฐํ ์ ์๋ ๋ฌธ์ ๋ฅผ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ด๊ธฐ๋ก ํด๊ฒฐํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ด ์ ์๋๋ค.
์ด๋ฅผ ๋ท๋ฐ์นจ ํ๊ธฐ ์ํด ๋ณธ ๋
ผ๋ฌธ์ 2๋จ ๋๋ฆฝ์ง์์ swing-up ์ ์ด์์ ๊ฐ์ฅ ๋ํ์ ์ผ๋ก ์ฌ์ฉ๋๋ 2์์ ๋ ์ ์ด ๊ธฐ๋ฒ(3)์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ ์ ์ด ๋์์ ๊ตฌํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. 2์ฅ์์๋ ์์ ์ธ๊ธํ ์ ์ด๊ธฐ๋ฒ์ ํ๊ณ์ ์ด๋ฅผ Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ผ๋ก ๊ทน๋ณตํ
์ ์๋ ๋ฐฉ์์ ๋ํ์ฌ ๊ตฌ์ฒด์ ์ผ๋ก ์์ ํ๋ค. ์ด์ด์ง๋ 3์ฅ์์๋ Sim-to-Real ํ์ต์ ์ํด ํ์ค ๊ฒฉ์ฐจ๋ฅผ ์ต์ํ ํ๋ 2๋จ ๋๋ฆฝ์ง์ ์์คํ
์
์ค๊ณ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค. ์ดํ 4์ฅ์์ ์คํ ๋ฐ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ์ ํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก 5์ฅ์์ ๊ฒฐ๋ก ์ ๋ค๋ฃจ๋ ๊ตฌ์ฑ์ ๊ฐ๋๋ค.
2. Recovery ํน์ฑ์ ๊ฐ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ด๊ธฐ
์๋ก ์์ ์ธ๊ธ๋ Graichen์ด ์ ์ํ ์ ์ด ๊ธฐ๋ฒ์ ์คํ๋ผ์ธ ์ต์ ํ๋ฅผ ํตํด 2๋จ ๋๋ฆฝ์ง์์ swing-up ๊ถค์ ์ ๋ฏธ๋ฆฌ ๊ณ์ฐํ์ฌ ์ด๋ฅผ ์๋จน์(feedforward)
ํํ๋ก ์์คํ
์ ์ธ๊ฐํ๊ณ , ํด๋น ๊ถค์ ๊ณผ์ ์ค์ฐจ๋ฅผ ๋๋จน์(feedback) ์ ์ด๋ฅผ ํตํด ๋ณด์ ํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋ค. ์ด๋ฌํ 2์์ ๋ ์ ์ด ๊ธฐ๋ฒ์ ํตํด
2๋จ ๋๋ฆฝ์ง์์ ๋ ์ผ ๊ธธ์ด ์ ์ฝ์ ๊ณ ๋ คํ๋ฉด์๋ swing-up ์ ์ด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ ์ ์ด ๋ฐฉ์์ ๋์
ํ์๋ค. 2013๋
์๋ ๋ค๋ฅธ ์ฐ๊ตฌ์๊ฐ ๋์ผํ
๊ธฐ๋ฒ์ ์ด์ฉํ์ฌ ๊ตฌ์กฐ์ ์ผ๋ก ๋ ๋์ ๋๋๋ฅผ ๊ฐ๋ 3๋จ ๋๋ฆฝ์ง์์ swing-up ์ ์ด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํจ์ผ๋ก์จ ํด๋น ์ ์ด ๋ฐฉ์์ ์ฐ์์ฑ์ ๋ค์ ํ๋ฒ
๊ฒ์ฆํ์๋ค(12).
ํ์ง๋ง ํด๋น ์ ์ด ๊ธฐ๋ฒ์๋ ์น๋ช
์ ์ธ ๋จ์ ์ด ์กด์ฌํ๋ค. ์ด๋ ๊ฐํ ์ธ๋์ด ์ธ๊ฐ๋ ๊ฒฝ์ฐ ์ ์ด๊ฐ ๋ถ๊ฐ๋ฅํ ์ํ์ ์ด๋ฅด๊ฒ ๋๋ค๋ ๊ฒ์ด๋ค. ์ผ์ ์์ค์ ์ธ๋์
๋ํด์๋ ๋๋จน์ ์ ์ด์ ๋ณด์ ์ ํตํด ๊ฐ๊ฑด์ฑ์ ๊ฐ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ผ์ ์์ค ์ด์์ ๊ฐํ ์ธ๋์ ์ธ๊ฐํ๊ฒ ๋ ๊ฒฝ์ฐ ์์คํ
์ด ๋ฏธ๋ฆฌ ๊ตฌํด๋์๋ ์ ํ
๊ถค์ ๊ณผ ์์ ๊ถค๊ฐ ๋ฌ๋ผ์ง๋ฉฐ ์๋จน์ ์ ์ด๊ฐ ๋ฌด์๋ฏธํด์ง๊ฒ ๋๋ค. ์ด๋ ๋๋จน์ ์ ์ด๋ก๋ ๋ณด์ ํ ์ ์๋ ์ํ๊ฐ ๋์ด ๊ฒฐ๊ตญ ์ ์ด ๋ถ๋ฅ ์ํ์ ์ด๋ฅด๊ฒ ๋๋
๊ฒ์ด๋ค. ์ด๋ฐ ์ํ์ ์ด๋ฅด๊ฒ ๋ ๊ฒฝ์ฐ, ๊ธฐ์กด์ 2์์ ๋ ์ ์ด ๊ธฐ๋ฒ์ผ๋ก๋ ๋ค์ swing-up ๋์์ ํ ์ ์๊ฒ ๋๋ค. ์ ํ ๊ถค์ ์ ์คํ๋ผ์ธ ์ํฉ์์
๋ฏธ๋ฆฌ ์ฐ์ถ๋๋ ๊ฐ์ด๊ธฐ ๋๋ฌธ์, ์์คํ
์ด ๋์ํ๋ ๋์ค์๋ ๋ค์ ๊ถค์ ์ ๊ตฌํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๋ณธ ์ฐ๊ตฌ๋ Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ์๋ค. ๊ฐํํ์ต ์์ด์ ํธ๋ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ์์ ์ด ๊ฒฝํํด๋ณธ ์ํ ์ ๋ณด์
๊ทธ ๋น์์ ๋ณด์์ ๊ธฐ๋ฐํ์ฌ ํ๋์ ์ฑ
์ ๊ฐ์ ํ๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ์ต๋ํ ๋ง์ ์ํ ์ ๋ณด๋ฅผ ์ถ์ ํ๊ณ , ๊ฐ ์ํ๋ง๋ค ์ต์ ์ ์ ์ด๋์ ๋์ถํ๋ ์์ค๊น์ง
ํ์ต์ ์งํํ๋ค. ํด๋น ์์ ๊น์ง ํ์ต๋ ์ ์ด๊ธฐ๋ ์ด๋ ํ ์ํ์ ๋๋ฌํด๋ ์ํ๋ ์ ์ด๋ฅผ ์ํํ ์ ์๊ฒ ๋๋ ๊ฒ์ด๋ค.
์ด๋ ๋ง์น ๋ฏธ๋ก ์ฐพ๊ธฐ ๋ฌธ์ ์ ๋์ผํ๊ฒ ์๊ฐํ ์ ์๋ค. ๋ชฉ์ ์ง๊ฐ ๊ณ ์ ๋์ด ์๋ ๋ฏธ๋ก๊ฐ ์กด์ฌํ ๋, ํ์ต์ ์์ ์ง์ ์ ๋ฏธ๋ก์ ๋ฌด์์ํ ๊ณณ์ผ๋ก ๋ฐฐ์น์ํค๊ณ
๋ชฉ์ ์ง๋ฅผ ํ์ํ๋๋ก ํ์ต์ ๋ฐ๋ณตํ๋ค๋ฉด, ํ์ต์ด ์๋ฃ๋ ์ดํ์๋ ์ด๋ค ์ง์ ์์ ํ์์ ์์ํ๋๋ผ๋ ๋ฐ๋ก ๋ชฉ์ ์ง๋ฅผ ์ฐพ์ ๊ฐ ์ ์๋ ๊ฒ๊ณผ ๊ฐ๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก,
๋๋ฆฝ์ง์ ๋ํ ์ด๋ค ์ํ์ ๋๋ฌํ๋๋ผ๋ swing-up ์ ์ด๋ฅผ ์ํํ ์ ์๊ฒ ๋๋ ๊ฒ์ด๋ค. ๋๋ฆฝ์ง์์ ๊ฐํ ์ธ๋์ด ์ธ๊ฐ๋์์ ๊ฒฝ์ฐ์๋ ๊ฐํํ์ต ์์ด์ ํธ๋
์ด๋ฅผ ๋จ์ํ ํ๊ฒฝ์ ์ํ ์ ๋ณด๊ฐ ๋ณํํ๋ค๊ณ ์ธ์ํ ๋ค, ํด๋น ์์ ์ ์๋ง์ ์ ์ด๋์ ์ถ๋ ฅํ๋ ๋ฐฉ์์ผ๋ก swing-up ์ ์ด๋ฅผ ์ํํ๋ค.
์๊ธฐ๋ ๋ฐฉ์์ ํ์ต์ด ์ด๋ฃจ์ด์ง๊ธฐ ์ํด์๋ Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ด ํ์์ ์ผ๋ก ์๊ตฌ๋๋ค. ์์ ๋น์ ๋ฅผ ๋ค์๋ ๋ฐฉ์์ ํ์ต์ ์ํด์ ๊ฐํํ์ต
์์ด์ ํธ๊ฐ ์ต๋ํ ๋ค์ํ ์ํ๋ฅผ ๊ฒฝํํ๋ ๊ฒ์ด ์๊ตฌ๋๋๋ฐ, ์ค๋ฌผ ์์คํ
๋ง์ ์ฌ์ฉํ ํ๊ฒฝ์์๋ ๋ฌผ๋ฆฌ์ ์ธ ์ ์ฝ์กฐ๊ฑด์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ค์ ์ค๋ฌผ ์์คํ
์์๋
์ค๋ ฅ์ ์ํด ๋ชจ๋ ์ง์๊ฐ ๋ฐ๋ฅ์ ํฅํ ์ํ ์ธ์๋, ์ฐ๊ตฌ์๊ฐ ๊ฐ ์ง์๋ค์ ๊ฐ๋์ ๊ฐ์๋๋ฅผ ์์๋ก ์ด๊ธฐํ ํ ์ ์๋ค. ์ด๋ก ์ธํด ๊ฐํํ์ต ์์ด์ ํธ๊ฐ
๊ฒฝํํ ์ ์๋ ์ํ์ ๋ฒ์์๋ ํ๊ณ๊ฐ ์๊ธฐ๊ณ , ๊ฒฝํํด๋ณด์ง ๋ชปํ ์ํ์ ๋ํด์๋ ํ์ต์ด ์ด๋ฃจ์ด์ง์ง ์๋๋ค. ๋ฐ๋ผ์ ๋ชจ๋ ์ํฉ์ ๋์ํ ์ ์๊ฒ ๋๋ฉฐ,
์ด๋ ๊ฒฐ๊ตญ ์ธ๋์ด ์ธ๊ฐ๋ ์ํฉ์๋ ์๋ฒฝํ๊ฒ ๋์ฒํ ์ ์๊ฒ ๋๋ ๊ฒฐ๊ณผ๋ฅผ ์ผ๊ธฐํ๋ค.
ํ์ง๋ง ์๋ฎฌ๋ ์ด์
์ผ๋ก ๊ตฌ์ฑ๋ ํ๊ฒฝ์ ๊ทธ๋ฌํ ๋ฌผ๋ฆฌ์ ์ธ ์ ์ฝ์ผ๋ก๋ถํฐ ์์ ๋ก์์ง๋ค. ์ด๋ฌํ ํ๊ฒฝ์์๋ ๋งค๋ฒ ์๋ฎฌ๋ ์ด์
์ด ์์ํ ๋ ๋ง๋ค ๋ ์ง์์ ๊ฐ๋์
๊ฐ์๋, ๋์๊ฐ ๋์ฐจ์ ์์น์ ๊ฐ์๋๊น์ง. ์ํ ์ ๋ณด์ ํด๋นํ๋ ๋ชจ๋ ๊ฐ์ ์ฐ๊ตฌ์๊ฐ ์์๋ก ์ค์ ํ ์ ์๋ค. ์ด๋ฌํ ํ๊ฒฝ์ ํน์ฑ์ ํ์ฉํ๊ฒ ๋๋ฉด,
๊ฐํํ์ต ์์ด์ ํธ๊ฐ ์ค๋ฌผ ์์คํ
์์๋ ํ๋ฒ๋ ๊ฒช์ง ๋ชปํ์๋ฒํ ์ํฉ์ ๋ํด์๋ ์๋ฎฌ๋ ์ด์
์์๋ ์์ ๋กญ๊ฒ ํ์ต์ ์งํํ ์ ์๊ฒ ๋๋ค. ์ด๋ฌํ ๊ธฐ๋ฒ์
ํตํด ๊ฐํํ์ต ์์ด์ ํธ๋ ๊ด๋ฒ์ํ ์ํ ์ ๋ณด๋ฅผ ์ถ์ ํ๊ณ , ๊ทธ์ ๋ํ ํ๋์ ํ์ตํ๋ ๊ณผ์ ์ด ๋งค์ฐ ์ฉ์ดํด์ง๋ค. ์ด๋ฅผ ํตํด ๊ฐํ ์ธ๋์ด ์ธ๊ฐ๋ ์ํฉ์
๋ง์ดํ๋๋ผ๋ ์ด๋ฏธ ์๋ฎฌ๋ ์ด์
์์์ ๊ฒฝํํ๋ ์ํ ์ ๋ณด์ ํด๋นํ ํ๋ฅ ์ด ๋๊ธฐ ๋๋ฌธ์, ์ ์ด ๋ถ๋ฅ ์ํ์ ๋น ์ง์ง ์๊ณ ์ฑ๊ณต์ ์ธ ์ ์ด๋ฅผ ์ํํ ์ ์๊ฒ
๋๋ ๊ฒ์ด๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ์ด๋ฌํ ํน์ฑ์ ๊ฐ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ด๊ธฐ๊ฐ โRecovery ํน์ฑโ์ ๊ฐ๋๋ค๊ณ ๋ช
๋ช
ํ๋ค. ์ด๋ ๊ธฐ์กด์ ์ ์ด๊ธฐ์์๋ ๊ฐํ
์ธ๋์ ์ธ๊ฐํ์ ์ ๋ถ์์ ํ ์ํ๋ก ์ฒ์ด๋์ด ์ ์ด๊ฐ ๋ถ๋ฅํด์ง๋๋ฐ ๋ฐํด, Sim-to-Real ๊ธฐ๋ฒ์ ํ์ฉํด ๊ตฌํ๋ ์ ์ด๊ธฐ๋ ๋ถ์์ ํ ์ํ์ ์ด๋ฅธ ๋ค์๋
๋ค์ ์์ ํ ์ํ๋ก โํ๋ณตโํ ์ ์๋ ํน์ฑ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
ํ์ง๋ง ์๊ธฐ๋ Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ ๋
ํนํ ์ด์ ์ ์ ๋๋ก ํ์ฉํ๊ธฐ ์ํด์๋, ์๋ก ์์ ์ธ๊ธ๋ ํ์ค ๊ฒฉ์ฐจ๋ฅผ ์ต์ํ ์ํฌ ์ ์๋๋ก ์ค์
์์คํ
์ ๋ชจ๋ธ ์ ํฉ์ฑ์ด ์ฐ์ํ๋ค๋ ์ ์ ๊ฐ ๊ฐ๋ ฅํ๊ฒ ์๊ตฌ๋๋ค. ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ํ์ต์ด ์๋ฒฝํ๊ฒ ์ด๋ฃจ์ด์ก๋ค๊ณ ํ๋๋ผ๋, ์ค์ ์์คํ
์์๋ ๋์ ํน์ฑ์ด
๋ค๋ฅด๊ฒ ๋ํ๋๋ค๋ฉด ์ด๋ ์ ํ ํจ์ฉ์ฑ์ด ์๋ ์ ์ด๊ธฐ๊ฐ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ ์ํด ํ์ ๋ 3์ฅ์์๋ ์ค์ ์์คํ
์ ์ํ์ ๋ชจ๋ธ ๋ฐฉ์ ์์ ๊ตฌํ๊ณ , ๊ทธ์
์ ํฉ์ฑ์ด ์ฐ์ํ๋๋ก ๊ธฐ๊ตฌ์ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ๋ ๋ฐฉ์์ ์ ์ํ๋ค.
3. ๋ชจ๋ธ ์ ํฉ์ฑ์ด ๋์ 2๋จ ๋๋ฆฝ์ง์ ๊ตฌ์กฐ
3.1 2๋จ ๋๋ฆฝ์ง์์ ์ํ์ ๋ชจ๋ธ๋ฐฉ์ ์
๊ทธ๋ฆผ 1์ ์คํ์ ์ฌ์ฉ๋ 2๋จ ๋๋ฆฝ์ง์์ ๊ธฐ๊ตฌ์ ๊ฐ๋
๋๋ฅผ ๋ํ๋ด๋ฉฐ, ๊ทธ๋ฆผ์์ ์ฌ์ฉ๋๋ ๋ณ์๋ค์ SI ๋จ์๊ณ๋ฅผ ์ฌ์ฉํจ์ ๊ฐ์ ํ๊ณ , ์ธ๋ถ์ ์ธ ์๋ฏธ๋ ๋ค์๊ณผ ๊ฐ๋ค.
$M$์ ๋์ฐจ(cart)์ ์ง๋, $m_{1}$, $m_{2}$๋ ๊ฐ๊ฐ 1๋จ ์ง์์ 2๋จ ์ง์์ ์ง๋์ ์๋ฏธํ๋ฉฐ $l_{1}$, $l_{2}$๋ ๊ฐ๊ฐ
1๋จ ์ง์์ 2๋จ ์ง์์ ํ์ ์ถ์ผ๋ก๋ถํฐ ๋ฌด๊ฒ ์ค์ฌ๊น์ง์ ๊ธธ์ด๋ฅผ ๋ํ๋ธ๋ค. $\theta_{1}$์ 1๋จ ์ง์์ ํ์ ๋ณ์๋ก์จ
๊ทธ๋ฆผ. 1. 2๋จ ๋๋ฆฝ์ง์ ๊ธฐ๊ตฌ์ ๊ฐ๋
๋
Fig. 1. Mechanical conceptual diagram of a double inverted pendulum
์ง๋ฉด์ ๋ํ ๋ฒ์ ๊ณผ ์ด๋ฃจ๋ ๊ฐ์ด๋ฉฐ, $\theta_{2}$๋ 2๋จ ์ง์๊ฐ 1๋จ ์ง์์ ์ด๋ฃจ๋ ์๋์ ์ธ ํ์ ๋ณ์๋ฅผ ๋ํ๋ด๊ณ , $L_{1}$์ 1๋จ ์ง์์
ํ์ ์ถ๋ถํฐ 2๋จ ์ง์์ ํ์ ์ถ๊น์ง์ ๊ธธ์ด๋ฅผ ์๋ฏธํ๋ค. ๊ทธ๋ฆฌ๊ณ $c_{1}$๊ณผ $c_{2}$๋ 1๋จ ์ง์์ 2๋จ ์ง์์ ํ์ ์ถ์์ ๋ฐ์ํ๋ ๋ง์ฐฐ๊ณ์๋ฅผ
์๋ฏธํ๋ฉฐ, $y$๋ ๋์ฐจ์ ์ด๊ธฐ์์น๋ก๋ถํฐ์ ๋ณ์, $u$๋ ๋์ฐจ์ ๊ฐ์๋๋ฅผ ๋ํ๋ธ๋ค. ๋ํ, $i$,$j$,$k$๋ ๋ ์ผ์ ์ค์ฌ์ ์ ์์ ์ผ๋ก ํ ์ง๊ฐ์ขํ๊ณ์
๊ฐ ์ขํ์ถ์ ์๋ฏธํ๋ค.
2๋จ ๋๋ฆฝ์ง์์ ์ํ์ ๋ชจ๋ธ์ Euler-Lagrange equation์ ์ด์ฉํ์ฌ ์ ๋ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์ (1)๋ก ๋ํ๋ผ ์ ์๋ค.
์ ์์ ๊ฐ ์์๋ ์(2)์ ๊ฐ๋ค.
$h_{1}$ ~ $h_{7}$์ ์ (3)์ ํํ๋ก ์ ์๋๊ณ , ์ฌ๊ธฐ์ $g$๋ ์ค๋ ฅ๊ฐ์๋ 9.81[m/${s}^{2}$]๋ฅผ ๋ํ๋ธ๋ค.
์ (1)์ ์ฌ๋ฐฐ์ด ํ๋ฉด ์ (4)์ ํํ๋ก ๋ค์ ํ๊ธฐํ ์ ์๊ณ ,
์ ์์ ์ ๊ฐํ๊ฒ ๋๋ฉด ์ (5)๋ก ํํํ ์ ์๋ค. ์ด๋, ์ (5)์์ ์ํ ๋ฒกํฐ๋ฅผ $x_{1}=y$, $x_{2}=\theta_{1}$, $x_{3}=\theta_{2}$, $x_{4}=\dot y$, $x_{5}=\dot\theta_{1}$,
$x_{6}=\dot\theta_{2}$๋ก ์ ์ํ๊ณ $\ddot y$์ ๊ฐ์๋ $u$๋ก ๋ํ๋ด๋ฉด, ์ต์ข
์ ์ผ๋ก 2๋จ ๋๋ฆฝ์ง์์ ๋ชจ๋ธ๋ฐฉ์ ์์ ์ (6)๊ณผ ๊ฐ์ ๋น์ ํ ์ํ๋ฐฉ์ ์์ผ๋ก ๋ํ๋ผ ์ ์๋ค.
์๊ธฐ๋ ๋ชจ๋ธ๋ฐฉ์ ์์์ 1๋จ ์ง์์ 2๋จ ์ง์๋ ๊ฐ ์ค์ฌ์ ์์ $i$์ถ ๋ฐฉํฅ์ ํ์ ์ถ์ ์ค์ฌ์ผ๋ก ํ๋ ํ์ ๋ง์ด ์กด์ฌํ๋ค๋ ๊ฒ์ ๊ฐ์ ํ๋ค. ๋ํ ๋์ฐจ๋
$j$์ถ ๋ฐฉํฅ์ ์ํ์ด๋๋ง์ด ๋ฐ์ํ ์ ์๊ณ , ๊ทธ ์ด์ธ์ ์ํ์ด๋๊ณผ ํ์ ์ด๋์ ๋ฐ์ํ์ง ์๋ ๊ฒ์ ๊ฐ์ ํ๋ค. ํ์ ๋ 2์ ์์์ ๊ธฐ๊ตฌ๋ถ ๊ตฌ์กฐ๋ ์
๊ฐ์ ์ ์ต๋ํ ๋ถํฉํ ์ ์๋๋ก ์ค๊ณํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์ ํฉ์ฑ์ ์ต๋ํ ์ํค๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ค.
3.2 2๋จ ๋๋ฆฝ์ง์์ ๊ธฐ๊ตฌ๋ถ ๋ฐ ๊ตฌ๋๋ถ
๊ทธ๋ฆผ 1์ ์คํ์ ์ฌ์ฉ๋ 2๋จ ๋๋ฆฝ์ง์์ ๊ธฐ๊ตฌ์ ๊ฐ๋
๋๋ฅผ ๋ํ๋ด๋ฉฐ, ๊ทธ๋ฆผ์์ ์ฌ์ฉ๋๋ ๋ณ์๋ค์ SI ๋จ์๊ณ๋ฅผ ์ฌ์ฉํจ์ ๊ฐ์ ํ๊ณ , ์ธ๋ถ์ ์ธ ์๋ฏธ๋ ๋ค์๊ณผ ๊ฐ๋ค.
$M$์ ๋์ฐจ(cart)์ ์ง๋, $m_{1}$, $m_{2}$๋ ๊ฐ๊ฐ 1๋จ ์ง์์ 2๋จ ์ง์์ ์ง๋์ ์๋ฏธํ๋ฉฐ $l_{1}$, $l_{2}$๋ ๊ฐ๊ฐ
1๋จ ์ง์์ 2๋จ ์ง์์ ํ์ ์ถ์ผ๋ก๋ถํฐ ๋ฌด๊ฒ ์ค์ฌ๊น์ง์ ๊ธธ์ด๋ฅผ ๋ํ๋ธ๋ค. $\theta_{1}$์ 1๋จ ์ง์์ ํ์ ๋ณ์๋ก์จ
๊ทธ๋ฆผ. 1. 2๋จ ๋๋ฆฝ์ง์ ๊ธฐ๊ตฌ์ ๊ฐ๋
๋
Fig. 1. Mechanical conceptual diagram of a double inverted pendulum
์ง๋ฉด์ ๋ํ ๋ฒ์ ๊ณผ ์ด๋ฃจ๋ ๊ฐ์ด๋ฉฐ, $\theta_{2}$๋ 2๋จ ์ง์๊ฐ 1๋จ ์ง์์ ์ด๋ฃจ๋ ์๋์ ์ธ ํ์ ๋ณ์๋ฅผ ๋ํ๋ด๊ณ , $L_{1}$์ 1๋จ ์ง์์
ํ์ ์ถ๋ถํฐ 2๋จ ์ง์์ ํ์ ์ถ๊น์ง์ ๊ธธ์ด๋ฅผ ์๋ฏธํ๋ค. ๊ทธ๋ฆฌ๊ณ $c_{1}$๊ณผ $c_{2}$๋ 1๋จ ์ง์์ 2๋จ ์ง์์ ํ์ ์ถ์์ ๋ฐ์ํ๋ ๋ง์ฐฐ๊ณ์๋ฅผ
์๋ฏธํ๋ฉฐ, $y$๋ ๋์ฐจ์ ์ด๊ธฐ์์น๋ก๋ถํฐ์ ๋ณ์, $u$๋ ๋์ฐจ์ ๊ฐ์๋๋ฅผ ๋ํ๋ธ๋ค. ๋ํ, $i$,$j$,$k$๋ ๋ ์ผ์ ์ค์ฌ์ ์ ์์ ์ผ๋ก ํ ์ง๊ฐ์ขํ๊ณ์
๊ฐ ์ขํ์ถ์ ์๋ฏธํ๋ค.
2๋จ ๋๋ฆฝ์ง์์ ์ํ์ ๋ชจ๋ธ์ Euler-Lagrange equation์ ์ด์ฉํ์ฌ ์ ๋ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์ (1)๋ก ๋ํ๋ผ ์ ์๋ค.
์ ์์ ๊ฐ ์์๋ ์(2)์ ๊ฐ๋ค.
$h_{1}$ ~ $h_{7}$์ ์ (3)์ ํํ๋ก ์ ์๋๊ณ , ์ฌ๊ธฐ์ $g$๋ ์ค๋ ฅ๊ฐ์๋ 9.81[m/${s}^{2}$]๋ฅผ ๋ํ๋ธ๋ค.
์ (1)์ ์ฌ๋ฐฐ์ด ํ๋ฉด ์ (4)์ ํํ๋ก ๋ค์ ํ๊ธฐํ ์ ์๊ณ ,
์ ์์ ์ ๊ฐํ๊ฒ ๋๋ฉด ์ (5)๋ก ํํํ ์ ์๋ค. ์ด๋, ์ (5)์์ ์ํ ๋ฒกํฐ๋ฅผ $x_{1}=y$, $x_{2}=\theta_{1}$, $x_{3}=\theta_{2}$, $x_{4}=\dot y$, $x_{5}=\dot\theta_{1}$,
$x_{6}=\dot\theta_{2}$๋ก ์ ์ํ๊ณ $\ddot y$์ ๊ฐ์๋ $u$๋ก ๋ํ๋ด๋ฉด, ์ต์ข
์ ์ผ๋ก 2๋จ ๋๋ฆฝ์ง์์ ๋ชจ๋ธ๋ฐฉ์ ์์ ์ (6)๊ณผ ๊ฐ์ ๋น์ ํ ์ํ๋ฐฉ์ ์์ผ๋ก ๋ํ๋ผ ์ ์๋ค.
์๊ธฐ๋ ๋ชจ๋ธ๋ฐฉ์ ์์์ 1๋จ ์ง์์ 2๋จ ์ง์๋ ๊ฐ ์ค์ฌ์ ์์ $i$์ถ ๋ฐฉํฅ์ ํ์ ์ถ์ ์ค์ฌ์ผ๋ก ํ๋ ํ์ ๋ง์ด ์กด์ฌํ๋ค๋ ๊ฒ์ ๊ฐ์ ํ๋ค. ๋ํ ๋์ฐจ๋
$j$์ถ ๋ฐฉํฅ์ ์ํ์ด๋๋ง์ด ๋ฐ์ํ ์ ์๊ณ , ๊ทธ ์ด์ธ์ ์ํ์ด๋๊ณผ ํ์ ์ด๋์ ๋ฐ์ํ์ง ์๋ ๊ฒ์ ๊ฐ์ ํ๋ค. ํ์ ๋ 2์ ์์์ ๊ธฐ๊ตฌ๋ถ ๊ตฌ์กฐ๋ ์
๊ฐ์ ์ ์ต๋ํ ๋ถํฉํ ์ ์๋๋ก ์ค๊ณํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์ ํฉ์ฑ์ ์ต๋ํ ์ํค๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ค.
3.2 2๋จ ๋๋ฆฝ์ง์์ ๊ธฐ๊ตฌ๋ถ ๋ฐ ๊ตฌ๋๋ถ
Sim-to-Real ํ์ต์์ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ Sim์ ํด๋นํ๋ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ๊ตฌํํ๋๋ฐ ์ฌ์ฉ๋๋ ์ํ์ ๋ชจ๋ธ ๋ฐฉ์ ์๊ณผ Real์ ํด๋นํ๋ ์ค์
์ง์ ์์คํ
์ ๋์ ํน์ฑ ๊ฐ ์ ํฉ์ฑ์ด ์ฐ์ํ๋๋ก ์ค๊ณํด์ผ ํ๋ค๋ ๊ฒ์ด๋ค. ๋ ๊ฐ์ ์ ํฉ์ฑ์ด ์ข์ง ์์ ๊ฒฝ์ฐ์๋, ์๋ฎฌ๋ ์ด์
์์์์ ํ์ต์ด ์ฑ๊ณต์ ์ด๋๋ผ๋
์ค๋ฌผ ์์คํ
์์ ๊ทธ ์ฑ๋ฅ์ ์ ๋๋ก ๋ด์ง ๋ชปํ ๊ฐ๋ฅ์ฑ์ด ๋งค์ฐ ๋์์ง๊ธฐ ๋๋ฌธ์ด๋ค. ์ค์ ์์คํ
์ ๋ชจ๋ธ ๋ฐฉ์ ์๊ณผ์ ์ ํฉ์ฑ์ด ์ฐ์ํ๋๋ก ์ค๊ณํ๊ธฐ ์ํด์๋,
์ค์ ์์คํ
์ ๋์์ด ๋ชจ๋ธ ๋ฐฉ์ ์์์ ์ฌ์ฉ๋ ๊ฐ์ ๊ณผ ๋ถํฉํ๋ ์์ง์๋ง์ ๊ฐ๋๋ก ์ค๊ณํด์ผํ๋ค. ๋ชจ๋ธ ๋ฐฉ์ ์์์ ๊ณ ๋ คํ์ง ์์ ์์๊ฐ ๋ฐ์ํ๋ ๊ฒฝ์ฐ,
์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๊ณผ ์ค๋ฌผ ์์คํ
์ ๋์ ์๋ต๊ฐ์ ์ฐจ์ด๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ ์๋ค์ด ์ํ ์ฐ๊ตฌ์ค์์๋ ์ค๋ ๊ธฐ๊ฐ ๋ค์ํ ๋๋ฆฝ์ง์ ์์คํ
์ ์ง์ ์ ์ํ๋ฉฐ ๋ชจ๋ธ ๋ฐฉ์ ์๊ณผ ์ ํฉ์ฑ์ด ์ฐ์ํ ๊ธฐ๊ตฌ์ ๊ตฌ์กฐ๋ฅผ ์ ์ํ ๋ฐ ์๋ค(13). ๋ณธ ๋
ผ๋ฌธ์์๋ ํด๋น ๊ตฌ์กฐ์์ ๋ ๊ฐ์ ๋ ํํ์ ๊ธฐ๊ตฌ๋ถ์ ๊ตฌ๋๋ถ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํจ์ผ๋ก์จ ๋ชจ๋ธ๊ณผ ์ค์ ์์คํ
์ ์๋ต ์ ํฉ์ฑ์ ํฅ์์ํค๊ณ , ์ด๋ฅผ ํตํด ์๋ฎฌ๋ ์ด์
๊ณผ
์ค์ ์์คํ
์ ํ์ค ๊ฒฉ์ฐจ๋ฅผ ์ค์ผ ์ ์๋ ๋ฐฉ์์ ์ ์ํ๋ค. ์ ์๋๋ 2๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ๊ธฐ๊ตฌ์ ๊ตฌ์กฐ๋ ๊ทธ๋ฆผ 2์ ๋ณด์ด๋ ๋ฐ์ ๊ฐ๋ค.
๊ทธ๋ฆผ. 2. 2๋จ ๋๋ฆฝ์ง์ ๊ธฐ๊ตฌ์ ๊ตฌ์กฐ
Fig. 2. The mechanical structure of a double inverted pendulum
3.2.1 ๊ตฌ๋๋ถ ์ค๊ณ
๊ทธ๋ฆผ 3์ ๊ธฐ์กด (13)์์ ์ ์ํ๋ ๊ตฌ์กฐ๋ก, ํ๋ฆฌ์ ๊ตฌ๋๋ถ๊ฐ ๊ฒฐํฉ๋ ํํ๋ฅผ ๋ํ๋ธ๋ค. ํด๋น ๊ตฌ์กฐ๋ ๊ฐ์๊ธฐ๋ฅผ ์ฌ์ฉํ์ง ์์ BLDC ๋ชจํฐ๋ฅผ ์ด์ฉํ์ฌ ์ง์ ํ๋ฆฌ๋ฅผ ๊ตฌ๋ํจ์ผ๋ก์จ
๋ฐฑ๋์๋ฅผ ์ ๊ฑฐํ๊ณ , ์ด๋ฅผ ํตํด ๋ฐฑ๋์๋ก ์ธํ limit cycle ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ํํ์ด๋ค. ๋ํ, ํ๋ฆฌ์ ์ฅ์ฐฉ๋ ํ์ด๋ฐ ๋ฒจํธ์ ์ฅ๋ ฅ์ ๊ทน๋ณตํ๊ธฐ ์ํด
2๊ฐ์ ๋ฒ ์ด๋ง์ ์ฌ์ฉํด 2์ค์ผ๋ก ์ง์งํ์ฌ ๋ฒจํธ์ ์ฅ๋ ฅ์ด ํ๋ฆฌ๋ฅผ ๊ดํตํ๋ ์ถ์๋ง ์ ๋ฌ๋๊ฒ ํจ์ผ๋ก์จ ๋ชจํฐ์ ๊ฐํด์ง๋ ๋ถํ๋ฅผ ์ ๊ฑฐํ๋๋ก ์ค๊ณ๋์๋ค.
๊ทธ๋ฆผ. 3. 3D ํ๋ฆฐํธ ๊ตฌ์กฐ๋ฌผ์ ์ฌ์ฉํ ๊ตฌ๋๋ถ ๊ตฌ์กฐ
Fig. 3. Driving structure using 3D printed framework
ํ์ง๋ง ํด๋น ๊ตฌ์กฐ๋ ์ ์ฒด์ ์ธ ๊ตฌ๋๋ถ๋ฅผ ๊ฐ์ธ๊ณ ์๋ ์์ฌ๊ฐ 3D ํ๋ฆฐํฐ์์ ์ฌ์ฉ๋๋ PLA ์์ฌ๋ก, ์๋์ ์ผ๋ก ๋ฎ์ ๊ฐ๋๋ก ์ธํด ํ์์ด ๋ฐ์ํ๊ฑฐ๋ ๋ณํ๋๋ค๋
๋ฌธ์ ์ ์ด ๋ฐ์ํ์๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๊ทธ๋ฆผ 4์ ๊ฐ์ด ํด๋น ๊ตฌ์กฐ๋ฌผ ์ ์ฒด๋ฅผ ๊ฐ์ฑ
๊ทธ๋ฆผ. 4. ์๋ฃจ๋ฏธ๋ ํฉํ ๊ตฌ์กฐ๋ฌผ์ ์ฌ์ฉํ ๊ตฌ๋๋ถ ๊ตฌ์กฐ
Fig. 4. Driving structure using an aluminum composite panel
์ด ๋์ ์๋ฃจ๋ฏธ๋ ํฉ๊ธ ์์ฌ(์๋ฃจ๋ฏธ๋ 6061) ํ์ผ๋ก ๋์ฒดํ์ฌ ๊ตฌ์กฐ๋ฌผ์ ์์ ๋ฐ ๋ณํ์ ์ ๊ฑฐํจ์ผ๋ก์จ ๋ชจ๋ธ ๋ฐฉ์ ์์์ ๊ณ ๋ คํ์ง ์์ ์์๊ฐ ๋ฐ์ํ
๊ฐ๋ฅ์ฑ์ ๋ฐฐ์ ํ์๋ค.
3.2.2 ๋์ฐจ ๋ฐ ๋ ์ผ๋ถ ์ค๊ณ
๋์ฐจ์ ๋ณ์ง์ด๋์ ์ํ ๋๋ฆฝ์ง์์ ๋ ์ผ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ฆผ 5์ ๋ณด์ด๋ V-slotํ 2040 ํ๋กํ์ผ์์, ๊ทธ๋ฆผ 6์ ๋ํ๋ 2๊ฐ์ ์ ํ ๊ฐ์ด๋ ๋ ์ผ์ ์ฌ์ฉํ๋ ๊ตฌ์กฐ๋ก ๊ฐ์ ํ์๋ค. ๊ทธ๋ฆผ 5์ ๊ตฌ์กฐ์์๋ 2๋จ ๋๋ฆฝ์ง์์ swing-up ์ ์ด๋ฅผ ์ํด ๋์ฐจ์ ํ์ ์ธ๊ฐํ๋ฉด, ๋์ฐจ์ ๊ฒฐํฉ๋ ํ๋กํ์ผ์ด $\alpha$๋งํผ์ ๊ฐ๋๋ก ๋นํ๋ฆผ์ ๊ฒช๊ฒ
๋๋ค. ์ด๋ฌํ ๋ ์ผ์ ๋นํ๋ฆผ ๊ฐ๋๋ก ์ธํด ์ง์๊ฐ ๊ทธ๋ฆผ 1์์์ $j$์ถ์ ์ค์ฌ์ผ๋ก ํ์ ํ๊ฒ ๋๋๋ฐ, ์ด๋ ์์ ์์ ํ๋ ๋ชจ๋ธ ๋ฐฉ์ ์์ ๊ฐ์ ์ ์ ํ ๋ถํฉํ์ง ์๋ ์์๋ก ์์ฉํ๊ฒ ๋๋ค. ํด๋น ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ฆผ 6์ ๊ฐ์ด ์ ํ ๊ฐ์ด๋ ๋ ์ผ๋ก ๋ณ๊ฒฝํ ๊ตฌ์กฐ์์๋ ์๊ธฐ๋ $\alpha$์ ๊ฐ์ ๋ ์ผ์ ๋นํ๋ฆผ ์์๊ฐ ์ ํ ๋ฐ์ํ์ง ์๊ฒ ๋๋ค. ๋๋ถ์ด, ๊ฐ์ด๋ ๋ ์ผ์
๊ฒฐํฉ๋ ๋์ฐจ ๋ํ $j$์ถ ๋ฐฉํฅ์ ์ํ ์ด๋๋ง์ด ๋ฐ์ํ๊ฒ ๋๊ณ , ๋นํ๋ฆผ์ ์ํ ๊ทธ ์ธ์ ์ํ์ด๋๊ณผ ํ์ ์ด๋์ ์ ๊ฑฐํ์ฌ 3.1์ ์์ ์์ ํ ๋ชจ๋ธ ๋ฐฉ์ ์๊ณผ์
์ ํฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
๊ทธ๋ฆผ. 5. 2040 ์๋ฃจ๋ฏธ๋ ํ๋กํ์ผ์ ์ด์ฉํ ๋ ์ผ ๋ฐ ๋์ฐจ ๊ตฌ์กฐ
Fig. 5. The structure of the rail and cart constructed using 2040 aluminum profile
๊ทธ๋ฆผ. 6. 3090 ์๋ฃจ๋ฏธ๋ ํ๋กํ์ผ๊ณผ ์ด์ค ์ ํ ๊ฐ์ด๋ ๋ ์ผ์ ์ด์ฉํ ๋ ์ผ ๋ฐ ๋์ฐจ ๊ตฌ์กฐ
Fig. 6. The structure of the rail and cart using 3090 aluminum profile and dual linear
guide rails
์ด์ธ์๋ ํ์ ์กฐ์ธํธ์ ๋ณต๋ ฌ ๋ฒ ์ด๋ง ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ง์์ $i$์ถ ์ค์ฌ ํ์ ์ ๊ฐ์ ์ํค๊ณ , ๋ฒ ์ด๋ง์ ๊ณ ์ฒด ์ํ ์คํ์ ๋ฅผ ์ ๊ฑฐํ์ฌ ๋์ฐจ์ ์ ์ง ๋ง์ฐฐ๊ณผ
์ฟจ๋กฑ ๋ง์ฐฐ์ ์ ๊ฐ์ํค๋ ๋ฑ์ ์ถ๊ฐ์ ์ธ ์ค๊ณ๊ฐ ์ฌ์ฉ๋์๋ค. ํด๋น ๋ด์ฉ๋ค์ ์ฐธ๊ณ ๋ฌธํ (13)์์ ๊ธฐ์ ๋ ๋ฐ์ ๋์ผํ๊ธฐ์ ๋ณธ ๋
ผ๋ฌธ์์๋ ์์ธํ ๋ค๋ฃจ์ง ์๊ธฐ๋ก ํ๋ค.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
๋ณธ ์ฅ์์๋ ์์ ์์ ํ ๋ชจ๋ธ ๋ฐฉ์ ์๊ณผ ํด๋น ๋ชจ๋ธ์ ์ ํฉ์ฑ์ด ์ฐ์ํ 2๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ์ด์ฉํ์ฌ, Sim-to-Real ๊ธฐ๋ฒ์ ํ์ฉํ Recovery
ํน์ฑ์ ๊ฐ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ฅผ ์ค๊ณํ๋ ์คํ์ ์งํํ๋ค. ์ด๋ฌํ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ฅผ ์ค๊ณํ๊ธฐ ์ํ ๊ฐ๋ฐ ๋ฐ ์คํ ํ๊ฒฝ์ผ๋ก๋ ์ ์๊ฐ ์ด์ ์
์์ฑํ ๋ฌธํ (14)์์ ์ฌ์ฉํ ํ๊ฒฝ์ ์ผ๋ถ ๋ณํํ์ฌ ์ฌ์ฉํ์๋ค. ์ด๋ ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ํ์ต์ ์ํด ์ง์ ์ ์ผ๋ก ์ํธ์์ฉํ๋ ํ๊ฒฝ์ 3์ฅ์์ ์์ ํ ์ํ์ ๋ชจ๋ธ์ ๋ฐํ์ผ๋ก
Python์์ ์๋ฎฌ๋ ์ด์
์ผ๋ก ๊ตฌํํ์๋ค. ํด๋น ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ๊ตฌ์ถํ๋๋ฐ ์ฌ์ฉ๋ 2๋จ ๋๋ฆฝ์ง์์ ๋ฌผ๋ฆฌ์ ํ๋ผ๋ฏธํฐ๋ ํ 1์ ๋์ด๋์ด ์์ผ๋ฉฐ, ์๋ฏธ๋ถ ๋ฐฉ์ ์์ ํด๋ฅผ ๊ตฌํ๊ธฐ ์ํ ์๋ฒ๋ก๋ Runge-kutta ๋ฐฉ๋ฒ์ ์ ํํ์๋ค.
ํ 1. ์คํ์ ์ฌ์ฉ๋ 2๋จ ๋๋ฆฝ์ง์์ ํ๋ผ๋ฏธํฐ
Table 1. Parameters of the double inverted pendulum used in the experiment
Parameter
|
Link
|
$i=1$
|
$i=2$
|
$m_{i}$
|
0.2351 [kg]
|
0.1452 [kg]
|
$I_{i}$
|
0.0012 [kgm2]
|
0.0010 [kgm2]
|
$l_{i}$
|
0.0667 [m]
|
0.1288 [m]
|
$L_{i}$
|
0.1645 [m]
|
-
|
$c_{i}$
|
4.5116e-04
|
2.9198e-04
|
๊ฐํํ์ต ์์ด์ ํธ๋ ์ฐ์์ ์ธ ํ๋ ๊ณต๊ฐ์ ๊ฐ๋ ์์คํ
์์ ๋ง์ด ์ฌ์ฉ๋๋ SAC(Soft Actor Critic)์๊ณ ๋ฆฌ์ฆ์ ํตํด ๊ตฌํํ์๋ค. ํด๋น ์๊ณ ๋ฆฌ์ฆ์
์ฐ์์ ์ธ ํ๋ ๊ณต๊ฐ์ ์ง๋ ๋ณต์กํ ํ๊ฒฝ์์ ๋์ ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ด ์
์ฆ๋์์ผ๋ฉฐ, ์ต๋ ์ํธ๋กํผ ํญ์ ํ์ต ๊ณผ์ ์ ์ถ๊ฐํจ์ผ๋ก์จ ํํ์ ํตํ ํ๋ ์ ์ฑ
์
๋ค์์ฑ๊ณผ ์์ ์ฑ์ ํฅ์์ํฌ ์ ์๋ ํน์ง์ ๊ฐ์ง๊ณ ์๋ค(15). ํด๋น ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํ๋๋ฐ ์์ด ์ฌ์ฉ๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ์ ๊ฐ๋ค์ ํ 2์์ ํ์ธํ ์ ์์ผ๋ฉฐ, ๋ ๊ฐ์ ํ๋ ๋ ์ด์ด์ ์ ๋ ์๊ฐ 400, 300์ผ๋ก ๋ณ๊ฒฝ๋ ์ ์ด์ธ์๋ ์ฐธ๊ณ ๋ฌธํ (15)์ ์ ์๋ค์ด ์ฌ์ฉํ ํ๋ผ๋ฏธํฐ ๊ฐ์ ๋ชจ๋ ๋์ผํ๊ฒ ์ฌ์ฉํ์๋ค. ํด๋น ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๊ตฌํ๋ ๊ฐํํ์ต ์์ด์ ํธ๋ Python์์ 2๋จ ๋๋ฆฝ์ง์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๊ณผ ์ง์์ ์ผ๋ก ์ํธ์์ฉํ๋ฉฐ swing-up์ ํ๊ธฐ์ํ ์ ์ด ๊ธฐ๋ฒ์ ํ์ตํ๊ฒ ๋๋ค.
ํ 2. SAC ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉ๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ
Table 2. Hyperparameters used in the SAC algorithm
Parameter
|
Value
|
optimizer
|
Adam(16)
|
learning rate
|
3e-04
|
discount factor ($\gamma$)
|
0.99
|
replay buffer size
|
1e6
|
number of hidden layer
|
2
|
number of hidden units per $1^{{st}}$ layer
|
400
|
number of hidden units per $2^{{nd}}$ layer
|
300
|
nonlinearity
|
ReLU
|
target smoothing coefficient ($\tau$)
|
0.005
|
2๋จ ๋๋ฆฝ์ง์์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ๊ด์ธก ๊ฐ๋ฅํ ํ๊ฒฝ์ ์ํ ์ ๋ณด๋ 3์ฅ์์ ๊ธฐ์ ๋ ์ํ ๋ฐฉ์ ์์ ๋ฐ๋ผ <$y,\:\theta_{1},\:\theta_{2},\:\dot
y ,\:\dot\theta_{1},\:\dot\theta_{2}$> ๋ก ์ด๋ฃจ์ด์ง 6๊ฐ์ ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋๋ค. ์ด๋, $\theta_{1}$๊ณผ $\theta_{2}$๋
์ถํ ์ํํ ๋ณด์ํจ์์ ์ค๊ณ๋ฅผ ์ํด ๋๋จธ์ง ์ฐ์ฐ์ ์ ์ฉํ์ฌ $-\pi <\theta <\pi$์ ๋ฒ์๋ก ์ ํํ๋ค. ์ถ๊ฐ์ ์ผ๋ก $\theta_{1}$๊ณผ
$\theta_{2}$๋ ํ์ต ๊ณผ์ ์์ ์ ๊ทํ์ ์ฐ์์ฑ์ ์ด์ ์ ์ป๊ธฐ ์ํด sin($\theta_{i}$), cos($\theta_{i}$)์ ํํ๋ก
์ฌ๊ตฌ์ฑํ์ฌ ์ฌ์ฉํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐํํ์ต ์์ด์ ํธ์๊ฒ ์ ๋ฌ๋๋ ์ํ ์ ๋ณด์ ํํ๋ <$y,\:\sin(\theta_{1}),\:\cos(\theta_{1}),\:\sin(\theta_{2}),\:\cos(\theta_{2}),\:\dot
y ,\:\dot\theta_{1},\:\dot\theta_{2}$> ๋ก ๊ตฌ์ฑ๋ 8๊ฐ์ ๋ฐ์ดํฐ ๋ฌถ์์ด ๋๋ค. ๊ฐํํ์ต ์์ด์ ํธ๋ ํด๋น ์ํ ์ ๋ณด๋ฅผ
์
๋ ฅ์ผ๋ก ๋ฐ์ ์์ ์ ํ๋ ์ ์ฑ
์ ๋ฐ๋ฅธ ํ๋, ์ฆ ์ ์ด๋์ ์ถ๋ ฅํ๋ค. ์ด๋ ์ถ๋ ฅ๋๋ ์ ์ด๋์ ๋ชจํฐ์ ๊ฐ์๋ ๊ฐ $u$์ ํด๋นํ๋ฉฐ, ์ค์ ์์คํ
๊ตฌ๋๊ธฐ์
์๋ ๋ฅ๋ ฅ์ ๊ณ ๋ คํ์ฌ $-15<u<15$์ ๊ฐ์ผ๋ก ์ ํํ๋ค.
์๋ฎฌ๋ ์ด์
์์ ํ์ต ํ๊ฒฝ์์ ํ ์ํผ์๋์ ๊ธธ์ด๋ 10์ด๋ก ์ค์ ํ์๊ณ ์๋ฎฌ๋ ์ด์
์ 1ms ์ฃผ๊ธฐ๋ก ์
๋ฐ์ดํธ ๋๋ฉฐ, ํ์ต ๊ณผ์ ์ 10ms๋ง๋ค ์ด๋ฃจ์ด์ง๋ค.
๋ฐ๋ผ์ ์์ด์ ํธ๋ ํ๊ฒฝ๊ณผ ํ ์ํผ์๋๋น ์ต๋ 1000๋ฒ ์ํธ์์ฉ์ ํ๊ฒ ๋๊ณ , ์ํธ์์ฉ์ด ์ผ์ด๋๋ ์๊ฐ๋ง๋ค ๊ทธ ์์ ์ ๋ณด์ ๊ฐ์ ๊ธฐ๋ฐํ์ฌ ์์ ์ ํ๋
์ ์ฑ
์ ๊ฐ์ ํ๋ค. ๋ณด์ ๊ฐ์ ์ฐ์ถํ๊ธฐ ์ํ ๋ณด์ํจ์๋ ์ (8)์ ํํ๋ก ์ฌ์ฉํ์๋ค.
์๊ธฐ๋ ๋ณด์ํจ์๋ฅผ ์ด๋ฃจ๋ ๊ฐ๊ฐ์ ์์๋ ๊ทธ๋ฆผ 7์์ ํ์ธํ ์ ์์ผ๋ฉฐ, ๋ชจ๋ ํญ์ 0์ ์๋ ดํ ์๋ก ๋ณด์ ๊ฐ์ด ์ฆ๊ฐํ๋ ํน์ฑ์ ๋ํ๋ธ๋ค. ์ด๋ฅผ ํตํด ๋ ๊ฐ์ ์ง์๊ฐ ๋ชจ๋ ๋๋ฆฝ๋ ์ํ, ์ฆ swing-up์
์ฑ๊ณตํ ์ํ์์ ์ต์ํ์ ์์ง์๋ง์ ์ ์งํ๋ ๋ฐฉํฅ์ผ๋ก ํ๋ ์ ์ฑ
์ ํ์ตํ๊ฒ ๋๋ค.
๊ทธ๋ฆผ. 7. ๋ณด์ํจ์ ๊ทธ๋ํ
Fig. 7. Reward function graph
์ถ๊ฐ์ ์ผ๋ก $y$์ ๊ฐ์ด 0.4[m]๋ฅผ ์ด๊ณผํ๋ ๊ฒฝ์ฐ์๋ ํด๋น ์ํผ์๋๋ ํ์ต์ ๋์์ด ๋์ง ์๊ธฐ ๋๋ฌธ์ ํด๋น ์์ ์์ ์กฐ๊ธฐ ์ข
๋ฃ์ํจ๋ค. ์ด๋ ์ถํ
ํ์ต๋ ์ ์ด๊ธฐ๋ฅผ ์ค์ ์์คํ
์์ ์ฌ์ฉํ๋ ์ํฉ์์, ์ค์ ์์คํ
์ด ๋์ํ ์ ์๋ ๋ ์ผ์ ๋ฒ์๋ฅผ ์ด๊ณผํ๋ ์ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํจ์ด๋ค.
์๊ธฐ๋ ์กฐ๊ฑด์ ์คํ ํ๊ฒฝ์์ ์ํผ์๋๋ฅผ ๋ฐ๋ณตํ์ฌ ์คํ์ ์งํํ์๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 8์์ ํ์ธํ ์ ์๋ค. ์ฝ 1800ํ์ ํ์ต์ด ๊ฒฝ๊ณผํ ์์ ๋ถํฐ ์ํผ์๋ 10๊ฐ์ ๋ณด์๊ฐ ํ๊ท ์ด ํ์ต์ ์๋ ดํ์์์ ํ์ธํ ์ ์๋ค. ๊ทธ๋ฌ๋ ํ์ต์ด
์๋ ดํ ์ดํ์๋ ์ผ๋ถ ์ํผ์๋์์๋ ๋ณด์์ด ํ์ ํ ๋ฎ๊ฒ ๋ํ๋๋ ํ์์ด ๊ด์ธก๋๋๋ฐ, ์ด๋ ํด๋น ์คํ์์ ์ฌ์ฉ๋๋ ์ ์ด๊ธฐ๊ฐ Recovery ํน์ฑ์ ๊ฐ์ง
์ ์๋๋ก ๋ฌด์์ํ ์ด๊ธฐ ์กฐ๊ฑด์์ ์คํ๋์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ฐ ์ํผ์๋๊ฐ ์์๋ ๋ <$y,\:\theta_{1},\:\theta_{2},\:\dot
y ,\:\dot\theta_{1},\:\dot\theta_{2}$>๋ก ๊ตฌ์ฑ๋ ํ๊ฒฝ์ ์ํ ์ ๋ณด๋ ๋ฌด์์์ฑ์ ๊ฐ๋๋ก ์ด๊ธฐํํ์ฌ, ์์ด์ ํธ๊ฐ ๊ด๋ฒ์ํ
์ํ ์ ๋ณด๋ฅผ ๊ฒฝํํ ์ ์๋๋ก ํ์ต ํ๊ฒฝ์ ์ค์ ํ์๋ค. ๊ฐ ์ํ ์ ๋ณด๊ฐ ๋ฐ๋ฅด๋ ๋์์ ๋ฒ์๋ ์ (9)์ ๊ฐ๋ค.
ํ์ง๋ง ๋ฌด์์์ฑ์ ๊ฐ๋ 6๊ฐ์ ๋ฐ์ดํฐ๊ฐ ๋ชจ์ฌ ํ๋์ ์ํ ์ ๋ณด๋ฅผ ํ์ฑํ๊ธฐ ๋๋ฌธ์, ๊ฒฐํฉ๋ ์ํ์ ๋ณด๊ฐ ๋ฌผ๋ฆฌ๋ฒ์น์ ๋ฐ๋ฅด์ง ์๋ ์ํฉ์ด ๋ฐ์ํ ์ ์๋ค.
์ด๋ฐ ์ํ ์ ๋ณด๋ฅผ ์ด๊ธฐ ์กฐ๊ฑด์ผ๋ก ๊ฐ์ง๊ณ ๋ชจ๋ธ๋ฐฉ์ ์์ ์ฐ์ฐ์ด ์ด๋ฃจ์ด์ง๋ฉด, ๋ฌผ๋ฆฌ๋ฒ์น์ ์๋ฐฐ๋์ด ๋ฌผ๋ฆฌ์ ์๋ฏธ๊ฐ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ฒ ๋๋ค. ๊ฐํํ์ต ์์ด์ ํธ์
์
์ฅ์์๋ ์ง๊ธ๊น์ง ํ๋ฒ๋ ๊ฒฝํํด๋ณด์ง ๋ชปํ ์ํ์ ๋ณด๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ๊ฒ ๋๋ฏ๋ก, ํ์ต๋ ํ๋์ ์ฑ
์ด ์๋ ๋ฌด์์์ฑ์ด ์ง์ ํ๋์ ์ํํ๊ฒ ๋๋ค. ์ด๋ก ์ธํด
๋ฐ์ํ๋ ์๋ฏธ ์๋ ๋์ฐจ์ ์ด๋์ ์๋ฎฌ๋ ์ด์
์ ์กฐ๊ธฐ ์ข
๋ฃ ์กฐ๊ฑด์ ๋น ๋ฅด๊ฒ ๋๋ฌํ๊ฒ ๋ง๋ ๋ค. ๋ฐ๋ผ์ ํด๋น ์ํผ์๋๋ ์กฐ๊ธฐ์ ์ข
๋ฃ๋๋ฉฐ, ์ด๋ฐ ํ์์ ๊ทธ๋ฆผ 8์์ ์ต์ข
๋ณด์์ด ๋ฎ์ ํน์ ์ํผ์๋๋ค๋ก ๋ํ๋๊ฒ ๋๋ค.
๊ทธ๋ฆผ. 8. ํ์ต ๊ฒฐ๊ณผ ๊ทธ๋ํ
Fig. 8. Learning results graph
๊ทธ๋ฌ๋ ์ด์ ๊ฐ์ ๋ฌธ์ ๋ ํ์ต์ด ์๋ฃ๋ ์ ์ด๊ธฐ๋ฅผ ์ค์ ์์คํ
์ ์ ์ฉํ ๋์๋ ์ ํ ๊ณ ๋ คํ์ง ์์๋ ๋๋ ์์๊ฐ ๋๋ค. ์ค์ ์์คํ
์์๋ ๋ฌผ๋ฆฌ์ ์ธ ๋ฒ์น์
์๋ฐฐํ๋ ํ์์ด ๋ฐ์ํ ์๊ฐ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ๊ทธ๋ฌํ ์ํ ์ ๋ณด๋ฅผ ๊ด์ธกํ๋ ์ํฉ ์์ฒด๊ฐ ๋ฐ์ํ์ง ์๊ธฐ ๋๋ฌธ์, ์ ์์ ์ธ ์ํ
์ ๋ณด๋ง์ ๊ฐ์ง๊ณ ํ์ต์ ๊ธฐ๋ฐํ ์ ํํ ์ ์ด๋์ ์ฐ์ถํ์ฌ swing-up ์ ์ด๋ฅผ ์ํํ๊ฒ ๋๋ค.
๊ทธ๋ฆผ. 9. ์ธ๋ ์ธ๊ฐ ์คํ ๊ฒฐ๊ณผ
Fig. 9. Results of Disturbance Injection Experiment
๊ทธ๋ฆผ 9๋ ์ค์ 2๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ๊ตฌํ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ฅผ ์ ์ฉํ์ฌ ์ํํ swing-up ์ ์ด์ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ด๋ ๊ทธ๋ํ์ด๋ค. ์ด๊ธฐ swing-up
์ ์ด์ ์ฑ๊ณตํ ๋ค ์ ํ ์ํ๋ฅผ ์ ์งํ๊ณ ์๋ ๋ชจ์ต์ ํ์ธํ ์ ์๊ณ , ์ฝ 5์ด ์ดํ ์ธ๋ถ์์ ๊ฐํ ์ธ๋์ ์ธ๊ฐํ์๋ค. ๊ทธ๋ฆผ 9์์ ์ ์ ์ผ๋ก ํ์๋ ์์ ์ด ์ธ๋์ ์ธ๊ฐํ ์๊ฐ์ ๋ํ๋ธ๋ค. ์ด๋ก ์ธํด ์์คํ
์ด ๋ถ์์ ํ ์ํ๋ก ์ฒ์ด๋์์ง๋ง, ๊ณง๋ฐ๋ก ๋ค์ swing-up ์ ์ด๋ฅผ
์๋ํ์ฌ ๋๋ฆฝ์ํ๋ก ํ๋ณตํ๋ ๋ชจ์ต์ ํ์ธํ ์ ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ํตํด 2์ฅ์์ ์ธ๊ธํ๋ Recovery ํน์ฑ์ ๊ฐ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ์ ์ฑ๋ฅ์
ํ์ธํ ์ ์๋ค.
์คํ์ ๊ฒฐ๊ณผ๋ฅผ ์ข ๋ ๋ช
ํํ๊ฒ ํ์ธํ๊ธฐ ์ํด, ์คํ ๊ณผ์ ์ ์์์ผ๋ก ๊ธฐ๋กํ์ฌ ์ฐ๊ตฌ์ค Youtube ์ฑ๋์ ์
๋ก๋ํ์๋ค. ํด๋น ์์์ https://youtu.be/4ELdGB9UYZo
์์ ํ์ธํ ์ ์๋ค. (์์ ์ ๋ชฉ : Reinforcement learning control of a double inverted pendulum
with good recovery performance, ์ฑ๋๋ช
: Embedded Control Lab). ํด๋น ์์์์ 2๋จ ๋๋ฆฝ์ง์ ์์คํ
์
์ด๋ ํ ์ธ๋์ ์ธ๊ฐํ ๊ฒฝ์ฐ์๋, ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ๊ฐ ์ฑ๊ณต์ ์ผ๋ก swing-up ์ ์ด๋ฅผ ์ํํ๋ ๋ชจ์ต์ ํ์ธํ ์ ์๋ค.
๊ทธ๋ฆผ. 10. ์คํ ๊ณผ์ ์ ๊ธฐ๋กํ Youtube ์์
Fig. 10. YouTube video of the experiment procedure
5. Conclusion
๋ณธ ๋
ผ๋ฌธ์์๋ Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ด๊ธฐ๋ฅผ ์ค๊ณํ๊ณ ๊ฒ์ฆํ์๋ค. ํนํ, ๊ฐํ ์ธ๋์ ์ํด ๋ถ์์ ํด์ง ์ํ์์๋
swing-up์ ์ํํ ์ ์๋ ๋ฅ๋ ฅ์ ํ์ธํ ์ ์์๋ค. ์ด๋ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ด๊ธฐ๊ฐ ์ ํต์ ์ธ ์ ์ด ๊ธฐ๋ฒ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ ์๊ณ , ๋ณต์กํ ์ ์ด
๋ฌธ์ ์ ์์ด ํจ๊ณผ์ ์ธ ํด๊ฒฐ ๋ฐฉ์์ด ๋ ์ ์์์ ๋ณด์ฌ์ค๋ค.
๋ํ, ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ ๊ฐ์ ์ ํฉ์ฑ์ ๋์ด๊ธฐ ์ํ ์ค๊ณ ๋ฐฉ์์ ์ ์ํ์๋ค. ์ด๋ฅผ ํตํด Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ ์ฃผ์ ๋์ ๊ณผ์ ์ธ ํ์ค
๊ฒฉ์ฐจ๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ๋ก ์ ๊ตฌ์ฒดํํ์์ผ๋ฉฐ, ์ค์ ์์คํ
์์์ ์คํ์ ํตํด ๊ทธ ์ ํจ์ฑ์ ์
์ฆํ์๋ค.
๋ณธ ๋
ผ๋ฌธ์์๋ 2๋จ ๋๋ฆฝ์ง์์ swing-up ์ ์ด์ ์ด์ ์ ๋ง์ถ์์ง๋ง, ์ด๋ฅผ ํ์ฅํ์ฌ ๋ค์ํ ์ ์ด ๋ฌธ์ ์ ์ ์ฉํ๋ ์ฐ๊ตฌ๋ฅผ ์๊ฐํด๋ณผ ์ ์๋ค. ์ต๊ทผ์๋
๋ค๋จ ๋๋ฆฝ์ง์์ ๋
ํนํ ํน์ฑ์ ํ์ฉํ ์ฒ์ด์ ์ด์ ๊ฐ์ ์๋ก์ด ์ ์ด๋ฐฉ์์ด ์ ์๋์์ผ๋ฉฐ(17), 3๋จ ๋๋ฆฝ์ง์์ ๊ฐ์ด ๋ ๋๋ ๋์ ์์คํ
์ ๋ํ ์ฐ๊ตฌ๋ ์งํ๋๊ณ ์๋ค(12). ์ด๋ฌํ ํ์ฅ๋ ๋ฌธ์ ์ ๋ํด์๋ ๋ณธ ์ฐ๊ตฌ์์ ์ฌ์ฉ๋ ์ ๊ทผ ๋ฐฉ์์ด ์ ์ฉํ๊ฒ ํ์ฉ๋ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
References
N. Muskinja, B. Tovornik, April 2006, Swinging Up and Stabilization of a Real Inverted
Pendulum, in IEEE Transactions on Industrial Electronics, Vol. 53, No. 2, pp. 631-639
Y. Otani, T. Kurokami, A. Inoue, Y. Hirashima, 2001, A Swingup Control of an Inverted
Pendulum with Cart Position Control, IFAC Proceedings, Vol. 34, pp. 395-400
K. Graicehn, M. Treuer, M. Zeitz, 2007, Swing-up of the Double Pendulum on a Cart
by Feedforward and Feedback Control with Experimental Validation, Automatica, Vol.
43, pp. 63-71
J. Kober, J. A. Bagnell, J. Peters, 2013, Reinforcement Learning in Robotics: A Survey,
The International Journal of Robotics Research, Vol. 32, pp. 1238-1274
S. Israilov, L. Fu, J. Sรกnchez-Rodrรญguez, F. Fusco, G. Allibert, C. Raufaste, A. Mรฉdรฉric,
2023, Reinforcement Learning Approach to Control an Inverted Pendulum: A General Framework
for Educational Purposes, PLoS ONE, Vol. 18, No. e0280071
J. Baek, C. Lee, Y. S. Lee, S. Jeon, S. Han, 2024, Reinforcement Learning to Achieve
Real-time Control of Triple Inverted Pendulum, Engineering Applications of Artificial
Intelligence, Vol. 128, No. 107518
Y. Gil, J. H. Park, J. Baek, S. Han, 2022, Quantization- aware Pruning Criterion for
Industrial Applications, IEEE Transactions on Industrial Electronics, Vol. 69, No.
3, pp. 3203-3213
J. Baek, H. Jun, J. Park, H. Lee, S. Han, 2021, Sparse Variational Deterministic Policy
Gradient for Continuous Real-time Control, IEEE Transactions on Industrial Electronics,
Vol. 68, No. 10, pp. 9800-9810
G. Dulac-Arnold, D. Mankowitz, T. Hester, 2019, Challenges of Real-world Reinforcement
Learning, arXiv preprint arXiv:1904.12901
W. Zhao, J. P. Queralta, T. Westerlund, 2020, Sim-to-Real Transfer in Deep Reinforcement
Learning for Robotics: a Survey, 2020 IEEE Symposium Series on Computational Intelligence
(SSCI), pp. 737-744
N. Jakobi, P. Husbands, 1995, Noise and the Reality Gap: The Use of Simulation in
Evolutionary Robotics, Advances in Artificial Life: Third European Conference on Artificial
Life Granada, pp. 704-720
T. Glรผck, A. Eder, A. Kugi, 2013, Swing-up Control of a Triple Pendulum on a Cart
with Experimental Validation, Automatica, Vol. 49, pp. 801-808
D. Ju, C. Choi, J. Jeong, Y. S. Lee, 2022, Design and Parameter Estimation of
a Double Inverted Pendulum for Model-based Swing-up Control, Journal of Institute
of Control, Robotics and Systems (in Korean), Vol. 28, No. 9, pp. 793-803
T. Lee, D. Ju, Y. S. Lee, 2023, Development Environment of Reinforcement Learning-based
Controllers for Real-world Physical Systems Using LW-RCP, Journal of Institute of
Control, Robotics and Systems (in Korean), Vol. 29, No. 7, pp. 543-549
T. Haarnoja, A. Zhou, P. Abbeel, 2018, Soft Actor-critic: Off-policy Maximum Entropy
Deep Reinforcement Learning with a Stochastic Actor, International conference on machine
learning. PMLR, pp. 1861-1870
D. P. Kingma., 2014, Adam: A Method for Stochastic Optimization, arXiv preprint arXiv:1412.6980
J. Jeong, D. Ju, Y. Fujiyama, Y. S. Lee, 2023, Transition Control of a Double Inverted
Pendulum Using an LW-RCP, Journal of Institute of Control, Robotics and Systems (in
Korean), Vol. 29, No. 9, pp. 694-703
์ ์์๊ฐ
He received B.S. degree in electrical engineering from Inha university in 2023.
He is now a M.S. candidate in electrical and computer engineering at Inha university.
His research interests include reinforcement learning, embedded systems and optimal
control.
He received M.S. degree in electrical and computer engineering from Inha university
in 2023.
He is now a Ph.D. candidate in electrical and computer engineering at Inha university.
His research interests include optimal control, embedded systems and reinforcement
learning.
์ด์์ผ (Young Sam Lee)
He received B.S. and M.S. degrees in electrical engineering from Inha University,
Incheon, South Korea, in 1999, and the Ph.D. degree in electrical engineering from
Seoul National University, South Korea, in 2003.
From 2003 to 2004, he was a Senior Researcher with Samsung Electronics Co. Since 2004,
he has been with the Department of Electrical and Computer Engineering, Inha University.
He is the author of four books and more than 60 articles.
His research interests include computer- aided control system designs, rapid control
prototyping, control and instrumentation, robot engineering, and embedded systems.