๊น์ ํ
(Jeonghyeon Kim)
*iD
๊นํ์
(Han Sol Kim)
**iD
์ด์ฐฝ์
(Changeun Lee)
***iD
์ด๊ด์ผ
(Kwangil Lee)
โ iD
-
(Dept. of Electronics and Electrical Engineering, Dankook University, Republic of Korea.)
-
(Dept. of Electronics and Electrical Engineering, Dankook University/DMASTA, Republic
of Korea.)
-
(Electronics and Telecommunication Research Institute, Republic of Korea.)
Copyright ยฉ The Korean Institute of Electrical Engineers
Key Words
Long-tail Dataset, Real-time Object Detection, Dynamic Fusion, Class Imbalance
1. ์ ๋ก
์ค์๊ฐ ๊ฐ์ฒด ์ธ์์ ๊ฐ์, ์ ์ฐฐ, ์์จ์ฃผํ ๋ฑ๊ณผ ๊ฐ์ด ์ ์ํ๊ณ ์ ํํ ์ํฉ ํ์
์ด ์๊ตฌ๋๋ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ํต์ฌ์ ์ธ ์ญํ ์ ์ํํ๋ค. ์ด๋ฌํ
์์คํ
์์๋ ๊ฐ์ฒด๋ฅผ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์ธ์ํด์ผ๋ง ์ฃผ๋ณ ํ๊ฒฝ์ ์ฆ๊ฐ์ ์ผ๋ก ๋์ํ ์ ์์ผ๋ฉฐ, ์ธ์ ์ง์ฐ์ด๋ ์ฑ๋ฅ ์ ํ๋ ์น๋ช
์ ์ธ ์ฌ๊ณ ๋ก ์ด์ด์ง ์ ์๋ค.
๋ฐ๋ผ์ ์ต๊ทผ์๋ ๊ฒฝ๋ ๊ตฌ์กฐ์ ๊ณ ํจ์จ์ฑ์ ๋์์ ํ๋ณดํ๋ ์ค์๊ฐ ๊ฐ์ฒด ์ธ์ ๋ชจ๋ธ์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ๋๊ณ ์๋ค[1-4].
๊ทธ๋ฌ๋ ์ค์ ํ๊ฒฝ์์ ์์ง๋ ๋ฐ์ดํฐ์ธํธ๋ ์ผ๋ฐ์ ์ผ๋ก ํด๋์ค ๊ฐ ๋น๋๊ฐ ํฌ๊ฒ ๋ค๋ฅธ ๋กฑ-ํ
์ผ(long-tail) ๋ถํฌ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด ๊ฒฝ์ฐ ์ผ๋ถ ํด๋์ค๋
๋ง์ ์ํ์ ๋ณด์ ํ๋ ๋ฐ๋ฉด, ๋ค์์ ํด๋์ค๋ ์ ์ ์ํ๋ง ์กด์ฌํ๋ค. ์ด๋ฌํ ๋กฑ-ํ
์ผ ๋ฐ์ดํฐ์ ํ์ต ์ ๋ชจ๋ธ ์ฑ๋ฅ์ด ๋ค์ ์ํ์ ์ฐจ์งํ๋ ํค๋(head)
ํด๋์ค๋ก ํธํฅ๋๋ ๋ฌธ์ ๋ฅผ ์ด๋ํ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ ์์ ์ํ์ ์ฐจ์งํ๋ ํ
์ผ(tail) ํด๋์ค์ ๋ํ ์ธ์ ์ฑ๋ฅ์ด ์ ํ๋๋ค[5]. ํนํ ๋กฑ-ํ
์ผ ๋ถํฌ์์๋ ํ์ต ๊ณผ์ ์ ๋ฐ์์ ํด๋์ค ๊ฐ ๊ทธ๋ ๋์ธํธ(gradient) ๊ธฐ์ฌ๋๊ฐ ๋น๋์นญ์ ์ผ๋ก ๋์ ๋๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ ๊ฒฐ์ ๊ฒฝ๊ณ(decision
boundary)๊ฐ ํน์ ๋ฐฉํฅ์ผ๋ก ์๊ณก๋๊ณ ํ
์ผ ํด๋์ค์ ํํ ํ์ต์ด ์ ํ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค[6-8]. ์ด๋ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ํ์ํฌ ๋ฟ๋ง ์๋๋ผ, ๋ค์ํ ํ๊ฒฝ ๋ณํ๋ ์์ฃผ ๋ฐ์ํ์ง ์๋ ์ํฉ์์์ ๋์ ๋ฅ๋ ฅ์ ์
ํ์ํจ๋ค. ์ด๋ฌํ ์ด์ ๋ก ๋กฑ-ํ
์ผ
ํ์ต ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ์ค์๊ฐ ๊ฐ์ฒด ์ธ์ ์ฐ๊ตฌ์์ ํต์ฌ ๊ณผ์ ๋ก ์ฌ๊ฒจ์ง๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ์์ ํธ๋์คํฌ๋จธ(transformer) ๊ธฐ๋ฐ์ ์ค์๊ฐ ๊ฐ์ฒด ์ธ์ ๋ชจ๋ธ์ธ RT-DETR (real-time detection transformer)์
๋์ ํจ์จ์ฑ๊ณผ ์ค์๊ฐ์ฑ์ผ๋ก ์ธํด ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ํ์ฉ๋๊ณ ์๋ค[9]. ํนํ, RT-DETR์ ํจ์จ์ ์ธ IoU ์ธ์ ์ ๋ขฐ๋(IoU-aware confidence) ํ์ต์ ์ํด VFL (varifocal loss)์
๋ถ๋ฅ ์์ค๋ก ์ฌ์ฉํ๋ค. VFL์ ๋ถ๋ฅ(classification)๊ณผ ์ง์ญํ(localization) ๊ฐ์ ๋ถ์ผ์น๋ฅผ ์ํํ๋ ๋ฐ ํจ๊ณผ์ ์ด์ง๋ง, ํด๋์ค
๊ฐ ๋น๋ ์ฐจ์ด๋ฅผ ์ง์ ์ ์ผ๋ก ๋ณด์ ํ์ง ์๊ธฐ ๋๋ฌธ์ ๋กฑ-ํ
์ผ ๋ฐ์ดํฐ์ธํธ์์๋ ํค๋ ํด๋์ค์ ๋ํ ํธํฅ์ด ์ฌ์ ํ ์กด์ฌํ๋ค[10]. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด SSL (seesaw loss)๊ณผ ๊ฐ์ ํด๋์ค ๊ฐ ๋ถํฌ๋ฅผ ๋ฐ์ํ ์์ค ํจ์๊ฐ ๋์์ผ๋ก ์ ์๋์๋ค[11]. ํ์ง๋ง ๋ ์์ค ํจ์์ ๋ชฉ์ ๊ณผ ๋ฐฉ์์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋ณ๋์ ์กฐ์ ์์ด VFL์ SSL๋ก ๋จ์ ๋์ฒดํ ๊ฒฝ์ฐ ํ์ต ์ด๊ธฐ์ ๋ถ์์ ์ฑ, ํค๋-ํ
์ผ
ํด๋์ค ๊ฐ ๋ถ๊ท ํํ ์ต์ ํ๊ฐ ๋ฐ์ํ์ฌ ์ ์ฒด ์ฑ๋ฅ์ด ์ ํ๋๋ ํ์์ด ๋ํ๋ ์ ์๋ค. ํํธ, RT-DETR์ ๊ตฌ์กฐ์ ํ์ต ์ ๋ต์ ํ์ฅํ์ฌ ์ค์๊ฐ ๊ฐ์ฒด
์ธ์ ๋ชจ๋ธ์ ํ์ฉ์ฑ์ ๊ฐํํ RT-DETRv2๊ฐ ์ ์๋์์ผ๋ฉฐ[12], ๋ณธ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ RT-DETRv2 ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋กฑ-ํ
์ผ ๋ฐ์ดํฐ์์์ ์ฑ๋ฅ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋ก์ด ํ์ต ์ ๋ต์ ์ค๊ณํ๊ณ ์ ํ๋ค.
๋ฐ๋ผ์ ์์ ๋ถ์์ ์ฐฉ์ํ์ฌ ๋ณธ ๋
ผ๋ฌธ์์๋ RT-DETRv2 ๋ชจ๋ธ์ ํ์ต ์ ๋กฑ-ํ
์ผ ๋ฐ์ดํฐ์ธํธ์ ํธํฅ์ ์ํํ๊ธฐ ์ํด VFL๊ณผ SSL์ ๊ฒฐํฉํ๋
์ต์ ์ ํ์ต ์ ๋ต์ ์ ์ํ๋ค. ์ ์ํ๋ ๋ฐฉ์์ ํ์ต ์ด๊ธฐ์๋ SSL์ ์ํฅ์ ์ต์ํํ์ฌ ์์ ์ ์ธ ํ์ต์ ์ ๋ํ๊ณ , ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ๋ ์์ค ํจ์์
๊ฐ์ค์น๋ฅผ ์กฐ์ ํ์ฌ ๊ฐ์ค ํ๊ท ์ผ๋ก ๊ฒฐํฉํ๋ค. ์ด๋ฌํ ๊ฒฐํฉ ๋ฐฉ์์ ํ์ต ์ด๊ธฐ์ VFL์ ํตํด ๊ฐ์ฒด ๋ถ๋ฅ ๋ฐ ์์น ์ธ์ ์ฑ๋ฅ์ ๋น ๋ฅด๊ฒ ๋์ด๊ณ , ํ๋ฐ๋ถ์๋
SSL์ ์ฅ์ ์ ํจ๊ณผ์ ์ผ๋ก ๋ฐ์ํ์ฌ ๋กฑ-ํ
์ผ ๋ฐ์ดํฐ์ธํธ์์์ ์ธ์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ค. ๋ํ, ๋ ์์ค ํจ์์ ๊ฐ์ค ํ๊ท ๊ฐ์ค์น๋ฅผ ์คํ์ ์ผ๋ก ํ๊ฐํ์ฌ,
ํ์ต ๋จ๊ณ๋ณ๋ก ๊ฐ์ฅ ์ ํฉํ ๊ฐ์ค์น ์ค์ผ์ค๋ง ๊ธฐ๋ฒ์ ์ฐพ๊ณ , ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ํธํฅ ์ํ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค. ๋ณธ ๋
ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ ์ฌํญ์ ๋ค์๊ณผ ๊ฐ๋ค.
1) ์ํฌํฌ(epoch) ์งํ์ ๋ฐ๋ผ ๋ ์์ค ํจ์์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋์ ๊ฒฐํฉ ๊ธฐ๋ฒ์ ํตํด ์ด๊ธฐ ํ์ต ์์ ์ฑ ๋ฐ ๋ถ๊ท ํ ๋ฐ์ดํฐ์ ๋ํ ๊ฐ๊ฑด์ฑ์
๋์์ ํ๋ณดํ๋ค.
2) ๊ฐ์ค ํ๊ท ์ ์ต์ ๊ฐ์ค์น ์ค์ผ์ค๋ง ๊ธฐ๋ฒ์ ์คํ์ ํตํด ์ฐพ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ์ ํธํฅ ์ํ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
3) ์ ์ํ ๋ฐฉ์์ RT-DETRv2 ๋ชจ๋ธ ํ์ต์ ์ ์ฉํ๊ณ LVIS (large vocabulary instance segmentation) ๋ฐ์ดํฐ์ธํธ์์
๊ธฐ์กด ๋ฐฉ์ ๋๋น ํ
์ผ ํด๋์ค ์ฑ๋ฅ์ด ํฅ์๋จ์ ์ ๋์ ๋ฐ ์ ์ฑ์ ๊ฒฐ๊ณผ๋ก ์
์ฆํ๋ค.
2. ๊ด๋ จ ์ฐ๊ตฌ
์ค์๊ฐ ๊ฐ์ฒด ์ธ์ ๋ชจ๋ธ์ธ RT-DETR์ ๋ถ๋ฅ๊ธฐ ํ์ต ๋จ๊ณ์์ VFL์ ์ฌ์ฉํ์ฌ ์์ธก ์์์ IoU(intersection over union) ์ ๋ณด๋ฅผ
๋ถ๋ฅ ์ ๋ขฐ๋์ ์ง์ ๋ฐ์ํ๋ IoU ์ธ์ ๋ถ๋ฅ๋ฅผ ์ํํ๋ค. VFL์ ๋ถ๋ฅ ์ ์(score)์ IoU์ ์ผ์น์ฑ์ ๊ฐํํ๊ธฐ ์ํด ์ ์๋ ์์ค ํจ์๋ก,
IoU ์ ์๋ฅผ ๋ถ๋ฅ ์ ์์ ๊ฐ์ค์น๋ก ํ์ฉํจ์ผ๋ก์จ ๋ชจ๋ธ์ด IoU๊ฐ ๋์ ์์ธก ์์์๋ง ๋์ ๋ถ๋ฅ ์ ์๋ฅผ ๋ถ์ฌํ๋๋ก ํ์ตํ๋ค. ์ด๋ฅผ ํตํด ๋ถ๋ฅ์ ์ง์ญํ
๊ฐ์ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ์ํํ๋ค. ๊ทธ๋ฌ๋ VFL์ ํด๋์ค ๊ฐ ์ํ ์์ ์ฐจ์ด์ ์ํด ๋ฐ์ํ๋ ๊ทผ๋ณธ์ ์ธ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ์ง์ ์ ์ผ๋ก ๋ฐ์ํ์ง๋ ๋ชปํ๋
ํ๊ณ๊ฐ ์๋ค.
์ด์ ๊ฐ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋กฑ-ํ
์ผ ๋ฐ์ดํฐ์ธํธ์์ ํค๋ ํด๋์ค์ ํ
์ผ ํด๋์ค ๊ฐ ๊ทธ๋ ๋์ธํธ ๋ถ๊ท ํ์ ์ง์ ์ ์ผ๋ก ์ํํ๊ธฐ ์ํ ์์ค ํจ์๊ฐ ์ฐ๊ตฌ๋๊ณ
์๋ค[13-15]. SSL์ ํด๋์ค๋ณ ๋ฑ์ฅ ๋น๋์ ๋ฐ๋ผ ์์ ๊ทธ๋ ๋์ธํธ(negative gradient)๋ฅผ ์กฐ์ ํ๋ ์ํ ๊ณ์(mitigation factor)์
ํด๋์ค ๊ฐ ํผ๋๋๋ฅผ ๋ฐ์ํ๋ ๋ณด์ ๊ณ์(compensation factor)๋ฅผ ๋์
ํ์ฌ ํ
์ผ ํด๋์ค๊ฐ ํ์ต ๊ณผ์ ์์ ๊ณผ๋ํ๊ฒ ์ต์ ๋๋ ๋ฌธ์ ๋ฅผ ์ํํ๋ค.
์ด๋ฌํ ์ ๊ทผ์ ๋กฑ-ํ
์ผ ๋ถํฌ์์ ํ
์ผ ํด๋์ค์ ๋ถ๋ฅ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ํจ๊ณผ์ ์ด๋ค. ํ์ง๋ง RT-DETR ๊ตฌ์กฐ์์ VFL์ SSL๋ก ๋จ์ ๋์ฒดํ
๊ฒฝ์ฐ ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ๋ ๋ฌธ์ ๊ฐ ์๋ค. SSL์ ๋ถํฌ ๊ธฐ๋ฐ์ ๊ทธ๋ ๋์ธํธ ๋ณด์ ์ ์ด์ ์ ๋๊ณ ์์ด ์์ธก bbox์ IoU ์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ง ์์ผ๋ฉฐ,
์ด๋ก ์ธํด RT-DETR์ ํต์ฌ ์ค๊ณ ์์์ธ IoU ์ธ์ ๋ถ๋ฅ ํน์ฑ์ด ์ ์ง๋์ง ๋ชปํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์์ธก ์์ ํ์ง๊ณผ ๋ถ๋ฅ ์ ์ ๊ฐ์ ์ผ๊ด์ฑ์ด ์ฝํ๋๊ณ ,
์ด๋ ํด๋์ค ๊ฐ ๋ณด์ ์ ์ด๋ฃจ์ด์ง๋๋ผ๋ ์ ์ฒด mAP(mean average precision)๊ฐ ๊ฐ์ํ๋ ์ฑ๋ฅ ์ ํ๋ก ์ด์ด์ง๋ค. ์ด๋ VFL์ด RT-DETR์
๊ตฌ์กฐ์ ์ต์ ํ ๊ณผ์ ์์ ์ค์ํ ์ญํ ์ ์ํํจ์ ๋ณด์ฌ์ค๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๊ณ ๋ คํ์ฌ, ์ฌ๋ฌ ์ฐ๊ตฌ์์๋ ๋ ๊ฐ ์ด์์ ์์ค ํจ์๋ฅผ ๊ฒฐํฉํ๋ ์ ๊ทผ์ด ์ฐ๊ตฌ๋์ด ์๋ค. YOLO๋ SSD์ ๊ฐ์ ์ฃผ์ ๊ฐ์ฒด ์ธ์ ๋ชจ๋ธ๋ค์
๋ถ๋ฅ ์์ค๊ณผ ์์น ํ๊ท ์์ค์ ๊ฒฐํฉํ๊ธฐ ์ํด, ๋ ์์ค ํญ ์ฌ์ด์ ๊ณ ์ ๋ ๊ฐ์ค์น๋ฅผ ์ ์ฉํ์ฌ ์ ํ ๊ฒฐํฉํ๋ ๋ค์ค-ํ์คํธ ์์ค(multi-task loss)
๋ฐฉ์์ ์ฌ์ฉํ๋ค[16,17]. ์ด์ ๊ฐ์ ๊ณ ์ ๊ฐ์ค์น ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ์ค๊ณ๊ฐ ๋จ์ํ๊ณ ๊ตฌํ์ด ์ฉ์ดํ๋ค๋ ์ฅ์ ์ด ์์ง๋ง, ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ๊ฐ ์์ค ๊ฐ์ค์น์ ์ค์๋๊ฐ ๋ณํํ๋
๋์ ํ์ต ๊ณผ์ ์ ๋ฐ์ํ์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์๋ค.
3. ์ ์ํ๋ ๋ฐฉ๋ฒ
๋ณธ ์ฐ๊ตฌ์์๋ RT-DETRv2์ ๊ฒฐํฉ๋ ๋ถ๋ฅ ์์ค ํจ์๋ฅผ ํตํด ํ์ต ํธํฅ์ ์ํํ๋ ๊ธฐ๋ฒ์ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด RT-DETRv2 ๊ตฌ์กฐ์์ VFL์
IoU ์ธ์ ๋ถ๋ฅ๋ฅผ ํตํ ์ด๊ธฐ ํ์ต ์์ ์ฑ๊ณผ SSL์ ํด๋์ค ๋ถํฌ ๊ธฐ๋ฐ ํ
์ผ ํด๋์ค ๋ณด์ ํจ๊ณผ๊ฐ ์๋ก ์ํธ ๋ณด์์ ์ธ ํน์ฑ์ ๊ฐ์ง๋๋ก ์ค๊ณํ๋ค. ๋จผ์ ,
๋ ์์ค ํจ์์ ๊ฐ์ค์น ๋น์จ์ ์ผ์ ํ๊ฒ ์ ์งํ๋ ์ ์ ๊ฒฐํฉ ๋ฐฉ์์ ์ ์ํ๋ค. ์ ์ ๊ฒฐํฉ ๋ฐฉ์์ ํ์ต ์ ์ฒด ๊ณผ์ ์์ ๋ ์์ค ํจ์์ ๋น์ค์ ๋์ผํ๊ฒ
์ ์งํจ์ผ๋ก์จ VFL์ ์ง์ญํ ํ์ง ํ์ต๊ณผ SSL์ ํด๋์ค ๋ถ๊ท ํ ๋ณด์ ํจ๊ณผ๋ฅผ ๋์์ ๋ฐ์ํ๋๋ก ์ค๊ณ๋์๋ค. ์ ์ ๊ฒฐํฉ ๋ฐฉ์์ ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด
์ ์ํ๋ค.
์ฌ๊ธฐ์ $L_{bbox}$๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ํ๊ท ์์ค(bounding box regression loss), $L_{VFL}$์ VFL, $L_{SSL}$์
SSL๋ฅผ ๊ฐ๊ฐ ๋ํ๋ธ๋ค. $p$๋ ๋ชจ๋ธ์ ์์ธก ๋ถ๋ฅ ์ ์์ด๋ฉฐ, $q$๋ ๋ชฉํ ์ ์๋ก์ ์์ฑ ์ํ์์๋ ์์ธก ๋ฐ์ค์ ์ค์ ๋ฐ์ค ๊ฐ์ IoU๊ฐ, ์์ฑ
์ํ์์๋ 0์ผ๋ก ์ ์๋๋ค. $k$๋ ๋ ์์ค ํจ์์ ๋น์จ์ ์กฐ์ ํ๋ ๊ฐ์ค ํ๊ท ์ ๊ฐ์ค์น๋ก, ํ์ต ์ ์ฒด ๊ณผ์ ์์ ๊ณ ์ ๋ ๊ฐ์ผ๋ก ์ ์ง๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ
์ ์ ๊ฒฐํฉ ๋ฐฉ์์ ํ์ต ๋จ๊ณ๋ณ๋ก ์์ค ํจ์๊ฐ ์๊ตฌํ๋ ์ต์ ํ ๋ฐฉํฅ์ด ์๋ก ๋ค๋ฅธ ์ ์ ๋ฐ์ํ์ง ๋ชปํ๋ฏ๋ก, ๊ตฌ์กฐ์ ํ๊ณ๋ฅผ ๊ฐ์ง ์ ์๋ค. VFL์ ํ์ต
์ด๊ธฐ ๋จ๊ณ์์ IoU๊ฐ ๋์ ์์ธก ์์์ ๋ ๋์ ๋ถ๋ฅ ์ ์๋ฅผ ๋ถ์ฌํ๋๋ก ์ ๋ํ์ฌ ์ง์ญํ ์ค์ฌ์ ์์ ์ ์ธ ์ด๊ธฐ ํ์ต์ ์ง์ํ๋ ๋ฐ๋ฉด, SSL์ ํด๋์ค
๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ
์ผ ํด๋์ค ๋ณด์ ์ ์ด์ ์ ๋์ด ํ
์ผ ํด๋์ค์ ๊ทธ๋ ๋์ธํธ๋ฅผ ์๋์ ์ผ๋ก ํฌ๊ฒ ๋ง๋๋ ํน์ฑ์ ์ง๋๋ค. ๋ฐ๋ผ์, ํ์ต ์ด๋ฐ์๋ ์ง์ญํ ๋ฅ๋ ฅ์ด
์ถฉ๋ถํ ํ์ต๋์ง ์์ ์ํ์ด๋ฏ๋ก SSL์ด ๋
ธ์ด์ฆ๋ฅผ ๋ฐ์์ํค๋ฉฐ, ์ด๋ฌํ ๋
ธ์ด์ฆ๋ VFL์ด ์ ๊ณตํ๋ IoU ์ธ์ ๋ถ๋ฅ ์ต์ ํ ํ๋ฆ์ ๋ฐฉํดํ์ฌ ๋ชจ๋ธ์ ์ด๊ธฐ
์๋ ด์ ๋ฐฉํดํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด๋ฌํ ์ด๊ธฐ ๋ถ์์ ์ฑ์ ์ ์ฒด ํ์ต ๊ณผ์ ์ ๋ฐ์ ๊ฑธ์ณ ์ฑ๋ฅ ๊ฐ์๋ก ์ด์ด์ง๋ฉฐ, ํนํ ํ
์ผ ํด๋์ค์์ ์ถฉ๋ถํ ๋ณด์
ํจ๊ณผ๊ฐ ๋ํ๋์ง ๋ชปํ๋ ํ๊ณ๋ฅผ ๋ณด์ผ ์ ์๋ค.
์ด๋ฌํ ๋ถ์์ ์ฐฉ์ํ์ฌ, ๋ณธ ์ฐ๊ตฌ์์๋ $k$์ ๊ฐ์ ํ์ต ์งํ์ ๋ฐ๋ผ ์ ์ง์ ์ผ๋ก ์กฐ์ ํ๋ ๋์ ๊ฒฐํฉ ๊ธฐ๋ฒ์ ์ ์ํ๋ค. ์ ์๋ ๋ฐฉ์์ ํ์ต ์ด๊ธฐ์๋
VFL์ ๊ฐ์ค์น๋ฅผ ๋์ฌ IoU ๊ธฐ๋ฐ์ ์ง์ญํ ์ฑ๋ฅ์ ์ฐ์ ์ ์ผ๋ก ๊ฐํํ๊ณ , ํ์ต์ด ์์ ํ๋๋ ํ๋ฐ์๋ SSL์ ๋น์ค์ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ์์ผ ํด๋์ค ๋ถ๊ท ํ
๋ฌธ์ ๋ฅผ ์ํํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๋ค. ์ด๋ฅผ ์ํด ์ (1)์ ๊ฐ์ค์น $k$๋ ํ์ต ์ํฌํฌ์ ๋ฐ๋ผ 0์์ 1๋ก ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ์์ผ SSL์ ํด๋์ค ๋ถํฌ ๊ธฐ๋ฐ ๋ณด์ ํจ๊ณผ๊ฐ ์ถฉ๋ถํ ๋ฐ์๋๋๋ก ์ค๊ณํ์๋ค.
๋ํ, ๊ฐ์ค ํ๊ท ์ ๊ฐ์ค์น $k$์ ์ฆ๊ฐ ํจํด์ด ๋ชจ๋ธ ํ์ต์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ๊ณ ์ต์ ์ ์ค์ผ์ค๋ง ์ ๋ต์ ์ฐพ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ์์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ์ฌ๋ฌ ํํ์ ์ค์ผ์ค๋ง ํจ์๋ฅผ ์ ์ฉํ์๋ค. ๊ทธ๋ฆผ 1์ ํ์ต ์ํฌํฌ ์งํ์ ๋ฐ๋ผ $k$๊ฐ์ ์ฆ๊ฐ์ํค๋ ๋ฐฉ์์ ์ฐจ์ด๋ฅผ ์๊ฐ์ ์ผ๋ก ๋ํ๋ธ ๊ฒ์ผ๋ก, ๊ฐ ์ค์ผ์ค๋ง์ ์ฆ๊ฐ ์๋์ ๊ธฐ์ธ๊ธฐ ๋ณํ์ ๋ฐ๋ผ VFL์์
SSL๋ก์ ์์ค ํจ์์ ๋น์ค ์ ํ ์์ ์ด ๋ฌ๋ผ์ง์ ๋ณด์ฌ์ค๋ค. ์ด๋ฌํ ์ฐจ์ด๋ ํ์ต ์ด๊ธฐ์ ํ๋ฐ์์ ๋ชจ๋ธ์ด ๋ฐ๋ ํ์ต ์ ํธ์ ์๋ก ๋ค๋ฅธ ์ํฅ์ ์ฃผ๋ฏ๋ก,
์ค์ผ์ค๋ฌ ์ ํ์ ๊ฒฐํฉ ์์ค์ ์ฑ๋ฅ์ ์ค์ํ ์์๋ก ์์ฉํ๋ค. SSL์ ์ด์ฉํ ํ์ต ์ด๊ธฐ ๋จ๊ณ์์๋ ํค๋ ํด๋์ค์ ๊ทธ๋ ๋์ธํธ๊ฐ ๋น ๋ฅด๊ฒ ๋์ ๋๊ธฐ ๋๋ฌธ์,
ํ
์ผ ํด๋์ค์ ๋ํ ๋ณด์ ์ ํธ๊ฐ ์ถฉ๋ถํ ํ๋ณด๋์ง ์์ผ๋ฉด ์ฑ๋ฅ์ด ์ ํ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ์ด๋ฌํ ์ ์ ๊ณ ๋ คํ ๋, SSL์ ๊ฐ์ค์น๋ฅผ 5 ์ํฌํฌ ์ดํ์
๋น ๋ฅด๊ฒ ์ฆ๊ฐ์์ผ ์ด๊ธฐ ๋ณด์ ์ ํธ๋ฅผ ํ๋ณดํ๋๋ก ์ค๊ณ๋ piece-wise ๊ธฐ๋ฐ ์ค์ผ์ค๋ง์ด ํจ๊ณผ์ ์ด๋ค. ๊ฐ์ฅ ํจ๊ณผ์ ์ผ ๊ฒ์ผ๋ก ์์๋๋ค. ์ด๋ฌํ ๋์ ๊ฒฐํฉ
๋ฐฉ์์ ๋ ์์ค ํจ์์ ์ํธ ๋ณด์์ ์ฅ์ ์ ๊ทน๋ํํ๊ณ , ์ด๊ธฐ ํ์ต ์์ ์ฑ๊ณผ ํ๋ฐ ํ์ต์์์ ํด๋์ค ๊ท ํ์ ๋์์ ํ๋ณดํ ์ ์๋ค.
๊ทธ๋ฆผ 1. ๋ค์ํ $k$ ์ค์ผ์ค๋ฌ ๋ฐฉ์์ ์ํฌํฌ ์งํ์ ๋ฐ๋ฅธ ๋ณํ ๋น๊ต
Fig. 1. Comparison of different k-scheduler strategies over training epochs
4. ์ค ํ
4.1 ์คํ ๋ฐฉ๋ฒ
๋ณธ ์ฅ์์๋ ์ ์ํ ์์ค ํจ์ ๊ฒฐํฉ ๋ฐฉ์์ RT-DETRv2 ๋ชจ๋ธ์ ์ ์ฉํ์์ ๋, ๊ฐ ์ ์ ๋ฐฉ์์ ๋ฐ๋ฅธ ํธํฅ ์ํ ์ ๋๋ฅผ ์คํ์ ํตํด ๊ฒ์ฆํ๋ค.
์คํ์์๋ ๋กฑ-ํ
์ผ ๋ถํฌ ํน์ฑ์ ๋ช
ํํ๊ฒ ๋ฐ์ํ๋ LVIS ๋ฐ์ดํฐ์ธํธ๋ฅผ ์ฌ์ฉํ์๋ค. LVIS๋ 1,203๊ฐ์ ๊ฐ์ฒด ํด๋์ค๋ฅผ ํฌํจํ๋ฉฐ, ํด๋์ค๋ณ ๋ฐ์ดํฐ
๋ถํฌ๊ฐ ๋ถ๊ท ํํ์ฌ ํด๋์ค ์ด๋ฏธ์ง์ ๊ฐ์์ ๋ฐ๋ผ์ ๋น์ถ(frequent), ๋ณดํต(common), ํฌ์(rare)๋ก ๊ตฌ๋ถ๋๋ค[17]. ํฌ์ ํด๋์ค๋ ์ด๋ฏธ์ง ์๊ฐ 1์ฅ ์ด์ 10์ฅ ์ดํ์ธ ์นดํ
๊ณ ๋ฆฌ๋ก ์ ์๋๋ฉฐ, ๋ณดํต ํด๋์ค๋ ์ด๋ฏธ์ง ์๊ฐ 11์ฅ ์ด์ 100์ฅ ๋ฏธ๋ง์ธ ์นดํ
๊ณ ๋ฆฌ, ๋น์ถ
ํด๋์ค๋ ์ด๋ฏธ์ง ์๊ฐ 100์ฅ ์ด์์ธ ์นดํ
๊ณ ๋ฆฌ๋ก ๊ตฌ๋ถ๋๋ค. ์ด๋ฌํ ๋กฑ-ํ
์ผ ๋ถํฌ ํน์ฑ์ผ๋ก ์ธํด LVIS๋ ํด๋์ค ๋ถ๊ท ํ ํ๊ฒฝ์์์ ๊ฐ์ฒด ์ธ์ ์ฑ๋ฅ์
ํ๊ฐํ๋ ๋ํ์ ์ธ ๋ฒค์น๋งํฌ๋ก ํ์ฉ๋๊ณ ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ LVIS ํ์ต ์ด๋ฏธ์ง 100,170์ฅ์ ์ฌ์ฉํ์ฌ RT-DETRv2 ๋ชจ๋ธ์ ํ์ตํ์์ผ๋ฉฐ,
ํ๊ฐ ๋จ๊ณ์์๋ ๊ฒ์ฆ ์ด๋ฏธ์ง 19,809์ฅ์ ํ์ฉํ์ฌ ๋น์ถ, ๋ณดํต, ํฌ์ ํด๋์ค๋ณ AP(average precision) ์ฑ๋ฅ์ ์ฐ์ถํ์๋ค. AP๋
์ ๋ฐ๋-์ฌํ์จ ๊ณก์ ์๋์ ๋ฉด์ ์ผ๋ก ์ฐ์ถ๋๋ ๊ฐ์ฒด ๊ฒ์ถ ์ฑ๋ฅ ์งํ์ด๋ฉฐ, $AP_r$์ ํฌ์ ํด๋์ค, $AP_c$๋ ๋ณดํต ํด๋์ค, $AP_f$๋ ๋น์ถ
ํด๋์ค์ ๋ํ AP๋ฅผ ๋ํ๋ธ๋ค.
4.2 ์คํ ๊ฒฐ๊ณผ
ํ 1์ ํ์ต ์ด๊ธฐ ๋จ๊ณ์์ SSL์ ์ ์ ๊ฐ์ค์น๋ก ๊ฒฐํฉํ์์ ๋, ๊ฐ์ค์น $k$ ๊ฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ๋ค. ์ (1)์ ๋ฐ๋ผ $k=0$์ VFL์ ๋จ๋
์ผ๋ก ์ฌ์ฉํ์ฌ ํ์ตํ ๊ฒฐ๊ณผ์ด๋ค. ์คํ ๊ฒฐ๊ณผ, $k=0$์ผ ๋ ๊ฐ์ฅ ๋์ AP๋ฅผ ๊ธฐ๋กํ์์ผ๋ฉฐ, $k$๊ฐ์ด ์ฆ๊ฐํจ์
๋ฐ๋ผ ์ ์ฒด AP๊ฐ ์ง์์ ์ผ๋ก ๊ฐ์ํ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ํ์ต ์ด๊ธฐ ๋จ๊ณ์์๋ SSL์ด ์์ ์ ์ธ ์ต์ ํ๋ฅผ ์ ์งํ์ง ๋ชปํด ์ ์ ๊ฒฐํฉ ๋ฐฉ์์ด ํจ๊ณผ์ ์ผ๋ก
์๋ํ์ง ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ์ ์ ๊ฒฐํฉ ๊ธฐ๋ฒ์ด ํ์ต ๋จ๊ณ๋ณ ์ต์ ํ ์๊ตฌ๋ฅผ ๋ฐ์ํ์ง ๋ชปํ์ฌ ์ฑ๋ฅ ํฅ์์ ๊ตฌ์กฐ์ ํ๊ณ๋ฅผ ๊ฐ์ง๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
ํ 1. ์ ์ ๊ฒฐํฉ ๊ธฐ๋ฒ์์ ๊ฐ์ค์น $k$ ๋ณํ์ ๋ฐ๋ฅธ ํ์ต ์ฑ๋ฅ ๋น๊ต
Table 1. Performance comparison according to static weight $k$ in the training epoch
|
$k$
|
$AP$
|
$AP_r$
|
$AP_c$
|
$AP_f$
|
|
0.0
|
34.1
|
18.6
|
31.6
|
43.6
|
|
0.1
|
32.0
|
15.5
|
30.7
|
40.7
|
|
0.3
|
31.0
|
16.2
|
28.7
|
40.1
|
|
0.5
|
28.4
|
12.8
|
26.9
|
36.9
|
|
0.7
|
26.5
|
10.4
|
26.3
|
33.9
|
์ด๋ฌํ ๋ฌธ์ ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์ ์ํ ๋์ ๊ฒฐํฉ ๋ฐฉ์์ ํจ๊ณผ๋ฅผ ๋ค์ํ ์ค์ผ์ค๋ง ๊ธฐ๋ฒ์ ํตํด ๋ถ์ํ์๋ค. ํ์ต ๊ณผ์ ์์ SSL์ ๊ธฐ์ฌ๋๋ฅผ ์กฐ์ ํ๊ธฐ ์ํด
๊ทธ๋ฆผ 1์ ๋ค ๊ฐ์ง ํํ์ ์ค์ผ์ค๋ง ํจ์๋ฅผ ์คํ์ ์ ์ฉํ์์ผ๋ฉฐ, ํด๋น ๋น๊ต ๊ฒฐ๊ณผ๋ ํ 2์ ์ ๋ฆฌ๋์ด ์๋ค. ์คํ ๊ฒฐ๊ณผ, tanh ํจ์๋ ํฌ์ ํด๋์ค์์ ๊ฐ์ฅ ๋์ 25.1 AP๋ฅผ ๊ธฐ๋กํ์์ผ๋, ๋น์ถ ํด๋์ค ์ฑ๋ฅ์ด 37.1๋ก ํ๋ฝํ์ฌ ์ ์ฒด
์ฑ๋ฅ์ด ์ ํ๋์์์ ๋ณผ ์ ์๋ค. ๋ฐ๋ฉด linear ํจ์๋ ๋น์ถ ํด๋์ค์์ 40.5 AP๋ก ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ํฌ์ ํด๋์ค์์ ์ฑ๋ฅ์ด ์๋์ ์ผ๋ก
๊ฐ์ํ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ค์ผ์ค๋ง ํจ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ๊ฐํ๋ฅผ์๋ก ํฌ์ ํด๋์ค์ ๋ํ ๋ณด์ ํจ๊ณผ๋ ์ปค์ง์ง๋ง, ๋น์ถ ํด๋์ค์ ์ฑ๋ฅ์ด ๊ฐ์ํ๋ trade-off
๊ด๊ณ๊ฐ ์กด์ฌํจ์ ์๋ฏธํ๋ค. ์์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ข
ํฉํ์ ๋, piece-wise ์ค์ผ์ค๋ฌ๊ฐ ํฌ์ ๋ฐ ๋น์ถ ํด๋์ค ๋ชจ๋์์ ๊ฐ์ฅ ์์ ์ ์ด๊ณ ๊ท ํ์ ์ธ ์ฑ๋ฅ์
์ ๊ณตํ๋ ์ค์ผ์ค๋ง ์ ๋ต์ผ๋ก ๋ํ๋ฌ๋ค.
ํ 2. $k$ ์ค์ผ์ฅด๋ฌ์ ๋ํ ์ฑ๋ฅ ๋น๊ต
Table 2. Performance comparison of $k$-scheduling methods
|
Method
|
$AP$
|
$AP_r$
|
$AP_c$
|
$AP_f$
|
|
Piece-wise
|
33.3
|
22.3
|
31.5
|
40.4
|
|
Cosine
|
32.5
|
20.9
|
30.5
|
39.7
|
|
Tanh
|
32.5
|
25.1
|
31.1
|
37.1
|
|
Linear
|
33.1
|
21.0
|
31.2
|
40.5
|
์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ํ 3์ RT-DETRv2 ๋ชจ๋ธ์ ๋์์ผ๋ก ๋ค์ํ ์์ค ํจ์ ํ์ต ๋ฐฉ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ๋ค. ๋จผ์ VFL๋ง์ ์ฌ์ฉํ์ฌ ํ์ตํ ๊ฒฝ์ฐ
์ ์ฒด AP๋ 34.1์ด๋ฉฐ ํฌ์, ๋ณดํต, ๋น์ถ ํด๋์ค์์ ๊ฐ๊ฐ 18.6, 31.6, 43.6์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ดํ, SSL๋ฅผ ๋จ์ ๋์ฒดํ์ฌ ํ์ตํ
์ค์ ์์๋ IoU ์ธ์ ๋ถ๋ฅ๊ฐ ์ ์ง๋์ง ์์ ์ ์ฒด์ ์ผ๋ก mAP ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋์์ผ๋ฉฐ, ์ด๋ VFL๋ฅผ ์ ๊ฑฐํ ๊ฒฝ์ฐ ์ง์ญํ ์ ๋ณด์ ๋ถ๋ฅ ์ ํธ๊ฐ ์ผ์นํ์ง
์์์ ํ์ธํ์๋ค. ์ ์ ๊ฒฐํฉ ๋ฐฉ์์ ๋ ์์ค ํจ์๋ฅผ ๋์์ ๋ฐ์ํจ์๋ ๋ถ๊ตฌํ๊ณ ๊ธฐ์กด VFL ํ์ต ๋๋น ์ฑ๋ฅ์ด ์ ํ๋์๋ค. ์ด๋ ํ์ต ์ด๊ธฐ ๋จ๊ณ์์
SSL์ ํ์ต ๋
ธ์ด์ฆ๊ฐ VFL์ IoU ์ธ์ ๋ถ๋ฅ ์ต์ ํ๋ฅผ ๋ฐฉํดํ์ฌ ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ์์ ๋ณด์ฌ์ค๋ค. ๋ฐ๋ฉด, ๋์ ๊ฒฐํฉ ๋ฐฉ์์ผ๋ก ์ ์ฉํ ๋ชจ๋ธ์ ์ ์ฒด
mAP๋ 33.3์ผ๋ก ๊ฐ์ํ์์์๋ ํฌ์ ํด๋์ค AP๊ฐ 22.3์ผ๋ก ํฌ๊ฒ ํฅ์๋์๋ค. ์ด๋ ์ ์ํ ๊ธฐ๋ฒ์ด ํ์ต ์ด๊ธฐ์ ์ง์ญํ ์ค์ฌ ํ์ต์ ์์ ์ ์ผ๋ก
์ํํ๊ณ , ์ดํ ๋จ๊ณ์์ SSL ๊ธฐ๋ฐ์ ํด๋์ค ๋ถ๊ท ํ ๋ณด์ ์ ์ ์ง์ ์ผ๋ก ํ์ฑํํจ์ผ๋ก์จ ๋กฑ-ํ
์ผ ๋ฐ์ดํฐ์ธํธ์์์ ํ
์ผ ํด๋์ค์ ์ฑ๋ฅ์ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ ํ์์
๋ณด์๋ค.
ํ 3. ์์ค ํจ์ ๊ฒฐํฉ ๋ฐฉ์์ ๋ํ ์ฑ๋ฅ ๋น๊ต
Table 3. Performance comparison of loss combination methods
|
Method
|
$AP$
|
$AP_r$
|
$AP_c$
|
$AP_f$
|
|
Single (VFL) [10]
|
34.1
|
18.6
|
31.6
|
43.6
|
|
Single (SSL) [11]
|
18.5
|
13.3
|
17.4
|
21.9
|
|
Static ($k=0.1$)
|
32.0
|
15.5
|
30.7
|
40.7
|
|
Dynamic (piece-wise)
|
33.3
|
22.3
|
31.5
|
40.4
|
๋ํ ํธํฅ ์ํ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํค๊ธฐ ์ํด ํด๋์ค ๊ฐ ๋ถํฌ๋ฅผ ๋ฐ์ํ ์ํ๋ง ๋ฐฉ๋ฒ์ ์ ์ฉํ๋ ์คํ์ ์งํํ์๋ค. ํ 4๋ IRFS(instance-aware repeat factor sampling)[18]์ ์ฑ๋ฅ ์ธก์ ๊ฒฐ๊ณผ๋ก, ์ ์ฒด mAP๊ฐ 33.3์์ 34.3์ผ๋ก ์์นํ์์ผ๋ฉฐ, ํฌ์ ํด๋์ค AP ๋ํ 22.3์์ 24.5๋ก ํฅ์๋์๋ค๋ ๊ฒ์ ์ ์
์๋ค. ํด๋น ๊ฒฐ๊ณผ๋ ๋์ ๊ฒฐํฉ ๊ธฐ๋ฒ ์ ์ฉ ์ ์ผ์์ ์ผ๋ก ํ๋ฝํ๋ ์ ์ฒด mAP ์ฑ๋ฅ์ด IRFS ๊ธฐ๋ฒ์ ๊ฒฐํฉ์ ํตํด ๊ฐ์ ๋์์์ ์๋ฏธํ๋ค. ์ด๋ IRFS๊ฐ
SSL์ ํ
์ผ ํด๋์ค ๋ณด์ ํจ๊ณผ๋ฅผ ๋ณด์ํ์ฌ, ๋ ๊ธฐ๋ฒ์ด ์ํธ ๋ณด์์ ์ผ๋ก ์์ฉํจ์ผ๋ก์จ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ๋์ฑ ์ํํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
ํ 4. ๋กฑ-ํ
์ผ ์ํ ๊ธฐ๋ฒ์ ๋ํ ์ฑ๋ฅ ๋น๊ต
Table 4. Performance comparison of long-tail mitigation methods
|
Dynamic
|
IRFS[18]
|
$AP$
|
$AP_r$
|
$AP_c$
|
$AP_f$
|
|
|
|
34.1
|
18.6
|
31.6
|
43.6
|
|
โ
|
|
33.3
|
22.3
|
31.5
|
40.4
|
|
โ
|
โ
|
34.3
|
24.5
|
32.6
|
40.4
|
๋ง์ง๋ง์ผ๋ก ๊ทธ๋ฆผ 2๋ ๊ธฐ์กด VFL๋ก ํ์ต๋ RT-DETRv2 ๋ชจ๋ธ๊ณผ ๋ณธ ๋
ผ๋ฌธ์์ ์ ์ํ ๊ฒฐํฉ ๋ชจ๋ธ์ ํฌ์ ํด๋์ค์ ์ธ์ ์ฑ๋ฅ์ ์ ์ฑ์ ๋น๊ต๋ก, ํฌ์ ํด๋์ค์ธ heron๊ณผ
martini ํด๋์ค์ ๋ํ ์ธ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค. ๊ธฐ์กด VFL ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ํฌ์ ํด๋์ค์ ๋ํ ์ ๋ขฐ๋๊ฐ ๋ฎ๊ฒ ๋ํ๋ฌ์ผ๋ฉฐ, ์ ์ ๊ฒฐํฉ ๋ฐฉ์ ๋ํ
SSL์ ์ด๊ธฐ ๋ถ์์ ์ฑ์ผ๋ก ์ธํด ๊ฐ์ฒด์ ์ ๋ขฐ๋๊ฐ ์ถฉ๋ถํ ํ๋ณด๋์ง ๋ชปํ๋ ๋ชจ์ต์ ๋ณด์ธ๋ค. ์ด๋ VFL์ด ์ฃผ๋ก IoU ๊ธฐ๋ฐ ํ์ง ํ์ต์ ์ง์คํ๊ธฐ ๋๋ฌธ์,
๋ฐ์ดํฐ ๋ถ๊ท ํ์ด ์ฌํ ํด๋์ค์์๋ ์ถฉ๋ถํ ๋ถ๋ฅ ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํ์ง ๋ชปํ๋ ํ๊ณ๋ฅผ ์ง๋๋ค. ๋ฐ๋ฉด, ์ ์ํ ๋์ ๊ฒฐํฉ ๊ธฐ๋ฒ์ ํ์ต ์ด๊ธฐ์ ์์ ์ ์ธ ์ง์ญํ
ํ์ต์ ์ํํ ๋ค, ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ SSL์ ์ ์ง์ ์ผ๋ก ํ์ฑํํจ์ผ๋ก์จ ํฌ์ ํด๋์ค ๊ฐ์ฒด์ ๋ํด ๋์ ์ ๋ขฐ๋๋ฅผ ์ ๊ณตํ์๋ค. ์ด๋ ๋์ ๊ฒฐํฉ ๊ธฐ๋ฒ์ด
์ง์ญํ ์ ํ๋์ ํด๋์ค ๊ท ํ ํ์ต์ ์์ฐจ์ ์ผ๋ก ๋ฌ์ฑํจ์ผ๋ก์จ, ๋กฑ-ํ
์ผ ๋ฐ์ดํฐ์ธํธ์์์ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ์์ ์ ์ฑ์ ๋น๊ต ๊ฒฐ๊ณผ๋ก
๋ณด์ฌ์ค๋ค.
๊ทธ๋ฆผ 2. ํ์ต ๊ธฐ๋ฒ์ ๋ฐ๋ฅธ ํ
์ผ ํด๋์ค ์ธ์ ์ฑ๋ฅ ๋น๊ต
Fig. 2. Comparison of tail-class recognition across different training method
๊ฒฐ๊ณผ์ ์ผ๋ก, VFL ๋จ๋
๋ฐฉ์์ ๋น์ถ ํด๋์ค์ ํธํฅ๋ ํ์ต์ผ๋ก ์ธํด ํฌ์ ํด๋์ค์ ์ธ์ ์ฑ๋ฅ์ด ์ ํ๋๋ฉฐ, SSL ๋จ๋
๋์ฒด๋ IoU ์ธ์ ๋ถ๋ฅ๊ฐ ์ ์ง๋์ง
์์ ์ ์ฒด ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ํ๋ฝํ๋ ํ๊ณ๋ฅผ ๋ณด์๋ค. ๋ฐ๋ฉด, ์ ์ํ ๋์ ์์ค ํจ์ ๊ฒฐํฉ ๊ธฐ๋ฒ์ ์ด๋ฌํ ๊ธฐ์กด ๋ฐฉ์๋ค์ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ์ฌ, ๋กฑ-ํ
์ผ
๊ฐ์ฒด ์ธ์์์ ์ง์ญํ ์ ํ๋์ ํด๋์ค ๊ท ํ ํ์ต์ ๋์์ ๋ฌ์ฑํ ์ ์๋ ์ฐ์ํ ๋ฐฉ๋ฒ์์ ๋ณด์ฌ์ค๋ค.
5. ๊ฒฐ ๋ก
๋ณธ ์ฐ๊ตฌ์์๋ RT-DETRv2 ๋ชจ๋ธ์ ๋กฑ-ํ
์ผ ๋ฐ์ดํฐ์ธํธ์์ ๋ฐ์ํ๋ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด VFL๊ณผ SSL์ ๋์ ์ผ๋ก ๊ฒฐํฉํ๋ ํ์ต
๊ธฐ๋ฒ์ ์ ์ํ์๋ค. ์ ์ํ ๋ฐฉ์์ ์ด๊ธฐ ํ์ต ๋จ๊ณ์์ IoU ์ธ์ ๋ถ๋ฅ์ ์์ ์ฑ์ ์ ์งํ๊ณ , ํ์ต ํ๋ฐ๋ถ์๋ SSL์ ๋ณด์ ํจ๊ณผ๋ฅผ ์ ์ง์ ์ผ๋ก ๋ฐ์ํ์ฌ
๋กฑ-ํ
์ผ ํธํฅ ํ์ต ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ๋ค. ์คํ ๊ฒฐ๊ณผ, ์ ์ํ ๋์ ๊ฒฐํฉ ๊ธฐ๋ฒ์ ๋ถ๋ฅ๊ณผ ์ง์ญํ ๊ฐ์ ๊ท ํ์ ์ ์งํ๋ฉด์ ํฌ์ ํด๋์ค์ ์ฑ๋ฅ์ ์ ์๋ฏธํ๊ฒ
ํฅ์์์ผฐ๋ค. ๋ํ, IRFS์ ๊ฐ์ ์ถ๊ฐ์ ์ธ ํธํฅ ์ํ ๊ธฐ๋ฒ์ ํตํด ํด๋์ค ๊ฐ ์ฑ๋ฅ ํธํฅ์ ๋์ฑ ์ํํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ด๋ํฐ(adaptor)์ ๊ฐ์ ๋ค๋ฅธ ๋กฑ-ํ
์ผ ์ํ ๊ธฐ๋ฒ๊ณผ์ ๊ฒฐํฉํ์ฌ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๊ฐ์ฒด ์ธ์ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๊ณ ์ ํ๋ค.
๋ํ, ๋น์ถ ํด๋์ค์ ์ฑ๋ฅ ์ ํ๋ฅผ ์ต์ํํ๊ณ ์ ์ฒด ์ฑ๋ฅ ๊ท ํ์ ์ต์ ํํ ์์ ์ด๋ค.
Acknowledgements
๋ณธ ๋
ผ๋ฌธ์ ์ ๋ถ(๊ณผํ๊ธฐ์ ์ ๋ณดํต์ ๋ถ)์ ์ฌ์์ผ๋ก ํ๊ตญ์ฐ๊ตฌ์ฌ๋จ์ ์ง์์ ๋ฐ์ ์ฐ๊ตฌ๋์์(No. RS-2023-00251621). ๋ณธ ๊ณผ์ (๊ฒฐ๊ณผ๋ฌผ)๋ ๊ต์ก๋ถ์
๋ถ์ฐ๊ด์ญ์์ ์ฌ์์ผ๋ก ์ง์์ ๋ฐ์ ์ํ๋ ๋ถ์ฐํ ์ง์ญํ์ ์ค์ฌ ๋ํ์ง์์ฒด๊ณ(RISE)์ ์ฐ๊ตฌ๊ฒฐ๊ณผ์
๋๋ค. (2025-RISE-02-002-003). ๋ณธ
๋
ผ๋ฌธ์ 2023๋
์ ๋ถ(๋ฐฉ์์ฌ์
์ฒญ)์ ์ฌ์์ผ๋ก ๊ตญ๋ฐฉ๊ธฐ์ ์งํฅ์ฐ๊ตฌ์์ ์ง์์ ๋ฐ์ ์ฐ๊ตฌ์(KRIT-CT-23-021).
References
P. Ge, M. Wan, W. Qian, Y. Xu, X. Kong, G. Gu, "SGA-YOLO: A lightweight real-time
object detection network for UAV infrared images," to appear at IEEE Transactions
on Intelligent Transportation Systems, 2025.

X. Hua, X. Wang, D. Wang, J. Huang, X. Hu, "Military object real-time detection technology
combined with visual salience and psychology," Electronics, vol. 7, no. 10, pp. 216,
2018.

H. Zhang, K. Liu, Z. Gan, G. N. Zhu, 2501.01855, "UAV-DETR: efficient end-to-end object
detection for unmanned aerial vehicle imagery," arXiv, 2025.

Q. Wu, X. Li, K. Wang, H. Bilal, "Regional feature fusion for on-road detection of
objects using camera and 3D-LiDAR in high-speed autonomous vehicles," Soft Computing,
vol. 27, no. 23, pp. 18195-18213, 2023.

Y. Zhang, B. Kang, B. Hooi, S. Yan, J. Feng, "Deep long-tailed learning: A survey,"
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 9, pp.
10795-10816, 2023.

Y. Cui, M. Jia, T. Y. Lin, Y. Song, S. Belongie, "Class-balanced loss based on effective
number of samples," pp. 9268-9277, 2019.

K. Oksuz, B. C. Cam, S. Kalkan, E. Akbas, "Imbalance problems in object detection:
A review," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43,
no. 10, pp. 3388-3415, 2020.

K. Cao, C. Wei, A. Gaidon, N. Arechiga, T. Ma, "Learning imbalanced datasets with
label-distribution-aware margin loss," 2019.

Y. Zhao, W. Lv, S. Xu, J. Wei, G. Wang, Q. Dang, Y. Liu, J. Chen, "DETRs beat YOLOs
on real-time object detection," pp. 16965-16974, 2024.

H. Zhang, Y. Wang, F. Dayoub, N. Sunderhauf, "VarifocalNet: An iou-aware dense object
detector," pp. 8514-8523, 2021.

J. Wang, W. Zhang, Y. Zang, Y. Cao, J. Pang, T. Gong, K. Chen, Z. Liu, C. C. Loy,
D. Lin, "Seesaw loss for long-tailed instance segmentation," pp. 9695-9704, 2021.

W. Lv, Y. Zhao, Q. Chang, K. Huang, G. Wang, Y. Liu, 2407.17140, "RT-DETRv2: Improved
baseline with bag-of-freebies for real-time detection transformer," arXiv, 2024.

J. Tan, C. Wang, B. Li, Q. Li, W. Ouyang, C. Yin, J. Yan, "Equalization loss for long-tailed
object recognition," pp. 11662-11671, 2020.

B. Li, Y. Yao, J. Tan, G. Zhang, F. Yu, J. Lu, Y. Luo, "Equalized focal loss for dense
long-tailed object detection," pp. 6990-6999, 2022.

X. Li, W. Wang, L. Wu, S. Chen, X. Hu, J. Li, J. Tang, J. Yang, "Generalized focal
loss: Learning qualified and distributed bounding boxes for dense object detection,"
Advances in Neural Information Processing Systems, vol. 33, pp. 21002-21012, 2020.

R. Khanarm, M. Hussain, 2410.17725, "YOLOv11: An overview of the key architectural
enhancements," arXiv, 2024.

W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. Y. Fu, A. C. Berg, "SSD: Single
shot multibox detector," Springer International Publishing, Cham, pp. 21-37, 2016.

A. Gupta, P. Dollar, R. Girshick, "LVIS: A dataset for large vocabulary instance segmentation,"
pp. 5356-5364, 2019.

B. Yaman, T. Mahmud, C. H. Liu, 2305.08069, "Instance-aware repeat factor sampling
for long-tailed object detection," arXiv, 2023.

์ ์์๊ฐ
๊น์ ํ (Jeonghyeon Kim)
He received the B.S. degree in the department of electronics and electrical engineering
at Dankook University, in 2025. Currently, he is working toward the M.S. degree in
the school of electronics and electrical engineering at Dankook University.
E-mail: jeongh@dankook.ac.kr
He received his B.S. in Electronics and Computer Engineering from Hanyang University,
in 2011 and M.S. and Ph.D. in Electrical and Electronic Engineering from Yonsei University,
in 2012 and 2018. He was a Senior Engineer at Samsung Electronics, in 2018 and 2019
and an Associate Professor at Korea Maritime and Ocean University, in 2019 and 2023.
Since 2023, he has been with Dankook University.
E-mail: hansol@dankook.ac.kr
He received his BS and MS degrees in electronics engineering from Hanyang University,
Rep. of Korea, in 1996 and 1998, respectively, and Ph. D in information and communication
engineering from Chungnam National University, Rep. of Korea, in 2017. From 1998 to
2000, he was a researcher at LG Industry System, Rep. of Korea, where he worked on
intelligent building automation systems. Since 2001, he has been with Electronics
and Telecommunications Research Institute(ETRI) Rep. of Korea, where he conducted
research in the fields of intelligent robot systems and military artificial intelligence.
His primary research interests are artificial intelligence, robot software frameworks,
and distributed and cooperative unmanned systems.
E-mail: celee@etri.re.kr
He received the B.S., M.S., and Ph.D. degrees in computer science from Chungnam NationalUniversity,
Daejeon, South Korea, in 1993, 1996, and 2001, respectively. He was a Senior Engineer
with the Electronics and Telecommunications Research Institute, Daejeon, from 2006
to 2017. Since 2017, he has beenwith the Department of Artificial Intelligence, National
Korea Maritime and Ocean University, Busan, South Korea, where he is currentlyan Associate
Professor. His current research interestsinclude smart ship, e-navigation, and maritime
cyber security.
E-mail: leeki@kmou.ac.kr