์ํ์
(Hyeong-sik Won)
*iD
์กฐํ์ข
(Hyun-chong Cho)
โ iD
-
(Dept. of Data Science, Kangwon National University, Republic of Korea.)
Copyright ยฉ The Korean Institute of Electrical Engineers
Key Words
CNN, Deep Learning, Multiple Instance Learning, Non-contact Farrowing Status Classification, Segment Anything Model
1. ์ ๋ก
์๋ ์ฐ์
์ ์ ์ธ๊ณ ์ถ์ฐ์
์์ ์ค์ํ ๋น์ค์ ์ฐจ์งํ๊ณ ์์ผ๋ฉฐ, ์๋์๋ณด ํ๋ณด์ ๊ธฐ์ฌํ๋ ์ฐ์
์ผ๋ก ์๋ฆฌ ์ก๊ณ ์๋ค. ํนํ ๊ตญ๋ด์์๋ 2024๋
1์ธ๋น
๋ผ์ง๊ณ ๊ธฐ ์๋น๋์ด ์ฝ 30kg์ผ๋ก ๋ณด๊ณ ๋์์ผ๋ฉฐ, ๋ค๋ฅธ ์ฃผ์ ์ก๋ฅ์ ๋นํด ์๋น ์์ค์ด ๊ฐ์ฅ ๋๋ค[1]. ์ด๋ฌํ ์ฐ์
๊ตฌ์กฐ์์ ๋ผ์ง ๋ฒ์์ ์์ฐ์ฑ ๋ฐ ์์ต์ฑ๊ณผ ์ง๊ฒฐ๋๋ ํต์ฌ ์์ธ์ด๋ค. ํนํ ๋ถ๋ง ๊ณผ์ ์ ๋ชจ๋๊ณผ ์๋์ ๊ฑด๊ฐ๊ณผ ๋ณต์ง ์ธก๋ฉด์์ ์ค์ํ ์๊ธฐ์ด๋ฉฐ,
๋ถ๋ง ์ ํ์ ์ด์ ์งํ๋ฅผ ์กฐ๊ธฐ์ ํ์
ํ๊ณ ์ ์ํ ๋์ํ๋ ๊ฒ์ ์๋ ์์กด์จ๊ณผ ์ฌํ ๊ด๋ฆฌ์ ํจ์จ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํ๋ค. ๊ทธ๋ฌ๋ ๊ตญ๋ด ์๋ ํ์ฅ์์๋
๊ณ ๋ นํ์ ๋
ธ๋๋ ฅ ์ ์ฝ์ผ๋ก ๋ถ๋ง ์ ํ์ ์ฐ์ ๊ด์ฐฐ๊ณผ ์ ์ ๋์์ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. ๋ค์ ๊ทธ๋ฆผ 1์ 2015๋
๋ถํฐ 2023๋
๊น์ง์ ์๋ ๋๊ฐ ๊ฒฝ์์ฃผ ์ฐ๋ น ๋ถํฌ๋ฅผ ๋ํ๋ด๋ฉฐ, 2023๋
์๋ 60์ธ ์ด์ ๊ฒฝ์์ฃผ ๋น์ค์ด 60%๊น์ง ์ฆ๊ฐํ์์ ํ์ธํ ์
์๋ค[2]. ๋
ธ๋๋ ฅ ๋ถ์กฑ์ ๋์ํ์ฌ ์ธ๊ตญ์ธ ๊ทผ๋ก์ ํ์ฉ์ด ํ๋๋๊ณ ์์ผ๋ ์๋ จ๋ ์ฐจ์ด์ ์์ฌ์ํต ์ ์ฝ์ผ๋ก ์ธํด ์์ฐ์ฑ ํฅ์์ผ๋ก ์ด์ด์ง๊ธฐ ์ด๋ ต๋ค[3]. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ถ๋ง ์ ํ ์ํ๋ฅผ ์๋์ผ๋ก ์ธ์งํ๊ณ ์ด์ ์งํ๋ฅผ ์กฐ๊ธฐ์ ํ์งํ๊ธฐ ์ํ ๋ค์ํ ์ ๊ทผ์ด ์ ์๋์ด ์๋ค. ๊ฐ์๋ ์ผ์๋ฅผ ์ด์ฉํ ํ๋๊ณผ
์์ธ ๋ณํ ๋ถ์, ์๋ ฅ ์ผ์์ ์ ์ด ์ผ์๋ฅผ ํตํ ํ๋ ๊ฐ์ง ๋ฑ ๋ค์ํ ์ฐ๊ตฌ๊ฐ ์ํ๋์ด ์์ผ๋ฉฐ[4], ์ด๋ฌํ ์ ๊ทผ์ ๊ณตํต์ ์ผ๋ก ์ ์ด ๊ธฐ๋ฐ ๋ชจ๋ํฐ๋ง์ ์์กดํ๋ค. ๊ทธ๋ฌ๋ ์ ์ด ๊ธฐ๋ฐ ๋ฐฉ์์ ์ผ์ ๋ถ์ฐฉ๊ณผ ์ ์ง๊ด๋ฆฌ๋ก ๋น์ฉ ๋ถ๋ด์ด ๋ฐ์ํ๊ณ , ๊ฐ์ฒด๋ณ ์ฅ๋น ๋น์ฉ์ด
๋์ ๋๋ฉฐ, ์์ ๊ด๋ฆฌ ๋ฌธ์ ์ ๊ฐ์ฒด ์คํธ๋ ์ค ๋ฑ ํ์ฅ ์ ์ฉ์ ์ฌ๋ฌ ์ ์ฝ์ด ๋ฐ๋ฅธ๋ค. ๋ฐ๋ผ์ ๋ณธ ์ฐ๊ตฌ์์๋ ๋ถ๋ง์ฌ์์ ํ๋๋ ๋ชจ๋ ์ด๋ฏธ์ง๋ฅผ ํ์ฉํ์ฌ ๋น๋ถ๋ง๊ณผ
๋ถ๋ง์ ์ด์ง ๋ถ๋ฅํ๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๋น์ ์ด ๋ถ๋ง ์ฌ๋ถ ๋ถ๋ฅ ์์คํ
์ ์ ์ํ๋ค. ์ ์ํ ๋ฐฉ๋ฒ์ ์ถ๊ฐ ์ผ์ ๋ถ์ฐฉ ์์ด ์์๋ง์ผ๋ก ๋ถ๋ง ์ฌ๋ถ๋ฅผ ํ๋ณํ์ฌ ํ์ฅ
์ ์ฉ์ฑ์ ๋์ด๋ฉฐ, ๋ถ๋ง ์ ํ ๋ชจ๋ํฐ๋ง์ ์๋ํํ์ฌ ์ธ๋ ฅ ์ ์ฝ ํ๊ฒฝ์์ ๊ด๋ฆฌ ํจ์จ ํฅ์์ ์ง์ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
๊ทธ๋ฆผ 1. ์ฐ๋๋ณ ์๋ ๋๊ฐ ๊ฒฝ์์ฃผ ์ฐ๋ น ๋ถํฌ๋
Fig. 1. Age distribution of swine farm household heads by year
2. ๊ด๋ จ ์ฐ๊ตฌ
๋ชจ๋ ๋ถ๋ง ์์ ์ ์ ํํ ํ์
๊ณผ ์กฐ๊ธฐ ๋์์ ์ํด ์๋ ๋ถ์ผ์์๋ ๋ค์ํ ์ ์ด ๊ธฐ๋ฐ ๋ชจ๋ํฐ๋ง์ด ์ฐ๊ตฌ๋์ด ์๋ค. Lipori ๋ฑ์ ๋ชจ๋์ ์จ์ด๋ฌ๋ธ ์ผ์๋ฅผ
๋ถ์ฐฉํด ํ๋, ์ด ํ๋ญ์ค, ํผ๋ถ์จ๋ ์ ํธ๋ฅผ ์ธก์ ํ๊ณ ์ด๋ฅผ ๋ถ์ํ์ฌ ๋ถ๋ง ๊ฐ์ ์์ ์ ์์ธกํ๋ ์์คํ
์ ๊ฐ๋ฐํ์๋ค[5]. Mayrhuber ๋ฑ์ ๋ชจ๋ ๊ทํ ๊ฐ์๋ ์ผ์ ์ ํธ๋ก ๋ถ๋ง ์ ๋ฅ์ง ์ง๊ธฐ ํ๋์ ์์์ ํ์งํ๊ณ ํด๋น ํ๋ ์ ํธ๋ฅผ ์ด์ฉํด ๋ถ๋ง ๊ฐ์ ์์ ์ ์์ธกํ๋
์์คํ
์ ์ ์ํ์๋ค[6]. Oczak ๋ฑ์ ๊ทํํ 3์ถ ๊ฐ์๋ ์ผ์๋ก ๋ชจ๋ ํ๋๋์ ์ ๋ํํ๊ณ ์์ ๊ธฐ๋ฐ ๊ณ์ธก๊ณผ์ ๋น๊ต๋ฅผ ํตํด ๋ถ๋ง ์ ํ ํ๋ ๋ณํ ๋ถ์์ ํ์ฉ ๊ฐ๋ฅํ ํ๋
๋ชจ๋ํฐ๋ง ์์คํ
์ ์ ์ํ์๋ค[7]. ํ์ง๋ง ์ด๋ฌํ ์ ์ด ๊ธฐ๋ฐ ๋ชจ๋ํฐ๋ง์ ์ผ์ ๋ถ์ฐฉ๊ณผ ์ ์ง๊ด๋ฆฌ์ ์ถ๊ฐ ๋ถ๋ด์ด ์๋ฐ๋ ์ ์์ผ๋ฉฐ ์ฅ๋น ์์์ ๋ฐ๋ฅธ ๊ด๋ฆฌ ๋น์ฉ์ด ์ฆ๊ฐํ ์ ์๋ค. ์ด๋ฌํ
ํ๊ณ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๋ฅ๋ฌ๋์ ๊ธฐ๋ฐ์ผ๋ก ๋ถ๋ง ์ ํ ์ํ๋ฅผ ์๋์ผ๋ก ํ์งํ๊ฑฐ๋ ์์ ์ ์์ธกํ๋ ค๋ ๋น์ ์ด ์ ๊ทผ์ด ์ฆ๊ฐํ๊ณ ์๋ค. Yang ๋ฑ์ Convolutional
Neural Network(CNN) ๊ธฐ๋ฐ ๋ชจ๋ ๊ฒ์ถ๊ณผ ์์ธ ๋ถ๋ฅ๋ฅผ ์ํํ๊ณ , ์๊ฐ ์ถ์์ ์์ธ ์ ํ ๊ตฌ๊ฐ์ ํ์งํจ์ผ๋ก์จ ๋ถ๋ง ์ ํ ๊ด๋ฆฌ์ ํ์ํ ์์ธ
๋ณํ๋ฅผ ์๋์ผ๋ก ๊ฒ์ถํ๋ ์์คํ
์ ์ ์ํ์๋ค[8]. Witte ๋ฑ์ YOLOv5 ๊ฐ์ฒด ๊ฒ์ถ๋ก ์๋ ์ถํ์ ํฌ์ฐฉํ๊ณ EfficientNet ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ๋ถ๋ง์ ์๋ ๊ฐ์งํ๋ ํ์ดํ๋ผ์ธ์ ์ ์ํ์๋ค[9]. Wutke ๋ฑ์ ๋ถ๋ง์ฌ ์์์์ CNN ๊ธฐ๋ฐ ์ ์ ์๋ ๊ฒ์ถ๊ธฐ์ Noisy Student ํ์ต ์ ๋ต์ ์ ์ฉํ์ฌ ์ ํ๋ ๋ฐ์ดํฐ ํ๊ฒฝ์์๋ ๊ฒ์ถ ์ฑ๋ฅ์
ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค[10].
์ด์ฒ๋ผ CNN์ ํ์ฉํด ๋จ์ผ ํ๋ ์ ๋๋ ์ด๋ฏธ์ง ๋จ์๋ก ๋ถ๋ง ์ฌ๋ถ๋ฅผ ์ถ์ ํ๋ ์ ๊ทผ์ด ๋๋ฆฌ ์ฌ์ฉ๋์ด ์๋ค. ๊ทธ๋ฌ๋ ๋ถ๋ง๊ณผ ์ง์ ๊ด๋ จ๋ ์๊ฐ์ ๋จ์๋
์์ ์ ์ฒด๊ฐ ์๋๋ผ ์ธ์๋ถ ์ฃผ๋ณ์ ์ ํ๋ ์์ญ์ ์ง์ค๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ณ ์ค์ ๋ฐ์ดํฐ์์๋ ํด๋น ์์ญ์ ๋ํ ์์น ๋ผ๋ฒจ ์์ด ์ด๋ฏธ์ง ๋จ์ ๋ผ๋ฒจ๋ง ์ ๊ณต๋๋
๊ฒฝ์ฐ๊ฐ ์ผ๋ฐ์ ์ด๋ค. ์ด์ ๋ณธ ์ฐ๊ตฌ์์๋ CNN์ ํน์ง ์ถ์ถ๊ธฐ๋ก ํ์ฉํ๊ณ Multiple Instance Learning(MIL) ๊ธฐ๋ฐ ์ง๊ณ ๊ตฌ์กฐ๋ฅผ
๊ฒฐํฉํ์ฌ ์ด๋ฏธ์ง ๋ด ์ฌ๋ฌ ์ง์ญ ํน์ง ์ค ๋ถ๋ง ๊ด๋ จ ๋จ์๊ฐ ์กด์ฌํ ๊ฐ๋ฅ์ฑ์ด ๋์ ์์ญ์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํจ์ผ๋ก์จ ๋ถ๋ง ์ฌ๋ถ ๋ถ๋ฅ ์ฑ๋ฅ์ ๊ฐ์ ํ์๋ค.
3. ๋ณธ ๋ก
๋ณธ ์ฐ๊ตฌ์์๋ ๋ชจ๋ ์ด๋ฏธ์ง๋ก๋ถํฐ ๋ถ๋ง๊ณผ ๋น๋ถ๋ง์ ์ด์ง ๋ถ๋ฅํ๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๋น์ ์ด ๋ถ๋ง ์ฌ๋ถ ๋ถ๋ฅ ์์คํ
์ ์ ์ํ๋ค. ๋์ฌ ํ๊ฒฝ์์๋ ๋ชจ๋์ ์์ธ
๋ฐ ์์น ๋ณํ๋ก ์ธํด ๋ถ๋ง ๊ด๋ จ ์ ๋ณด๊ฐ ํ๋ ์ ์ค์์ ํญ์ ์์นํ์ง ์์ผ๋ฏ๋ก Segment Anything Model(SAM) ๊ธฐ๋ฐ ๋ชจ๋ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ
์ด์ฉํด ๊ฐ์ฒด ๊ธฐ์ค์ ROI๋ฅผ ์ ๋ฐํ๊ฒ ์ถ์ถํ์ฌ ๋ฐฐ๊ฒฝ ์ ๋ณด์ ์ํฅ์ ์ต์ํํ์๋ค. ์ดํ MIL ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ์ ์ฉํ์ฌ ํจ์น ์ธ์คํด์ค๋ณ ์ค์๋๋ฅผ ํ์ตํ์ฌ
์ถ๋ ฅ๊ฐ์ ๊ฐ์คํฉ์ผ๋ก ๊ฒฐํฉํจ์ผ๋ก์จ ์ต์ข
์์ธก์ ์ฐ์ถํ์๋ค.
3.1 ๋ฐ์ดํฐ์
๊ตฌ์ฑ
๋ณธ ์ฐ๊ตฌ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ ๋ํ๋ฏผ๊ตญ ๊ฒฝ์๋จ๋ ํจ์๊ตฐ์ ์์นํ ๋์ฌ์์ ์์ง๋์๋ค. ๋ชจ๋์ ์๋ถ์์ ๊ด์ฐฐํ ์ ์๋๋ก top view ์กฐ๊ฑด์์ 2D
์นด๋ฉ๋ผ(Deep-eyes)๋ฅผ ์ค์นํ์์ผ๋ฉฐ, ์ง๋ฉด์ผ๋ก๋ถํฐ 2.3m ๋์ด์ ๊ณ ์ ํ์ฌ ์ดฌ์ํ์๋ค. ์์ง๋ ๋ฐ์ดํฐ๋ MP4 ๋น๋์ค ํ์์ผ๋ก ์ ์ฅํ์์ผ๋ฉฐ,
์์์์ 10fps ๊ฐ๊ฒฉ์ผ๋ก ํ๋ ์์ ์ถ์ถํ์ฌ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑํ์๋ค. ๊ฐ ์ด๋ฏธ์ง์๋ ํ ๋ง๋ฆฌ์ ๋ชจ๋๊ณผ ์ฌ๋ฌ ๋ง๋ฆฌ์ ์๋์ด ํฌํจ๋๋ฉฐ, ์ดฌ์ ํ๊ฒฝ
ํน์ฑ์ ์กฐ๋ ๋ณํ, ๊ฐ๋ฆผ ํ์์ผ๋ก ์ธํด ํ์ต ๋ฐ ํ๊ฐ์ ๋ถ์ ํฉํ ์ํ์ด ๋ฐ์ํ ์ ์๋ค. ์ด์ ๋ฐ๋ผ ์ถ์ฐ ์ ๋ฌธ๊ฐ๊ฐ ์ด๋ฏธ์ง ํ์ง๊ณผ ์ฅ๋ฉด ์ ํฉ์ฑ์ ๊ฒํ ํ์ฌ
ํ์ฉ์ด ์ด๋ ค์ด ์ด์์น ์ํ์ ์ ์ธํ์์ผ๋ฉฐ, ์ต์ข
์ ์ผ๋ก 23,203์ฅ์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์๋ค. ๊ทธ ํ ๊ฐ ์ด๋ฏธ์ง๋ ๋ถ๋ง๊ณผ ๋น๋ถ๋ง์ ๋ ๊ฐ์ ํด๋์ค๋ก ๊ตฌ๋ถํ์์ผ๋ฉฐ,
ํ์ต์ ์ํด ๋ฐ์ดํฐ์
์ train, validation, test ์ธํธ๋ก ์ฝ 6:2:2 ๋น์จ๋ก ๋ถํ ํ์๋ค. ๋ฐ์ดํฐ ๋ถํ ๊ณผ์ ์์๋ ๋ชจ๋ ๊ฐ์ฒด ๋จ์๋ก
๋ถํ ํ์ฌ ๋์ผํ ๊ฐ์ฒด๊ฐ ์๋ก ๋ค๋ฅธ ์ธํธ์ ์ค๋ณต ํฌํจ๋์ง ์๋๋ก ๊ตฌ์ฑํ์๋ค. ํด๋์ค ๊ฐ ํ๋ณธ ์ ์ฐจ์ด๋ ์กด์ฌํ๋ ๊ทธ ์ ๋๊ฐ ํฌ์ง ์์, ๋ณธ ์ฐ๊ตฌ์์๋
๋ณ๋์ ๋ถ๊ท ํ ์ฒ๋ฆฌ ์์ด ํ์ต์ ์งํํ์๋ค. ์์ธํ ๋ฐ์ดํฐ์
๊ตฌ์ฑ์ ๋ค์ ํ 1์ ๋ํ๋ด์๋ค.
ํ 1. ๋ชจ๋ ๋ถ๋ง ์ฌ๋ถ๋ณ ๋ฐ์ดํฐ์
๊ตฌ์ฑ(๋์, ์ด๋ฏธ์ง)
Table 1. Dataset composition for sow farrowing status classification(heads, images)
|
Type
|
Train
|
Validation
|
Test
|
Total
|
|
Non-farrowing
|
Head
|
1,460
|
486
|
488
|
2,434
|
|
Image
|
6,159
|
2,269
|
2,058
|
10,486
|
|
Farrowing
|
Head
|
1,723
|
574
|
575
|
2,872
|
|
Image
|
7,741
|
2,468
|
2,508
|
12,717
|
3.2 SAM ๊ธฐ๋ฐ ๋ชจ๋ ๋ถํ ์ ์ด์ฉํ ROI ์ ๋ฐ ํฌ๋กญ(cropping)
๋์ฌ ์์์์๋ ์นด๋ฉ๋ผ ์์ , ๋ชจ๋์ ์์ธ ๋ฐ ๋ฐฉํฅ์ผ๋ก ์ธํด ๋ถ๋ง ๊ด๋ จ ๋จ์๊ฐ ํ๋ ์ ์ค์์ ํญ์ ์์นํ์ง ์๋๋ค. ํนํ ๋ถ๋ง ์ด๋ฒคํธ๋ ์ธ์๋ถ ์ฃผ๋ณ์
๊ตญ์์ ๋ณํ๋ก ๋ํ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ ๋จ์ ์ค์ ํฌ๋กญ๋ง์ผ๋ก๋ ํด๋น ๋จ์๊ฐ ๋๋ฝ๋๊ฑฐ๋ ๋ฐฐ๊ฒฝ ์ ๋ณด๊ฐ ๊ณผ๋ํ๊ฒ ํฌํจ๋ ์ ์๋ค. ๋ฐ๋ผ์ ๋ณธ ์ฐ๊ตฌ์์๋ SAM
๊ธฐ๋ฐ ๋ชจ๋ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํด ๊ฐ์ฒด ์ค์ฌ์ ROI๋ฅผ ์ถ์ถํ๊ณ ๋ถ๋ง ๋จ์๊ฐ ์ง์ค๋๋ ์ธ์๋ถ ์์ญ์ ํฌํจํ๋๋ก ์ ๋ฐ ํฌ๋กญ์ ์ ์ฉํ์๋ค.
SAM์ ๊ฐ์ฒด ๋ฐ ์์ญ์ ๋ถํ ๋ง์คํฌ๋ฅผ ์์ฑํ๋ ๋ถํ ๋ชจ๋ธ์ด๋ค[11]. ์
๋ ฅ ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํ๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์ ์ถ์ถ๋ ํน์ง์ ์ด์ฉํด ํฝ์
๋จ์ ๋ถํ ๋ง์คํฌ๋ฅผ ์์ธกํ๋ ๋ง์คํฌ ๋์ฝ๋๋ก ๊ตฌ์ฑ๋๋ค. ์ด๋ฏธ์ง ์ธ์ฝ๋๋
์
๋ ฅ ์์์ ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ๋ฐ์ํ ๊ณ ์ฐจ์ ํน์ง ํํ์ ์์ฑํ๋ฉฐ ๋ง์คํฌ ๋์ฝ๋๋ ํด๋น ํน์ง์ผ๋ก๋ถํฐ ๊ฐ์ฒด ๊ฒฝ๊ณ๋ฅผ ์ถ์ ํ๋ค. ์ด๋ฌํ ๊ตฌ์กฐ๋ฅผ ํตํด ๊ฐ์ฒด์
ํํ ์ ๋ณด๋ฅผ ํฌํจํ๋ ๋ถํ ๋ง์คํฌ๋ฅผ ์์ฑํ ์ ์๋ค. ์ด์ ๋ฐ๋ผ ์
๋ ฅ ์ด๋ฏธ์ง์ SAM์ ์ ์ฉํ์ฌ ๋ชจ๋ ๋ถํ ๋ง์คํฌ๋ฅผ ์์ฑํ๋ค. ์ดํ ๋ชจ๋์ผ๋ก ๋ถ๋ฅ๋
ํฝ์
์ขํ์ ์งํฉ์ธ $\Omega$์ผ๋ก๋ถํฐ ๋ชจ๋ ๊ฐ์ฒด์ ์ค์ฌ์ $c=(c_x, c_y)$์ ๊ณ์ฐํ๋ค. ์ค์ฌ์ ์ขํ์ธ $(c_x, c_y)$๋ $\Omega$์
ํฌํจ๋ ํฝ์
์ขํ์ ์ฐ์ ํ๊ท ์ผ๋ก ์(1)์ ๋ํ๋ด์๋ค.
๊ณ์ฐ๋ ์ค์ฌ์ $c$๋ ๋ชจ๋ ๊ฐ์ฒด์ ์ ๋ฐ์ ์ธ ์์น๋ฅผ ๋ํ๋ด๋ฏ๋ก ROI๋ฅผ ๊ฐ์ฒด ์ขํ๊ณ ๊ธฐ์ค์ผ๋ก ์ ๋ ฌํ๊ธฐ ์ํ ๊ธฐ์ค์ ์ผ๋ก ํ์ฉ๋๋ค. ๊ทธ ํ ๋ชจ๋์ ์ธ์๋ถ
์์ญ์ด ROI์ ์ค์ฌ์ ๋ณด๋ค ์ ํฌํจ๋๋๋ก ์ค์ฌ์ $c$์ $x$์ขํ๋ ์ ์งํ๊ณ $y$์ขํ๋ ๋ถํ ๋ง์คํฌ์ ์ตํ๋จ ๊ฐ์ผ๋ก ์ค์ ํ์ฌ ํ๋ถ ๊ธฐ์ค์ $b=(b_x,
b_y)$์ ์ฐ์ถํ๋ค. ์ด๋ ๋ค์ ์(2)์ ๋ํ๋ด์๋ค.
์ด์ ๊ฐ์ด ์ ์๋ ๊ธฐ์ค์ $b$๋ฅผ ROI ์ค์ฌ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋์ด ํ๋ ์ ๋ด์์ ์ข์ฐ๋ก ์ด๋ํ๊ฑฐ๋ ์์ธ๊ฐ ๋ณํ๋๋ผ๋ ROI๊ฐ ๋ชจ๋ ๊ฐ์ฒด๋ฅผ ๊ธฐ์ค์ผ๋ก
์ ๋ ฌ๋๋ฉฐ ๋์์ ์ธ์๋ถ ์์ญ์ด ROI ๋ด์ ํฌํจ๋๋๋ก ์ค์ฌ์ด ๋ณด์ ๋๋ค. ์ดํ ROI์ ๊ฐ๋ก ๋ฐ ์ธ๋ก ํฌ๊ธฐ๋ ๋ชจ๋ ์คํ์์ ๋์ผํ ๊ณ ์ ๊ฐ์ผ๋ก ์ค์ ํ์์ผ๋ฉฐ,
์ค์ ๊ณ ์ ํฌ๋กญ ๋ฐฉ์์์๋ ๋์ผํ ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ณต์ ํ๊ฒ ๋น๊ตํ์๋ค. ๋ค์ ๊ทธ๋ฆผ 2๋ ๋ชจ๋ ๋ถํ ๋ง์คํฌ์์ ๊ณ์ฐ๋ ์ค์ฌ์ $c$์ ํ๋ถ ๊ธฐ์ค์ $b$๋ฅผ ์ด์ฉํด ROI๋ฅผ ์ ์ํ๋ ์์๋ฅผ ๋ํ๋ธ๋ค. ์ต์ข
์ ์ผ๋ก ์ถ์ถ๋ ROI๋ ๋ถ๋ฅ ๋ชจ๋ธ
์
๋ ฅ ํฌ๊ธฐ์ ๋ง๊ฒ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๊ณ ์ ๊ทํํ ํ CNN ๊ธฐ๋ฐ ๋ถ๋ฅ ๋ชจ๋ธ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํ์๋ค. ๋ชจ๋ ROI ์ด๋ฏธ์ง๋ 384ร384๋ก ๋ฆฌ์ฌ์ด์ฆํ์์ผ๋ฉฐ,
์ต์ข
MIL ์ค์ ์์๋ ๊ฐ ์ด๋ฏธ์ง๋ฅผ 4ร4 ํจ์น๋ก ๋ถํ ํ์ฌ ๊ฐ ํจ์น์ ํฌ๊ธฐ๊ฐ 96ร96์ด ๋๋๋ก ๊ตฌ์ฑํ์๋ค.
๊ทธ๋ฆผ 2. SAM ๊ธฐ๋ฐ ๋ถํ ๋ง์คํฌ๋ก๋ถํฐ ์ค์ฌ์ ๊ณผ ํ๋ถ ๊ธฐ์ค์ ์ ์ด์ฉํ ROI ํฌ๋กญ ๊ณผ์
Fig. 2. SAM-based ROI cropping process using centroid and bottom-center point derived
from the segmentation mask
3.3 ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๋ถ๋ฅ ๋ชจ๋ธ
3.3.1 ConvNeXt
๋ชจ๋ ๋ถ๋ง ๋ฐ์ดํฐ์์๋ ๋ชจ๋ ํ๋ถ์ ๊ด์ฐฐ๋๋ ๋ฏธ์ธํ ํํ์ ํน์ง๊ณผ ์๋์ ๋ถ๋ถ ์ถํ๊ณผ ๊ฐ์ ๊ตญ์์ ์ ๋ณด๊ฐ ๋ถ๋ฅ์ ์ค์ํ๋ค. ์ด์ ๋ฐ๋ผ ๋ณธ ์ฐ๊ตฌ์์๋
ROI์์ ๊ด์ฐฐ๋๋ ๊ตญ์์ ํน์ง์ ํ์ตํ๊ธฐ ์ํด CNN ๊ธฐ๋ฐ ConvNeXt ๋ชจ๋ธ์ ์ฑํํ์๋ค[12]. ConvNeXt๋ ResNet-50 ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์กฐ์ ์ค๊ณ์ ํ์ต ํจ์จ ์ธก๋ฉด์ ๊ฐ์ ์ ํตํด ์ฑ๋ฅ์ ๊ณ ๋ํํ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ์ด๋ค. ์ฌ๋ฌ stage์
block์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, stage๊ฐ ๊น์ด์ง์๋ก ํน์ง๋งต์ ๊ณต๊ฐ ํด์๋๋ ๊ฐ์ํ๊ณ ์ฑ๋ ์๋ ์ฆ๊ฐํ๋๋ก ์ค๊ณ๋์๋ค. ์ด๋ฅผ ํตํด ์ ์์ค์ ์ค๊ณฝ
๋ฐ ์ง๊ฐ ์ ๋ณด๋ถํฐ ๊ณ ์์ค์ ํํ์ ํน์ง๊น์ง ๋จ๊ณ์ ์ผ๋ก ์ถ์ถํ ์ ์์ผ๋ฉฐ ๋ถ๋ง ์ฌ๋ถ์ ๊ด๋ จ๋ ๊ตญ์ ํจํด์ ์์ ์ ์ผ๋ก ํ์ตํ ์ ์๋ค. Block ๋ด๋ถ์๋
depthwise convolution์ ์ฌ์ฉํด ์ฑ๋๋ณ ๊ณต๊ฐ ํน์ง์ ํจ์จ์ ์ผ๋ก ์ถ์ถํ๋ค[13]. ์ดํ pointwise convolution์ ์ ์ฉํ์ฌ ์ค๊ฐ ๋จ๊ณ์์ ์ฑ๋ ์ฐจ์์ ํ์ฅํ ๋ค ๋ค์ ์ถ์ํ๋ ๊ตฌ์กฐ๋ฅผ ํตํด ํํ๋ ฅ์ ํ๋ณดํ๋ฉด์๋ ์ฐ์ฐ๋์
์ ๊ฐํ๋ค. ๋ํ ๋์ ์์ฉ ์์ญ์ ํ๋ณดํ๊ธฐ ์ํด 7ร7 ์ปค๋์ ์ ์ฉํ์ฌ ๋ ๋์ ๊ณต๊ฐ์ ๋ฌธ๋งฅ์ ํฌ์ฐฉํจ์ผ๋ก์จ ํ๋ถ ROI ๋ด์์ ๋ฏธ์ธํ ํน์ง์ ์ฃผ๋ณ
๊ตฌ์กฐ์ ์ ๋ณด์ ํจ๊ป ํ์ตํ ์ ์๋ค. ConvNeXt๋ ๊ฐ stage ๊ฐ์ block ๋น์จ์ Swin Transformer์ ์ค๊ณ ์์น์ ๋ฐ๋ผ 1:1:3:1๋ก
์ค์ ํ์๋ค[14]. Stem ๋จ๊ณ์์๋ stride 4์ 4ร4 convolution layer๋ฅผ ํตํด ๋ค์ด์ํ๋ง์ ์ํํ ๋ค ์ ๊ทํ๋ฅผ ์ ์ฉํด ์์ ์ ์ธ ์ด๊ธฐ ํน์ง์
ํ์ตํ๊ณ ์ดํ stage์ ์ฐ์ฐ ๋ถ๋ด์ ์ค์ธ๋ค. ConvNeXt๋ ๋ชจ๋ธ ๊ท๋ชจ์ ๋ฐ๋ผ tiny, small, base, large๋ก ๊ตฌ๋ถ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋
์คํ ํ๊ฒฝ์ ๋ฉ๋ชจ๋ฆฌ ๋ฐ ์ฐ์ฐ ๋น์ฉ์ ๊ณ ๋ คํ์ฌ ConvNeXt-Base๋ฅผ ์ฌ์ฉํ์๋ค.
3.3.2 Multiple Instance Learning ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์
๋ณธ ์ฐ๊ตฌ์์๋ ROI ์ ๋ฐ ํฌ๋กญ์ ํตํด ๋ฐฐ๊ฒฝ ์ํฅ์ ์ต์ํํ๊ณ ConvNeXt๋ฅผ ํ์ฉํด ๊ตญ์์ ํน์ง์ ํ์ตํ์๋ค. ๊ทธ๋ฌ๋ ์
๋ ฅ์ ๋จ์ผ ์ด๋ฏธ์ง๋ก ์ฒ๋ฆฌํ
๊ฒฝ์ฐ, ์๋ก ๋ค๋ฅธ ์์ญ์์ ์ฐ์ถ๋๋ ์ ๋ณด๊ฐ ํ๋์ ์์ธก์ผ๋ก ์ง๊ณ๋๋ฉด์ ๋ถ๋ฅ์ ์ ์๋ฏธํ ์์ญ์ ์ถ๋ ฅ์ด ์ถฉ๋ถํ ๋ฐ์๋์ง ์์ ์ ์๋ค. ์ด์ ๋ฐ๋ผ ๋ณธ
์ฐ๊ตฌ์์๋ ์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ ์ธ์คํด์ค๋ก ๊ตฌ์ฑํ๊ณ ConvNeXt๋ก๋ถํฐ ์ป์ ์ธ์คํด์ค๋ณ ์ถ๋ ฅ๊ฐ์ ๊ฒฐํฉํ๋ MIL ๋ฐฉ์์ ์ ์ฉํ์๋ค[15].
MIL ๋ฐฉ์์ ํ๋์ ์
๋ ฅ์ ๋ํด ํ๋์ ๋ผ๋ฒจ๋ง ์ฃผ์ด์ง๋ ์ํฉ์์ ์
๋ ฅ์ ์ฌ๋ฌ ๊ฐ์ ์ธ์คํด์ค๋ก ๊ตฌ์ฑํ์ฌ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฆ ๊ฐ๋ณ ์ธ์คํด์ค์๋ ์ ๋ต
๋ผ๋ฒจ์ ๋ถ์ฌํ์ง ์๊ณ ์
๋ ฅ ์ ์ฒด์ ๋ํ ๋ผ๋ฒจ๋ง์ ์ด์ฉํด ํ์ต์ ์ํํ๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ ํจ์น ๋จ์ ์ธ์คํด์ค๋ก ๊ตฌ์ฑํ๊ณ ๊ฐ ์ธ์คํด์ค๋ฅผ
ConvNeXt์ ์
๋ ฅํ์ฌ ์ธ์คํด์ค๋ณ ์ถ๋ ฅ๊ฐ์ ๊ณ์ฐํ ๋ค ๊ฒฐํฉ ๋จ๊ณ์์ ์ด๋ฅผ ์ง๊ณํ์ฌ ์ต์ข
์์ธก์ ์ฐ์ถํ์๋ค. ๋ค์ ๊ทธ๋ฆผ 3์ ๋ณธ ์ฐ๊ตฌ์์ ์ ์ฉํ MIL ๊ธฐ๋ฐ ConvNeXt ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ธ๋ค.
๊ทธ๋ฆผ 3. Multiple Instance Learning ๊ธฐ๋ฐ ConvNeXt ๋ชจ๋ธ ๊ตฌ์กฐ
Fig. 3. Multiple Instance Learning-based ConvNeXt model architecture
ํจ์น ๋จ์ ์
๋ ฅ์ ์ฌ์ฉํ๋ค๋ ์ ์์ Transformer ๊ณ์ด ๋ชจ๋ธ๊ณผ ์ ์ฌํด ๋ณด์ผ ์ ์์ผ๋ Transformer๋ ํจ์น ํ ํฐ ๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ๋
๊ตฌ์กฐ์ธ ๋ฐ๋ฉด, MIL ๊ฒฐํฉ ๋ฐฉ์์ ์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ ๊ฐ์ ํจ์น๋ก ๋ถํ ํ ๋ค ๊ฐ ํจ์น๋ฅผ ConvNeXt์ ์
๋ ฅํ์ฌ ํจ์น ๋จ์ ์์ธก ์ ์๋ฅผ ์ฐ์ถํ๊ณ
์ด๋ฅผ ์ง๊ณํ์ฌ ์ต์ข
์์ธก์ ๊ณ์ฐํ๋ค[16]. ๋ฐ๋ผ์ ๋ณธ ์ฐ๊ตฌ์์๋ ํจ์น ๊ฐ ๊ด๊ณ ํ์ต ๋์ ํจ์น ๋จ์ ์ถ๋ ฅ์ ๊ฒฐํฉ์ ํตํด ์ต์ข
์์ธก์ ์ฐ์ถํ์๋ค.
์ธ์คํด์ค ์์ธก์ ํตํฉ ๋ฐฉ์์ผ๋ก๋ top-k ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์๊ณผ attention ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ด ์กด์ฌํ๋ค[17]. Top-k ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ์ธ์คํด์ค ์์ธก ์ ์ ์ค ์์ k๊ฐ๋ฅผ ์ ํํ ๋ค, ์ ํ๋ ์ธ์คํด์ค๋ค์ ์์ธก์ ํตํฉํ๋ ๋ฐฉ์์ด๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ k ๊ฐ์
๊ฒฝํ์ ์ผ๋ก 5๋ก ์ค์ ํ์๋ค. ์ด๋ ์ค์ํ ๊ตญ์ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ๋ฉด์๋ ๊ณผ๋ํ ๋ฐฐ๊ฒฝ ์ ๋ณด์ ์ ์
์ ์ค์ด๊ธฐ ์ํ ์ ํ์ด๋ฉฐ, k ๊ฐ์ ๋ํ ์ฒด๊ณ์ ์ธ
๋ฏผ๊ฐ๋ ๋ถ์์ ํฅํ ์ฐ๊ตฌ์์ ์ถ๊ฐ๋ก ๊ฒ์ฆํ ํ์๊ฐ ์๋ค. ๋ฐ๋ฉด์ attention ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ํจ์น๋ณ ์ค์๋๋ฅผ ํ์ตํ์ฌ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๊ณ ๊ฐ์คํฉ์ผ๋ก
์ธ์คํด์ค ์์ธก์ ํตํฉํ๋ ๋ฐฉ์์ด๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๋ ๊ฒฐํฉ ๋ฐฉ์์ ๋ชจ๋ ์ ์ฉํ์ฌ ๋ถ๋ฅ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค.
4. ์ฐ๊ตฌ ๊ฒฐ๊ณผ
๋ชจ๋ ๋ชจ๋ธ ํ์ต๊ณผ ์ฑ๋ฅ ๋ถ์์ Python 3.10.13 ํ๊ฒฝ์์ PyTorch 2.1.2์ CUDA 11.8์ ์ฌ์ฉํ์ฌ ์ํํ์๋ค. ์คํ์ NVIDIA
TITAN RTX GPU์ 64GB RAM์ ๊ฐ์ถ ์์คํ
์์ ์งํํ์์ผ๋ฉฐ ๋น๊ต์ ์ผ๊ด์ฑ์ ์ํด ๋ชจ๋ ๋ชจ๋ธ์ ๋์ผํ ํ์ต ์ค์ ์ ์ ์ฉํ์๋ค. Optimizer๋
AdamW๋ฅผ ์ฌ์ฉํ์๊ณ , ๋ฐฐ์น ํฌ๊ธฐ๋ 32, ํ์ต๋ฅ ์ 1e-4๋ก ์ค์ ํ์๋ค. ์คํ ํ๊ฒฝ ๋ฐ ํ์ต ์ค์ ์ ๋ค์ ํ 2์ ๋ํ๋ด์๋ค. ์ฑ๋ฅ ํ๊ฐ๋ ํผ๋ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก TP(True Positive), FP(False Positive), TN(True Negative),
FN(False Negative)์ ์ฐ์ถํ๊ณ precision, recall, F1-score, accuracy์ ๋ค ๊ฐ์ง ์งํ๋ฅผ ๊ณ์ฐํ์๋ค. Precision์
์์ฑ์ผ๋ก ์์ธกํ ์ํ ์ค ์ค์ ์์ฑ์ ๋น์จ์ ์๋ฏธํ๋ฉฐ recall์ ์ค์ ์์ฑ ์ํ์ ์์ฑ์ผ๋ก ์ฌ๋ฐ๋ฅด๊ฒ ๊ฒ์ถํ ๋น์จ์ ๋ํ๋ธ๋ค. F1-score๋
precision๊ณผ recall์ ์กฐํํ๊ท ์ด๋ฉฐ accuracy๋ ์ ์ฒด ์ํ ์ค ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅํ ๋น์จ์ ์๋ฏธํ๋ค. ๋ถ๋ง ๋ถ๋ฅ์์๋ ์ค์ ๋ถ๋ง ์ํฉ์
๋์น๋ ์ค๋ฅ๋ฅผ ์ค์ด๋ ๊ฒ์ด ์ค์ํ๋ฏ๋ก recall์ ์ค์ ์ ์ผ๋ก ํ๊ฐํ์๋ค. ๋ํ recall๋ง์ผ๋ก๋ ์ค๊ฒ์ถ์ ๋ํ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ๊ธฐ ์ด๋ ต๊ณ ,
๋ ํด๋์ค ๊ฐ ํ๋ณธ ์ ์ฐจ์ด๊ฐ ๊ทน์ฌํ ์์ค์ ์๋์ง๋ง ์ผ๋ถ ์กด์ฌํ๋ฏ๋ก accuracy๋ง์ผ๋ก๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ๊ธฐ ์ด๋ ค์ธ ์ ์๋ค.
๋ฐ๋ผ์ ๋ณธ ์ฐ๊ตฌ์์๋ precision๊ณผ recall์ ํจ๊ป ๋ฐ์ํ ์ ์๋ F1-score๋ฅผ ์ฃผ์ ํ๊ฐ์งํ๋ก ํ์ฉํ์๋ค. ์์ธํ ์์์ ์(3), (4), (5), (6)์ ๋ํ๋ด์๋ค. ๋ํ ํ๊ฐ์งํ์ ์ ๋ขฐ์ฑ์ ํ๋ณดํ๊ธฐ ์ํด ๋์ผํ ๋ฐ์ดํฐ ๋ถํ ์์ 3ํ ๋ฐ๋ณต ํ์ต์ ์ํํ์์ผ๋ฉฐ ๋ชจ๋ ์ฑ๋ฅ ์งํ๋ ๊ฐ ๋ฐ๋ณต ์คํ์ ๊ฒฐ๊ณผ๋ฅผ
ํ๊ท ํ์๋ค. ํ 3๊ณผ ํ 4์์ ยฑ๋ ๊ฐ ๋ฐ๋ณต ์คํ ๊ฒฐ๊ณผ์ ํ์คํธ์ฐจ๋ฅผ ์๋ฏธํ๋ค.
ํ 2. ์คํ ํ๊ฒฝ ๋ฐ ํ์ต ์ค์
Table 2. Experimental setup and training settings
|
Component
|
Setting
|
|
CPU / GPU
|
Intel Xeon W-2133
NVIDIA TITAN RTX
|
|
Python / PyTorch
|
3.10.13 / 2.1.2
|
|
Batch Size
|
32
|
|
Learning rate
|
1ร10-4
|
|
Optimizer
|
AdamW
|
๋ณธ ์ฐ๊ตฌ์์๋ ์
๋ ฅ ๊ตฌ์ฑ ๋ฐฉ์์ ๋ฐ๋ฅธ ๋ถ๋ง ์ฌ๋ถ ๋ถ๋ฅ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์๋ณธ ์
๋ ฅ, ์๋ณธ ์ด๋ฏธ์ง์ ์ค์์ ์ผ์ ํฌ๊ธฐ๋ก ๊ณ ์ ํฌ๋กญํ๋ ๋ฐฉ์, ๊ทธ๋ฆฌ๊ณ
SAM ๊ธฐ๋ฐ ๋ชจ๋ ๋ถํ ๊ฒฐ๊ณผ๋ก ๊ฐ์ฒด ์ค์ฌ ROI๋ฅผ ์ถ์ถํด ํฌ๋กญํ๋ ๋ฐฉ์์ ์ธ ๊ฐ์ง ์ค์ ์ ๋น๊ตํ์๋ค. ๋ค์ ํ 3์ ํฌ๋กญ ๋ฐฉ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์งํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ๋ค. ์คํ ๊ฒฐ๊ณผ, ์ค์ ๊ณ ์ ํฌ๋กญ๊ณผ SAM ๊ธฐ๋ฐ ROI ํฌ๋กญ์ ์ ์ฉํ ์ค์ ์์ ์๋ณธ ์
๋ ฅ ๋๋น recall๊ณผ
F1-score๊ฐ ์ฝ 2 ํผ์ผํธ ํฌ์ธํธ ํฅ์๋์๋ค. ํนํ SAM ๊ธฐ๋ฐ ROI ํฌ๋กญ์ recall์ 84.57%๋ก 2.69 ํผ์ผํธ ํฌ์ธํธ ํฅ์๋์๊ณ ,
F1-score๋ 84.62%๋ก 2.65 ํผ์ผํธ ํฌ์ธํธ ํฅ์๋์๋ค. ์ด๋ SAM์ผ๋ก ๋ชจ๋ ๊ฐ์ฒด๋ฅผ ๋ถํ ํ ๋ค ํ๋ถ ์์ญ์ด ํฌํจ๋๋๋ก ROI๋ฅผ ์ ๋ฐํ๊ฒ
ํฌ๋กญํ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง ๊ฒ์ผ๋ก ํด์๋๋ค. ๊ณ ์ ์ค์ ํฌ๋กญ์ ๋ชจ๋์ ์์น ๋ฐ ์์ธ ๋ณํ์ ๋ฐ๋ผ ํ๋ถ ์์ญ์ด ROI์ ๋ถ์์ ํ๊ฒ ํฌํจ๋ ์
์์ผ๋ SAM ๊ธฐ๋ฐ ROI ํฌ๋กญ์ ํ๋ถ ์์ญ์ด ๋ณด๋ค ์์ ์ ์ผ๋ก ํฌํจ๋๋๋ก ํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก SAM ๊ธฐ๋ฐ ROI ํฌ๋กญ์ ๋ถ๋ง ์ฌ๋ถ ๋ถ๋ฅ์ ์ ์๋ฏธํ ์ ๋ณด๊ฐ
์ผ๊ด๋๊ฒ ์ ๊ณต๋๋ฉด์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ์๋ค.
ํ 3. ํฌ๋กญ ๋ฐฉ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์งํ ๊ฒฐ๊ณผ(๋จ์: %)
Table 3. Performance metrics results by cropping method(unit: %)
|
Method
|
Precision
|
Recall
|
F1-score
|
Accuracy
|
|
Original
|
82.61
ยฑ0.77
|
81.88
ยฑ1.09
|
81.97
ยฑ0.90
|
82.25
ยฑ0.63
|
|
Fixed center crop
|
84.85
ยฑ1.36
|
83.95
ยฑ0.37
|
84.12
ยฑ0.45
|
84.37
ยฑ0.59
|
SAM-based
ROI crop
|
84.94
ยฑ1.55
|
84.57
ยฑ1.03
|
84.62
ยฑ1.25
|
84.78
ยฑ1.30
|
๋ํ, ๋ณธ ์ฐ๊ตฌ์์๋ ConvNeXt์ MIL ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ์ ์ฉํ์ ๋ ๊ฐ ๋ชจ๋ธ๊ณผ ๊ฒฐํฉ ๋ฐฉ์์ ๋ฐ๋ฅธ ๋ถ๋ง ์ฌ๋ถ ๋ถ๋ฅ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋น๊ตํ์๋ค.
ํ 4๋ SAM ๊ธฐ๋ฐ ROI ํฌ๋กญ์ ๋์ผํ๊ฒ ์ ์ฉํ ์
๋ ฅ์์ Vision Transformer, EfficientNetV2, ConvNeXt ๋จ์ผ ๋ชจ๋ธ์
์ฑ๋ฅ๊ณผ MIL ๊ฒฐํฉ ๋ฐฉ์์ธ top-k ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐ attention ๊ธฐ๋ฐ ๊ฒฐํฉ์ ์ ์ฉํ ConvNeXt ๋ชจ๋ธ์ ์ฑ๋ฅ ์งํ๋ฅผ ๋ํ๋ธ๋ค. ๊ณต์ ํ ๋น๊ต๋ฅผ
์ํด ํ 4์ ๋ชจ๋ ๋ชจ๋ธ์ ๋์ผํ SAM ๊ธฐ๋ฐ ROI ์
๋ ฅ๊ณผ ๋์ผํ ํ์ต ์ค์ ์์ ํ์ต ๋ฐ ํ๊ฐํ์๋ค. ๋ํ ๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฏธ์ง ๋จ์ ์ด์ง ๋ถ๋ฅ๋ฅผ ๋์์ผ๋ก ํ๋ฏ๋ก,
๊ฐ์ฒด ํ์ง ๊ฒฐ๊ณผ์ ํ์ ๊ท์น ๊ธฐ๋ฐ ํ๋จ์ ๊ฒฐํฉํ๋ YOLO ๊ณ์ด ๋ฐฉ๋ฒ์ ๋น๊ต์ฉ baseline์ ํฌํจํ์ง ์์๋ค. ๋จผ์ ๋จ์ผ ๋ชจ๋ธ ๋น๊ต์์ ConvNeXt๋
recall 84.57%์ F1-score 84.62%๋ก ๋จ์ผ backbone ์ค ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด๋ ConvNeXt๊ฐ ๋ค๋ฅธ ๋จ์ผ ๋ชจ๋ธ๋ค์
๋นํด ํน์ง์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ํ์ตํ์์ ๋ณด์ฌ์ค๋ค. ์ด์ ๋ฐ๋ผ MIL ๊ฒฐํฉ ์คํ์์๋ ConvNeXt๋ฅผ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก ์ค์ ํ์๋ค. ์ดํ MIL ๊ธฐ๋ฐ ์คํ์์๋
ConvNeXt์ top-k ๊ธฐ๋ฐ ๊ฒฐํฉ๊ณผ attention ๊ธฐ๋ฐ ๊ฒฐํฉ์ ๊ฐ๊ฐ ์ ์ฉํ์ฌ ๊ฒฐํฉ ๋ฐฉ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค. MIL ๊ฒฐํฉ์ ์ ์ฉํ ConvNeXt
๋ชจ๋ธ์ ConvNeXt ๋จ์ผ ๋ชจ๋ธ ๋๋น recall๊ณผ F1-score์์ ํฅ์๋๋ ๊ฒฝํฅ์ ๋ณด์๋ค. ํนํ attention ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ๋ชจ๋ ๋น๊ต
๋ชจ๋ธ ์ค ๊ฐ์ฅ ๋์ recall, F1-score, accuracy๋ฅผ ๊ธฐ๋กํ์์ผ๋ฉฐ, ConvNeXt ๋จ์ผ ๋ชจ๋ธ ๋๋น recall์ 0.90 ํผ์ผํธ
ํฌ์ธํธ, F1-score๋ 1.06 ํผ์ผํธ ํฌ์ธํธ ํฅ์๋์๋ค. ์ด๋ ๋ถ๋ง ์ด๋ฏธ์ง์์ ์ ์๋ฏธํ ๋จ์๊ฐ ํน์ ํจ์น์๋ง ๊ฐํ๊ฒ ๋ํ๋๋ ๊ฒฝ์ฐ๋ ์์ง๋ง ์๋์
๋ถ๋ถ ์ถํ, ์ธ์๋ถ ์ฃผ๋ณ ํํ, ์ฒด์ ๋ณํ ๋ฑ ๋ถ๋ฅ์ ๊ธฐ์ฌํ๋ ์ ๋ณด๊ฐ ์ฌ๋ฌ ์์ญ์ ๋ถ์ฐ๋์ด ๋ํ๋ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. Top-k ๊ฒฐํฉ ๋ฐฉ์์ ์ผ๋ถ
์ธ์คํด์ค๋ง์ ์ฌ์ฉํ๋ฏ๋ก ๋จ์๊ฐ ๋ถ์ฐ๋ ๊ฒฝ์ฐ ์ ๋ณด๊ฐ ์ถฉ๋ถํ ๋ฐ์๋์ง ์์ ์ ์๋ค. ๋ฐ๋ฉด์ attention ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ์ธ์คํด์ค๋ณ ์ค์๋๋ฅผ ํ์ตํ์ฌ
์ฌ๋ฌ ์์ญ์ ์ ๋ณด๋ฅผ ํจ๊ป ๋ฐ์ํ ์ ์์ด ๋ ์์ ์ ์ธ ์ฑ๋ฅ์ผ๋ก ์ด์ด์ง ๊ฒ์ผ๋ก ๋ณผ ์ ์๋ค.
์ด๋ฌํ ์ฑ๋ฅ ํฅ์์ ํต๊ณ์ ์ ์์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ ์ํ ๋ชจ๋ธ๊ณผ ๋น๊ต ๋ชจ๋ธ ๊ฐ์ Wilcoxon signed-rank test๋ฅผ ์ํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ,
์ ์ ๋ชจ๋ธ์ ๋น๊ต ๋ชจ๋ธ ๋๋น ํต๊ณ์ ์ผ๋ก ์ ์ํ ์ฑ๋ฅ ํฅ์์ ๋ณด์๊ณ , p-value๋ 0.001 ๋ฏธ๋ง์ผ๋ก ๋ํ๋ฌ๋ค. ์ด๋ฌํ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๊ฒฐ๊ณผ
์ธ์๋ FLOPs์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๊ณ์ฐํ์ฌ ๋ชจ๋ธ ๋ณต์ก๋๋ฅผ ๋น๊ตํ์๋ค. ํ 5๋ ๊ฐ ๋ชจ๋ธ์ ์ฐ์ฐ๋๊ณผ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ๋ค. ์ค์ FPS๋ ํ๋์จ์ด์ ๊ตฌํ ์กฐ๊ฑด์ ์ํฅ์ ํฌ๊ฒ ๋ฐ์ผ๋ฏ๋ก, ๋ณธ ์ฐ๊ตฌ์์๋ ํ๋์จ์ด
๋
๋ฆฝ์ ์ธ ๋ณต์ก๋ ์งํ๋ก FLOPs์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋ณด๊ณ ํ์๋ค. ๋น๊ต ๋ชจ๋ธ ์ค EfficientNetV2 ๋ชจ๋ธ์ด ๊ฐ์ฅ ๋ฎ์ ์ฐ์ฐ๋๊ณผ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋ณด์์ผ๋ฉฐ,
Vision Transformer์ ConvNeXt ๋ชจ๋ธ๋ ๋น๊ต์ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์ MIL ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ์ ์ฉํ ConvNeXt
๋ชจ๋ธ์ ์ถ๊ฐ ๋ชจ๋๋ก ์ธํด FLOPs์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ฆ๊ฐํ์์ผ๋, ๊ทธ์ ํจ๊ป recall๊ณผ F1-score์ ๊ฐ์ ์ด ํ์ธ๋์๋ค. ๋ฐ๋ผ์ ์ ์ ๋ฐฉ๋ฒ์
์ด์ ์ ์ฑ๋ฅ ํฅ์๊ณผ ๊ณ์ฐ ๋ณต์ก๋ ์ฆ๊ฐ ์ฌ์ด์ ์์ถฉ ๊ด๊ณ๋ฅผ ํจ๊ป ๊ณ ๋ คํ์ฌ ํด์ํ ํ์๊ฐ ์๋ค.
ํ 4. MIL ๊ฒฐํฉ ๋ฐฉ์์ ๋ฐ๋ฅธ ๋ชจ๋ธ ์ฑ๋ฅ ์งํ ๊ฒฐ๊ณผ(๋จ์: %)
Table 4. Performance metrics of the models according to the MIL aggregation method
(unit: %)
|
Method
|
Precision
|
Recall
|
F1-score
|
Accuracy
|
Vision
Transformer
|
81.53
ยฑ1.00
|
81.76
ยฑ0.97
|
81.60
ยฑ1.10
|
81.58
ยฑ1.14
|
|
EfficientNetV2
|
82.57
ยฑ1.17
|
81.68
ยฑ0.91
|
81.87
ยฑ0.89
|
82.19
ยฑ0.87
|
|
ConvNeXt
|
84.94
ยฑ1.55
|
84.57
ยฑ1.03
|
84.62
ยฑ1.25
|
84.78
ยฑ1.30
|
ConvNeXt
+MIL(Top-5)
|
85.80
ยฑ0.78
|
85.12
ยฑ1.09
|
85.14
ยฑ0.85
|
85.35
ยฑ1.56
|
ConvNeXt
+MIL(Attention)
|
86.47
ยฑ1.30
|
85.47
ยฑ1.16
|
85.68
ยฑ0.86
|
85.95
ยฑ1.61
|
ํ 5. ๊ฐ ๋ชจ๋ธ์ ์ฐ์ฐ๋ ๋ฐ ํ๋ผ๋ฏธํฐ ์ ๋น๊ต ๊ฒฐ๊ณผ
Table 5. Comparison of computational cost and parameter counts across models
|
Method
|
FLOPs
|
Parameters
|
|
Vision Transformer
|
33.72G
|
85.64M
|
|
EfficientNetV2
|
30.65G
|
52.45M
|
|
ConvNeXt
|
30.70G
|
87.51M
|
|
ConvNeXt+MIL(Top-5)
|
45.96G
|
98.07M
|
|
ConvNeXt+MIL(Attention)
|
45.95G
|
97.54M
|
ํจ์น ๋ถํ ์์ ๋ฐ๋ผ MIL ๊ธฐ๋ฐ ConvNeXt ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง ํ์ธํ๊ธฐ ์ํด 3ร3, 4ร4, 5ร5 patches ์กฐ๊ฑด์์ ๋น๊ต
์คํ์ ์ํํ์์ผ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ 6์ ์ ์ํ์๋ค. ์คํ ๊ฒฐ๊ณผ, 4ร4 patches ์ค์ ์ด ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋ด์๋ค. ๋ฐ๋ฉด 3ร3 patches ์ค์ ์์๋ ํจ์น ์๊ฐ ์ ์ด ๊ตญ์์ ์ธ
ํน์ง ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ๊ธฐ ์ด๋ ค์ ๊ณ , 5ร5 patches ์ค์ ์์๋ ํจ์น๊ฐ ์ง๋์น๊ฒ ์ธ๋ถํ๋์ด ๊ฐ ํจ์น์ ํฌํจ๋๋ ์ ๋ณด๋์ด ๊ฐ์ํจ์ ๋ฐ๋ผ ์ ์ฒด์ ์ธ
๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ์ง ๋ชปํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ MIL ๊ตฌ์กฐ์์ ํจ์น ๋ถํ ์๊ฐ ๊ตญ์ ์ ๋ณด์ ์ ์ฒด ๋ฌธ๋งฅ ์ ๋ณด ๊ฐ์ ๊ท ํ์ ์ํฅ์
๋ฏธ์น๋ฉฐ, ๋ณธ ์ฐ๊ตฌ์์๋ 4ร4 patches ์ค์ ์ด ๊ฐ์ฅ ์ ์ ํจ์ ๋ณด์ฌ์ค๋ค.
ํ 6. ํจ์น ๋ถํ ์์ ๋ฐ๋ฅธ MIL ๊ธฐ๋ฐ ConvNeXt ๋ชจ๋ธ์ ์ฑ๋ฅ ๊ฒฐ๊ณผ(๋จ์: %)
Table 6. Performance metrics of the MIL-based ConvNeXt model according to the number
of patch divisions (unit: %)
|
Method
|
Precision
|
Recall
|
F1-score
|
Accuracy
|
|
3ร3 patches
|
86.00
ยฑ1.19
|
85.02
ยฑ1.21
|
85.04
ยฑ1.81
|
85.35
ยฑ1.55
|
|
4ร4 patches
|
86.47
ยฑ1.30
|
85.47
ยฑ1.16
|
85.68
ยฑ0.86
|
85.95
ยฑ1.61
|
|
5ร5 patches
|
85.34
ยฑ1.86
|
84.82
ยฑ1.88
|
84.96
ยฑ1.80
|
85.16
ยฑ1.70
|
5. ๊ฒฐ ๋ก
๋ณธ ์ฐ๊ตฌ์์๋ ๋ชจ๋ ์ด๋ฏธ์ง๋ก๋ถํฐ ๋ถ๋ง ์ฌ๋ถ๋ฅผ ๋ถ๋ฅํ๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๋น์ ์ด ๋ถ๋ง ์ฌ๋ถ ๋ถ๋ฅ ์์คํ
์ ์ ์ํ์๋ค. ์ด๋ฅผ ์ํด ๋์ฌ ํ๊ฒฝ์์ ๋ชจ๋์ ์์น
๋ฐ ์์ธ ๋ณํ๋ก ์ธํด ๋ถ๋ง ๊ด๋ จ ์ ๋ณด๊ฐ ํ๋ ์ ๋ด ์ผ์ ์์น์ ๊ณ ์ ๋์ง ์๋ ๋ฌธ์ ๋ฅผ ๊ณ ๋ คํ์ฌ SAM ๊ธฐ๋ฐ ๋ชจ๋ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํ ROI ์ ๋ฐ ํฌ๋กญ์
์ ์ฉํ์๋ค. ๋ํ ๋จ์ผ CNN ๋ชจ๋ธ์ ์ ์ฉํ ๊ฒฝ์ฐ, ์์ญ๋ณ ํ๋ณ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ๋ ๋ฐ ํ๊ณ๊ฐ ์์ด MIL ๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ์ ์ฉํ์๋ค. ์คํ
๊ฒฐ๊ณผ, ์ ์ํ ๋ฐฉ๋ฒ์ ๋น๊ตํ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ผ๋ก recall 85.47%์ F1-score 85.68%๋ฅผ ๋ฌ์ฑํ์์ผ๋ฉฐ, ์ด๋ ์๋ณธ ์
๋ ฅ ๋๋น
๊ฐ๊ฐ 3.59 ํผ์ผํธ ํฌ์ธํธ์ 3.71 ํผ์ผํธ ํฌ์ธํธ ํฅ์๋ ๊ฒฐ๊ณผ์ด๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ROI ์ ๋ฐ ํฌ๋กญ์ ํตํด ๋ฐฐ๊ฒฝ ์ ๋ณด์ ์ํฅ์ ์ต์ํํ๊ณ MIL
๊ธฐ๋ฐ ๊ฒฐํฉ ๋ฐฉ์์ ํตํด ์์ญ๋ณ ํ๋ณ ์ ๋ณด๋ฅผ ์ข
ํฉ์ ์ผ๋ก ๋ฐ์ํจ์ผ๋ก์จ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ์์ ๋ณด์ฌ์ค๋ค.
ํ์ง๋ง ๋ณธ ์ฐ๊ตฌ๋ ๋จ์ผ ๋์ฌ ํ๊ฒฝ์์ ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ํ๋์์ผ๋ฏ๋ก ๋ค์ํ ์ฌ์ก ํ๊ฒฝ ๋ฐ ์ดฌ์ ์กฐ๊ฑด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ์๋ ํ๊ณ๊ฐ ์๋ค.
ํฅํ ์ฐ๊ตฌ์์๋ ๋ค์ํ ๋์ฌ ํ๊ฒฝ์์ ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ณ , ๋ณด๋ค ๊ฒฝ๋์ด๊ฑฐ๋ ์ต์ ์ backbone ๋ชจ๋ธ์ ์ถ๊ฐ๋ก ํ๊ฐํ์ฌ
์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋์ฑ ๋ฉด๋ฐํ ๋ถ์ํ ๊ณํ์ด๋ค. ๋ํ ๋ถ๋ง ์ฌ๋ถ์ ๋ํ ํ๋ณ์ ๋์ด, ๋ถ๋ง ๊ณผ์ ์์ ๋ํ๋๋ ์ฃผ์ ํ๋๋ค์ ์ธ๋ถํ๋ ํด๋์ค๋ก ๊ตฌ์ฑํ๊ณ
์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด์ ์งํ๋ฅผ ์กฐ๊ธฐ์ ์๋ณํ ์ ์๋๋ก ์ฐ๊ตฌ๋ฅผ ํ์ฅํ ๊ณํ์ด๋ค. ๋ ๋์๊ฐ ์ค์ ํ์ฅ ์ ์ฉ์ ๊ณ ๋ คํ ๊ฒฝ๋ํ ๋ฐ ์ถ๋ก ์๋ ๊ฐ์ ์ฐ๊ตฌ๋ฅผ
ํตํด ์ค์๊ฐ ๋ชจ๋ํฐ๋ง ์์คํ
์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๊ฒํ ํ๊ณ ์ ํ๋ค.
Acknowledgements
This research was supported by the Basic Science Research Program through the National
Research Foundation of Korea (NRF) funded by the Ministry of Education (No. 2022R1I1A3053872);
in part by the National Research Foundation of Korea (NRF) grant funded by the Korea
government (MSIT) (RS-2023-00242528) and was supported by Korea Institute of Planning
and Evaluation for Technology in Food, Agriculture and Forestry(IPET) and Korea Smart
Farm R&D Foundation(KosFarm) through Smart Farm Innovation Technology Development
Program, funded by Ministry of Agriculture, Food and Rural Affairs(MAFRA) and Ministry
of Science and ICT(MSIT), Rural Development Administration(RDA) (RS-2025-02315218).
References
Korea Rural Economic Institute (KREI), "Agricultural Outlook 2025 Report," 2025.

Statistics Korea, "Farm Households by Age of Farm Household Head(Census of Agriculture,
Forestry and Fisheries)," 2023.

Livestock Environmental Management Institute, "Comparison of the Proportion of Foreign
Workers on Farms by Livestock Species," 2023.

I. Traulsen, Art. no. 170, "Using Acceleration Data to Automatically Detect the Onset
of Farrowing in Sows," Sensors, vol. 18, no. 1, 2018.

C. Lipori, B. F. A. Laurenssen, I. Reimert, N. M. Soede, A. Youssef, "A Wearable Software
Sensor for Parturition Onset Prediction in Sows," pp. 1315-1323, 2024.

E. Mayrhuber, K. Maschat, D. Brunner, S. M. Winkler, M. Oczak, Art. no. 104381, "Improved
and interpretable accelerometer-based farrowing prediction," Biosystems Engineering,
vol. 263, 2026.

M. Oczak, F. Bayer, S. Vetter, K. Maschat, J. Baumgartner, Art. no. 106517, "Comparison
of the automated monitoring of the sow activity in farrowing pens using video and
accelerometer data," Computers and Electronics in Agriculture, vol. 192, 2022.

X. Yang, C. Zheng, C. Zou, H. Gan, S. Li, S. Huang, Y. Xue, Art. no. 106139, "A CNN-based
posture change detection for lactating sow in untrimmed depth videos," Computers and
Electronics in Agriculture, vol. 185, 2021.

J. H. Witte, J. Gerberding, C. Lensches, I. Traulsen, "Using Deep Learning for automated
birth detection during farrowing," pp. 141-154, 2022.

M. Wutke, C. Lensches, U. Hartmann, I. Traulsen, "Towards automatic farrowing monitoring-A
Noisy Student approach for improving detection performance of newborn piglets," PLOS
ONE, vol. 19, no. 10, 2024.

A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead,
A. C. Berg, W.-Y. Lo, P. Dollรกr, R. Girshick, "Segment Anything," pp. 4015-4026, 2023.

Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, S. Xie, "A ConvNet for the
2020s," pp. 11976-11986, 2022.

F. Chollet, "Xception: Deep learning with depthwise separable convolutions," pp. 1251-1258,
2017.

Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, B. Guo, "Swin Transformer:
Hierarchical Vision Transformer Using Shifted Windows," pp. 10012-10022, 2021.

M. Ilse, J. Tomczak, M. Welling, "Attention-based Deep Multiple Instance Learning,"
pp. 2127-2136, 2018.

A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner,
M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, N. Houlsby, "An Image
is Worth 16x16 Words: Transformers for Image Recognition at Scale," 2021.

D. J. Araรบjo, "Key Patches Are All You Need: A Multiple Instance Learning Framework
for Robust Medical Diagnosis," 2024.

์ ์์๊ฐ
์ํ์ (Hyeong-sik Won)
Hyeong-sik Won received the B.S. degree in Electronic Engineering from Kangwon National
University and the M.S. degree from the Department of Data Science, Kangwon National
University.
์กฐํ์ข
(Hyun-chong Cho)
Hyun-chong Cho received his M.S. and Ph.D. degrees in electrical and computer engineering
from the University of Florida, USA, in 2009. During 2010โ2011, he was a Research
Fellow at the University of Michigan, Ann Arbor, USA. From 2012 to 2013, he was a
Chief Research Engineer at LG Electronics, South Korea. He is currently a Professor
at the Department of Electronics Engineering, the Department of Data Science, and
Interdisciplinary Graduate Program for BIT Medical, Kangwon National University, South
Korea.