๋ฐ์ฌ๋ฒ
(Jae-beom Park)
1iD
๊น๋ฏผ์ค
(Min-jun Kim)
2iD
์ํ์
(Hyeong-sik Won)
2iD
์กฐํ์ง
(Hyun Chin Cho)
3iD
์กฐํ์ข
(Hyun-chong Cho)
โ iD
-
(Dept. of Interdisciplinary Graduate Program for BIT Medical Convergence, Kangwon National
University, Korea.)
-
(Dept. of Electronics Engineering Kangwon National University, Korea.)
-
(Dept. of Internal Medicine & Institute of Health Sciences, Gyeongsang National University
School of Medicine and Gyeongsang National University Hospital, Korea.)
Copyright ยฉ The Korean Institute of Electrical Engineers(KIEE)
Key words
CADx, Gastric Diagnosis, Classification, Convolution Neural Network, Deep learning, Vision Transformer
1. ์ ๋ก
2020๋
๊ตญ์ ์์ฐ๊ตฌ์ IARC(International Agency for Research on Cancer)์์ ๋ฐํํ ๋ณด๊ณ ์์ ๋ฐ๋ฅด๋ฉด ์์์
ํนํ ํ๊ตญ, ์ค๊ตญ, ์ผ๋ณธ ๋ฑ ๋์์์์ธ์๊ฒ ๋ฐ๋ณ๋ฅ ์ด ๋์ ์ง๋ณ์ด๋ค(1). ๋์์์ ์ง์ญ์ ์ธ๊ตฌ 10๋ง ๋ช
๋น 32.5๋ช
์ผ๋ก 2์์ธ ๋์ ๋ฝ ๋ฐ๋ณ๋ฅ ์ธ 17.4๋ช
๋ณด๋ค 15.1๋ช
๋ ๋์ ์์น๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ๋ค์ ๊ทธ๋ฆผ 1์ ์์ ๋ฐ๋ณ๋ฅ ์ด ๊ฐ์ฅ ๋์ ์์ 5๊ฐ ์ง์ญ์ ๋ฐ๋ณ๋ฅ ์ ๋ํ๋ด์๋ค. ์์ ์ด๊ธฐ์๋ ์ฆ์์ ๋ณด์ด์ง ์์ ์กฐ๊ธฐ ๋ฐ๊ฒฌ์ด ํ๋ค๋ค. ํ์ง๋ง ์ฆ์์ ๋ณด์ด๊ณ ์ถํ
๋ฐ๊ฒฌ ์ ์ด๋ฏธ ์ ์ด๋ ์งํ์ฑ ์์์ผ ๊ฒฝ์ฐ๊ฐ ๋งค์ฐ ๋๋ค. ์กฐ๊ธฐ ์์๊ณผ ์งํ์ฑ ์์์ ์์กด์จ์ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์ธ๋ค.
๊ทธ๋ฆผ. 1. ์์ ๋ฐ๋ณ๋ฅ ์ด ๊ฐ์ฅ ๋์ 5๊ฐ ์ง์ญ์ ๋ฐ๋ณ๋ฅ
Fig. 1. Incidence rates in the five regions with the highest incidence of gastric
cancer
2023๋
๋ํ๋ฏผ๊ตญ ๋ณด๊ฑด๋ณต์ง๋ถ์์ ๋ฐํํ 2020๋
๊ตญ๊ฐ์๋ฑ๋ก ์ฌ์
๋ณด๊ณ ์์ ๋ฐ๋ฅด๋ฉด ๋ณ๋ณ์ด ๊ตญํ๋ 1๊ธฐ ํ์์ 5๋
์์กด์จ์ 97.5%๋ก ์๋นํ ๋์ผ๋
2-3๊ธฐ ๊ตญ์ ๋ณ๋ณ ํ์์ 5๋
์์กด์จ์ 62.3%, ์๊ฒฉ์ ์ด๊ฐ ์๋ ๋ง๊ธฐ ์์ ํ์์ ์์กด์จ์ 6.7%๋ก ๊ธ๊ฒฉํ ๊ฐ์ํ๋ค
(2). ๋ฐ๋ผ์ ๋ํ๋ฏผ๊ตญ ๋ณด๊ฑด๋ณต์ง๋ถ์์๋ ์์ ์๋ฐฉ๊ณผ ์กฐ๊ธฐ ๋ฐ๊ฒฌ์ ์ํด 40์ธ ์ด์ ๊ตญ๋ฏผ์ ๋์์ผ๋ก 2๋
๋ง๋ค ์๋ด์๊ฒฝ ๊ฒ์ฌ๋ฅผ ๋ฐ์ ์ ์๋๋ก ๊ตญ๊ฐ์๊ฒ์ง
ํ๋ก๊ทธ๋จ์ ์ด์ํ๊ณ ์๋ค. ๊ตญ๋ฆฝ์์ผํฐ์ ์์ ๊ฒ์ง ์๊ฒ๋ฅ ์ ๋ฐ๋ฅด๋ฉด 2004๋
์ฝ 40%์ ๋ถ๊ณผํ๋ ์๊ฒ๋ฅ ์ถ์ด๊ฐ ๊พธ์คํ ์์นํ์ฌ 2012๋
์ 74.2%๋ฅผ
๋ฌ์ฑํ๊ณ ๊พธ์คํ 70% ์ด์์ ์ ์ง ์ค์ด๋ค
(3). ํ์ง๋ง ๋ํ์ํํ์ 2021๋
๋ถ๊ณผ์ ๋ฌธ์ ์ ๋ ์ฐ๋ณด์ ๋ฐ๋ฅด๋ฉด ์ ๊ท ์ํ๊ธฐ๋ด๊ณผ ๋ถ๊ณผ์ ๋ฌธ์ ์๋ 2012๋
200๋ช
์ดํ ๊พธ์คํ ๊ฐ์ํ์ฌ 2021๋
์๋
120๋ช
์ผ๋ก ์ต์ ์น๋ฅผ ๋ฌ์ฑํ์๋ค
(4). ์ด๋ ๋ด์๊ฒฝ์ ๊ฒ์ฌํ ์ ๋ฌธ์ ์๊ฐ ๋ถ์กฑํด์ง๊ณ , ์ ๋ฌธ์๊ฐ ๋ถ๋ดํด์ผ ํ ์๊ฒ์ ์๋ ์ฆ๊ฐํจ์ ์๋ฏธํ๋ค. ํ ๋ด์๊ฒฝ ์ ๋ฌธ์๊ฐ ๋ถ๋ดํด์ผ ํ ์๊ฒ์ ์๊ฐ
์ฆ๊ฐํ ์๋ก ํผ๋ก๋๋ ์ฆ๊ฐํ๊ณ , ์ด๋ ์ค์ง๊ณผ ๊ฐ์ ์น๋ช
์ ์ธ ์ค์๋ฅผ ์ ๋ฐํ ์ ์๋ ์์ธ์ด ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ ์๋ด์๊ฒฝ ๋จ๊ณ์์ ์ผ์ ํ๊ณ ์ ํ๋ ๋์
์ง๋จ์ผ๋ก ์์ฌ์๊ฒ 2์ฐจ ์๊ฒฌ์ ์ ์ํ๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ ๋ณ๋ณ ์๋ด์๊ฒฝ ์ด๋ฏธ์ง ๋ถ๋ฅ CADx(Computer-Aided Diagnosis, ์ปดํจํฐ ๋ณด์กฐ
์ง๋จ ์์คํ
)๋ฅผ ์ํ ๊ฐ๋ฐ์ด ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์๋ค. ์๋ด์๊ฒฝ ์ด๋ฏธ์ง๋ฅผ ํตํ ์์ฅ๊ด ์งํ ๋ถ๋ฅ ๋ชจ๋ธ CADx ์์คํ
๊ฐ๋ฐ ์ฐ๊ตฌ๊ฐ ์ํ๋์๋ค
(5). ๊ธฐ์กด ์ฐ๊ตฌ๋ฅผ ํตํด CADx ์์คํ
์ด ์์ฌ์๊ฒ ์ผ๊ด์ ์ธ 2์ฐจ ์๊ฒฌ์ ์ ์ํ๊ณ ์์ ์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์์์ ๋ณด์๋ค. D-CNN(Deep Convolution
Neural Network, ์ฌ์ธต ์ปจ๋ณผ๋ฃจ์
์ ๊ฒฝ๋ง)์ ํ์ฉํ์ฌ ์ ์งํ์ ๋ถ๋ฅํ๋ ์ฐ๊ตฌ๋ ์งํ๋์๋ค
(6). InceptionV3 ๋ฐ DenseNet-201๋ฅผ ํตํด ํน์ง ๋ฒกํฐ๋ฅผ ์ถ์ถํ๊ณ Binary dragonfly ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ์ ํ๋ 99.8%์
์ฑ๋ฅ์ ๋ณด์๋ค. ์ ์งํ๋ฟ๋ง ์๋๋ผ ์กฐ๊ธฐ ์์์ ์ง๋จํ๋ ์ฐ๊ตฌ ๋ํ ์ํ๋์๋ค
(7). ResNet-50๋ฅผ ํ์ฉํ์ฌ ์กฐ๊ธฐ ์์ ๋ถ๋ฅ ์ ํ๋ 98.7%๋ฅผ ๋ฌ์ฑํ์๋ค. ๋ํ ์ ๋ณ๋ณ ํ์ง์ ๊ดํ ์ฐ๊ตฌ๋ ์ํ๋์๋ค
(8). ์์ค๋ ์ด(X-ray) ์ด๋ฏธ์ง๋ฅผ ํตํด ์
์ฑ ์์ญ์ ๊ฒ์ถํ๊ธฐ ์ํ์ฌ Faster R-CNN ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ฌํ์จ 92.3%๋ฅผ ๋ฌ์ฑํ์๋ค. ์กฐ๊ธฐ ์์(EGC)
๋ฐ ์งํ์ฑ ์์(AGC) ๋ณ๋ณ์ ๋ถํ ํ๋ ์ฐ๊ตฌ ๋ํ ์งํ๋์๋ค
(9). U-Net์ ํตํด ์กฐ๊ธฐ ์์์ Dice ๊ณ์๋ 0.555, ์งํ์ฑ ์์์ Dice ๊ณ์๋ 0.716์ ๋ฌ์ฑํ์๋ค. ์ ๋ฐ์ ์ผ๋ก ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ํ
๋ถ์ผ์ ๋นํด ๋ฐ์ดํฐ ์์ง์ ์ฅ๊ธฐ๊ฐ์ด ์์๋๊ณ ์์ ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํจ์ ํ์ธํ ์ ์๋ค. ์ด๋ฌํ ์ ์ ํด๊ฒฐํ๊ณ ์ ๋ฐ์ดํฐ ์ฆ๋๋ฅผ ํตํด ์ฑ๋ฅ์ ํฅ์ํ ์ฐ๊ตฌ๊ฐ
์งํ๋์๋ค
(10). ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ์ด๋ฏธ์ง๋ฅผ ํ์ , ์ด๋, ์ ๋จ, ์ค ๋ฐ ๋ค์ง๊ธฐ๋ฅผ ํฌํจํ ์ํ ๊ฐ์ง ์ ํ์ ์ฆ๋๊ธฐ๋ฒ์ ์ ์ฉํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ฆ๋๊ธฐ๋ฒ์ ์ฌ์ฉํ์ง ์์
๋คํธ์ํฌ๋ณด๋ค AUC๊ฐ 1.5% ํฅ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค. ๋ฐ์ดํฐ ์ฆ๋๋ฟ๋ง ์๋๋ผ ์ ์ด ํ์ต์ ํจ๊ป ์ ์ฉํ์ฌ ์๋ด์๊ฒฝ์ ํตํ ์์ฅ ์งํ์ ๋ถ๋ฅํ๋ ์ฐ๊ตฌ๋
์ํ๋์๋ค
(11). ์ํ์ข์ฐ ์ด๋, ํ๋/์ถ์, ๋ฐ๊ธฐ ์กฐ์ , ์ํ ๋ฐ์ ๋ฑ์ ํ์ฉํ ๋ฐ์ดํฐ ์ฆ๋ ๋ฐฉ์๊ณผ ์ ์ด ํ์ต์ ํตํด VGGNet์ 10.61%, InceptionNet์
11.8%, ResNet์ 14.99%์ ์ฑ๋ฅ ๊ฐ์ ์ ๋ณด์๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ฅผ ํตํด ์ ์ ์๋ฏ์ด ์๋ฃ ๋ฐ์ดํฐ๋ ํ์์ ๋์ ์ IRB(Institutional Review Board, ๊ธฐ๊ด ๊ฒํ ์์ํ)์ ์น์ธ์ด
ํ์์ ์ด์ด์ ์์ง ๊ธฐ๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๊ณ ์์ ๋ฐ์ดํฐ์
์ด ์ฃผ๋ก ๊ตฌ์ฑ๋๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ์
์ CADx์ ์ฑ๋ฅ์ ๊ฐ์์ํค๋ ์์ธ์ด ๋ ์ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ
์ํ์ฌ Google์์ ๊ฐ๋ฐํ AutoAugment ์ฆ๋์ ์ฑ
์ ์ ์ฉํ์๋ค. ๋ํ ๋ณธ ์ฐ๊ตฌ์์๋ SAM(Sharpness Aware Minimization)
์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ CNN ๊ธฐ๋ฐ์ ConvNeXt์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ ViT(Vision Transformer)๋ฅผ ์ ์ฉํ์๋ค. ์ด๋ฅผ ํตํด ์๋ณธ
๋ฐ์ดํฐ์
๊ณผ ์ฆ๋ ๋ฐ์ดํฐ์
์ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๊ฐ ๋น๊ตํจ์ผ๋ก์จ ๋น์ ์ ์ ๋ณ๋ณ ๋ถ๋ฅ ์ปดํจํฐ ๋ณด์กฐ ์ง๋จ ์์คํ
์ ์ฑ๋ฅ์ ํฅ์ํ๊ณ ์ ํ๋ค.
2. ํ์ต ๋ฐ์ดํฐ
๋ณธ ์ฐ๊ตฌ์์๋ ๊ฒฝ์๊ตญ๋ฆฝ๋ํ๊ต๋ณ์์ ์ํ๊ธฐ๋ด๊ณผ๋ฅผ ํตํด ์์งํ ๋น์ ์ ๋ฐ ์ ์ ๋ฐฑ์๊ด ์๋ด์๊ฒฝ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์๋ค. ๋ณธ ์ฐ๊ตฌ์ ์ฌ์ฉ๋ ๋ชจ๋ ๋ฐ์ดํฐ์
์
ํ์ ๊ฐ์ธ์ ๋์์ IRB์ ์น์ธ์ ๋ฐ๊ณ ์์ง๋์๋ค. ๋ํ ์กฐ์ง ๊ฒ์ฌ ๋ฐ ์ ๋ฌธ์์ 2์ฐจ ๊ฒ์ฆ์ ํตํด ๋ฐ์ดํฐ์
์ ์ ๋ขฐ๋๋ฅผ ํฅ์ํ์๋ค.
2.1 ๋ฐ์ดํฐ์
๊ตฌ์ฑ
๋ณธ ์ฐ๊ตฌ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์
์ ์ด 96๋ช
์ ํ์๋ก๋ถํฐ ๋น์ ์ ์ด๋ฏธ์ง 300์ฅ๊ณผ ์ ์ ์ด๋ฏธ์ง 300์ฅ์ ์์งํ์ฌ ์ด 600์ฅ์ ๊ตฌ์ฑํ์๋ค. ์๋ด์๊ฒฝ ์ด๋ฏธ์ง๋
ํ ํ์๋ก๋ถํฐ ์ฌ๋ฌ ์ฅ์ด ์์ง๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค. ํ ํ์์ ์ด๋ฏธ์ง๊ฐ ํ๋ จ ๋ฐ์ดํฐ์
๊ณผ ํ
์คํธ ๋ฐ์ดํฐ์
์ ๋ค์ด๊ฐ๋ฉด ์ถฉ๋ถํ ํ์ต์ด ๋์ง ์๊ณ , ๊ณผ์ ํฉ์ด
๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ๋๊ธฐ์ ํ์ ๊ตฌ์ฑ์ด ์ค์ํ๋ค. ๋ฐ๋ผ์ ๋ณธ ์ฐ๊ตฌ์์๋ ํ๋ จ ๋ฐ ๊ฒ์ฆ, ํ
์คํธ ๋ฐ์ดํฐ์
์ ํ์๊ฐ ๊ฒน์น์ง ์๋๋ก ๋ฌด์์ ๋ถ๋ฐฐํ์๋ค. ๋ณธ
์ฐ๊ตฌ์ ์ ์ฉํ ํ์ ์ ๋ฐ ์ด๋ฏธ์ง ์ ๊ตฌ์ฑ์ ํ 1์ ๋ํ๋ด์๋ค.
ํ 1. ๋น์ ์ ์๋ด์๊ฒฝ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
๊ตฌ์ฑ(๋จ์ : ์ฅ)
Table 1. Construction of abnormal gastroscopy image dataset
|
Type
|
Number
|
Train
|
Valid
|
Test
|
patients
|
Normal
|
28
|
10
|
10
|
Abnormal
|
Gastritis
|
9
|
5
|
3
|
Ulcer
|
7
|
1
|
1
|
Polyp
|
2
|
2
|
2
|
Others
|
10
|
2
|
4
|
Images
|
Normal
|
180
|
60
|
60
|
Abnormal
|
Gastritis
|
77
|
40
|
23
|
Ulcer
|
51
|
6
|
4
|
Polyp
|
8
|
7
|
6
|
Others
|
44
|
7
|
27
|
2.2 ๋ฐ์ดํฐ ์ฆ๋
์ ๋ณ๋ณ์ ์ฆ์์ด ๋ค์ํ ๋งํผ ์ฌ๋ฌ ํน์ง์ ํฌํจํด์ผ ํ๋ค. ์ด๋ฌํ ํน์ง์ ๋ฅ๋ฌ๋ ํ์ต์ ์์ด ๋งค์ฐ ์ค์ํ ์์์ด๋ฉฐ ์ ๋ณ๋ณ ์ด๋ฏธ์ง๊ฐ ๋ถ์กฑํ ๋ ๊ณผ์ ํฉ์ด๋
ํ์ต์ด ์ถฉ๋ถํ ๋์ง ์์ ๊ฐ๋ฅ์ฑ์ด ๋งค์ฐ ๋๋ค. ์๋ด์๊ฒฝ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
์ ์๋ฃ ์์์ด๋ฏ๋ก ํ์ ๊ฐ์ธ์ ๋ณด๋ณดํธ๋ฅผ ์ํด ํ์์ ๋์ ๋ฐ ์ต๋ช
ํ๋ฅผ ํ์๋ก
ํ๋ค. ๊ทธ๋ ๊ธฐ์ ์์ง์ ์ค๋ ๊ธฐ๊ฐ์ด ์์๋๊ณ , ๋ค๋ฅธ ๋ถ์ผ์ ๋ฐ์ดํฐ์
๋ณด๋ค ์์ ๋ฐ์ดํฐ์
์ด ๊ตฌ์ฑ๋๋ค. ์ด๋ฌํ ์๋ฃ ์์ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ๋ณธ ์ฐ๊ตฌ์์๋
AutoAugment๋ฅผ ์ ์ฉํ์๋ค(12). AutoAugment๋ ๊ตฌ๊ธ์์ ์ ์ํ ์ฆ๋์ ์ฑ
์ผ๋ก ์ฌ๋ฌ ๋ฐ์ดํฐ์
์ ๋ํ ์ต์ ์ ์ฆ๋์ ์ฑ
์ ์ ๊ณตํ๋ค. AutoAugment๋ 25๊ฐ์ ํ์ ์ ์ฑ
์ผ๋ก
๊ตฌ์ฑ๋๋ฉฐ ๊ฐ ํ์ ์ ์ฑ
์ Shear, Translate, Auto Contrast, Equalize ๋ฑ 16๊ฐ์ง ์์์ฒ๋ฆฌ ๋ฐฉ์ ์ค 2๊ฐ์ง์ ๊ฐ ๋ฐฉ์์
์ ์ฉ ํ๋ฅ 10๋จ๊ณ, ์ ์ฉ ๊ฐ๋ 11๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค. ์ด๋ฅผ ํตํด ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํตํด ์ ํด์ง ์ฆ๋์ ์ฑ
์ ์ ๋ณ๋ณ ์ด๋ฏธ์ง์ ์ ์ฉํ์ฌ ์๋ณธ ๋ฐ์ดํฐ์
์
25๋ฐฐ๋ฅผ ์ฆ๋ํ์ฌ ๋ณธ ์ฐ๊ตฌ์ ์ฌ์ฉํ์๋ค. AutoAugment๋ Cifar10, ImageNet, ๊ทธ๋ฆฌ๊ณ SVHN ์ธ ๊ฐ์ง ์ฃผ์ ๋ฐ์ดํฐ์
์ ๋ํด ํนํ๋
์ด๋ฏธ์ง ์ฆ๋์ ์ฑ
์ ์ ์ํ๋ค. Cifar10 ๋ฐ์ดํฐ์
์ 32x32 ํฝ์
ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ก, ์ด 10๊ฐ์ ํด๋์ค๊ฐ ์๋ค(13). ๋ฐ๋ฉด, ImageNet์ 1,000๊ฐ ์ด์์ ํด๋์ค์ ํจ๊ป 140๋ง ๊ฐ๊ฐ ๋๋ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๊ณ ์๋ค(14). SVHN์ Google Street View์์ ์ถ์ถํ ์ซ์ ์ด๋ฏธ์ง๋ก, ๋๋ต 10๋ง ๊ฐ์ ์ด๋ฏธ์ง๋ก ์ด๋ฃจ์ด์ ธ ์๋ค(15). ๋ณธ ์ฐ๊ตฌ์์๋ ์ด ์ค์์๋ ๊ฐ์ฅ ๋ฐฉ๋ํ ์ด๋ฏธ์ง์ ํด๋์ค๋ฅผ ๊ฐ์ง ImageNet์ ์ฆ๋์ ์ฑ
์ ํ์ฉํ์๋ค.
3. ๋ฅ๋ฌ๋ ๋ชจ๋ธ๊ณผ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ
3.1 ConvNeXt
ViT(Vision Transformer)๋ 2020๋
๋ฑ์ฅํด ๊ธฐ์กด CNN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ์ด๋ค(16). ํ์ง๋ง Transformer๋ ์
๋ ฅ์ ์์น๊ฐ ๋ณํ๋ฉด ์ถ๋ ฅ์ ์์น๊ฐ ๋ณํ ์ ๋ณด๋ฅผ ์ ์งํ๊ธฐ ํ๋ค์ด Inductive bias๊ฐ CNN ๊ธฐ๋ฐ ๋ชจ๋ธ์
๋นํด ์๋์ ์ผ๋ก ๋ถ์กฑํ ๋ชจ์ต์ ๋ณด์๋ค. ConvNeXt๋ Inductive bias๋ฅผ ์ํด CNN์ด ์ค์ํ๋ค๋ ์ ์ ํ์ฉํ์๋ค(17). Resnet-50์ ์ต์ ํ ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ์ฌ๋ฆฌ๊ณ ์ ํ์๋ค(18). Mixup, Cutmix, Random Augment์ ๊ฐ์ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ๋ง ์๋๋ผ Stochastic depth, label smoothing๊ณผ
๊ฐ์ ๊ธฐ๋ฒ๋ ์ ์ฉํ์๋ค. ๋ํ Swin transformer์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ Stage๋ง๋ค ๋ธ๋ก์ ๊ฐ์๋ฅผ 3:4:6:3์์ 3:3:9:3์ผ๋ก ๋ณํํ๊ณ
Stem ๋ถ๋ถ์์๋ ์ฑ๋ฅ์ ํฅ์ํ๊ธฐ ์ํด ViT์ Patchify layer์ ํํ์ธ 4x4 Convolution, 4 stride๋ก ๋ณ๊ฒฝํ์๋ค.
๋ํ ResNeXt์ ResNeXt-ify๋ฅผ ์ ์ฉํ์๋ค. 256์ฐจ์ ์
๋ ฅ์ ์ด 32 path๋ก ๋๋๊ณ ์ฑ๋ ์๋ฅผ 4๋ก ์ค์ธ ํ ๋ค์ 256์ฑ๋๋ก ํค์
๋ชจ๋ path๋ฅผ ํฉ์น๊ณ Depthwise separable convolution์ ์ถ๊ฐ๋ก ๋ฐฐ์นํ์๋ค. ์ด๋ฅผ ํตํด ์ฐ์ฐ๋์ ์ค์ด๊ณ ์ฑ๋ฅ์ ํฅ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ
๋ฌ์ฑํ์๋ค. ๋ค์ ๊ทธ๋ฆผ 2๋ ResNeXt-ify์ ์์ธํ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ด์๋ค.
๊ทธ๋ฆผ. 2. ConvNeXt์ ResNeXt-ify์ ์์ธ ๊ตฌ์กฐ
Fig. 2. Detailed structure of ResNeXt-ify by ConvNeXt
ํ์ฑํ ํจ์๋ ์ ๊ฒฝ๋ง์ ๊ฐ ๋
ธ๋์์ ๋น์ ํ์ ์ถ๊ฐํ๋ค. ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ์๋ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ค์ด๊ณ ๊ณ์ฐ ํจ์จ์ฑ์ ๋์ด๊ณ ์ ์ผ๋ฐ CNN๋ชจ๋ธ๋ณด๋ค ๋ ์ ์
ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ฅผ ConvNeXt์ ์ ์ฉํ๊ณ ์ 1x1 Convolution layer๋ฅผ ์ ์ธํ๊ณ ๋จ์ ๋ ์ด์ด์์ ํ์ฑํ ํจ์๋ฅผ ์ ๊ฑฐํ์๋ค.
๋ํ ๋ฐฐ์น ์ ๊ทํ ์๋ฅผ ์ค์ด๊ณ ๋ ์ด์ด ์ ๊ทํ๋ฅผ ์ถ๊ฐํ์ฌ ์ฑ๋ฅ์ ํฅ์ํ๊ณ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋๋ก ํ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ 21,000๊ฐ์ ํด๋์ค์
1,000๋ง ์ฅ ์ด์์ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋ ImageNet21k ๋ฐ์ดํฐ์
์ ์ ์ฉํ์ฌ ์ฌ์ ํ๋ จ๋ ConvNeXt-B ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ค.
3.2 Title
ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ๋ ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ผ๋ก ์ฑ๊ณต์ ๊ฑฐ๋๋ค. ํธ๋์คํฌ๋จธ๋ ๋จ์ด๋ ๋ฌธ์ฅ์ ๊ด๊ณ๋ฅผ ํ์
ํ ์ ์๊ฒ ํด์ฃผ๋ ๊ตฌ์กฐ๋ก ์ด๋ฅผ ํตํด
๋ฌธ์ฅ์ ๋ฌธ๋งฅ์ ์ดํดํ ์ ์๋ค. ์ด๋ฌํ ์ ์ ์์ฉํ์ฌ ํธ๋์คํฌ๋จธ์ Vision task๋ฅผ ์ ๋ชฉํ๋ ค๋ ์๋๊ฐ ์ํ๋์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก ViT(Vision
Transformer)๊ฐ ๋ฑ์ฅํ์๋ค. ViT๋ ๊ธฐ์กด์ CNN ๋ชจ๋ธ๊ณผ๋ ๋ค๋ฅด๊ฒ ์ด๋ฏธ์ง๋ฅผ ํจ์น ๋จ์๋ก ๋๋์ด ํธ๋์คํฌ๋จธ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ค. ๊ฐ ํจ์น๋
์ด๋ฏธ์ง์ ์ผ๋ถ๋ถ์ ๋ํ๋ด๋ฉฐ, ์ด ํจ์น๋ค ์ฌ์ด์ ๊ด๊ณ๋ฅผ ํธ๋์คํฌ๋จธ๊ฐ ํ์ตํ๊ฒ ๋๋ค. ๋ค์ ๊ทธ๋ฆผ 3์ ViT์ ์ ์ฒด์ ์ธ ํ๋ฆ์ ๋ํ๋ด์๋ค.
๊ทธ๋ฆผ. 3. ViT ์ํคํ
์ณ ์ธ๋ถ ๊ตฌ์กฐ
Fig. 3. ViT architecture detailed structure
ViT๋ ํจ์น ์๋ฒ ๋ฉ(Patch Embedding)์ ํตํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ์ ํจ์น๋ก ๋๋๊ณ ์ด๋ฅผ 1์ฐจ์ ๋ฒกํฐ๋ก ๋ณํํ ๋ค์ ์์น ์๋ฒ ๋ฉ(Position
Embedding)์ผ๋ก ๊ฐ ํจ์น์ ์์น ์ ๋ณด๋ฅผ ์ถ๊ฐํ๋ค. ๋ณํ๋ 1์ฐจ์ ์
๋ ฅ ๋ฒกํฐ๋ ํธ๋์คํฌ๋จธ ์ธ์ฝ๋์์ Feed- forward ์ ๊ฒฝ๋ง๊ณผ Multi-head
Self-Attention์ ํตํด ์ด๋ฏธ์ง์ ๋ณต์กํ ํจํด๊ณผ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ค. ๋ง์ง๋ง์ผ๋ก MLP(Multi Layer Perceptron, ๋ค์ธต ํผ์
ํธ๋ก )
Head์์ ์
๋ ฅ ์ด๋ฏธ์ง์ ํด๋์ค๋ฅผ ๋ถ๋ฅํ๋ ์์
์ ์ํํ๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ConvNeXt ๋ชจ๋ธ๊ณผ ๋น๊ตํ๊ธฐ ์ํ์ฌ 21,000๊ฐ์ ํด๋์ค์ 1,000๋ง
์ฅ ์ด์ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋ ImageNet21k๋ก ์ฌ์ ํ๋ จ๋ ViT-B ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ค.
3.3 Title
ํ์ฌ ๋ง์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จ ์์ค์ ๊ทธ๋ํ๋ ๋ณต์กํ๊ณ ๋ ์นด๋ก์ด ํํ๋ฅผ ๊ฐ์ง๋ค. ์ ์ญ ์ต์ ์์ค์ ์ฐพ๊ธฐ ์ํด ์ผ๋ฐํ๊ฐ ํ์์ ์ธ๋ฐ, SAM(Sharpness
Aware Minimization) ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์์ค ๊ฐ์ ๋ฎ์ถ๊ณ ๋ ์นด๋ก์ด ํํ ๋ํ ์ต์ํํจ์ผ๋ก์จ ์ผ๋ฐํ๋ฅผ ๊ฐ์ ํ์๋ค(19). SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์์ฐจ์ ์ผ๋ก ํํํ๋ฉด ๋ค์ ์๊ณผ ๊ฐ๋ค. $W(t)$๋ ํ์ฌ ๊ฐ์ค์น์ด๋ฉฐ, $\nabla_{W}L(W_{t},\:X,\:Y)$๋
$W(t)$์์์ ์์ค ํจ์ $L$์ ๋ํ ๊ธฐ์ธ๊ธฐ์ด๋ค. $X$ ๋ฐ $Y$๋ ์
๋ ฅ ๋ฐ์ดํฐ์ ํด๋น ๋ ์ด๋ธ์ด๋ค. $\rho$๋ ๊ต๋์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ,
$\eta$๋ ํ์ต๋ฅ (LR, Learning Rate)์ด๋ค.
$W(t)$์์ ์์ค์ด ์ต๋ํ๋๋๋ก ํ๋ ๊ต๋(perturbation)์ ์ฐพ๋๋ค. ์ด ๊ต๋์ ์ ์ฉํ ํ์ ๊ฐ์ค์น๋ฅผ $W_{adv}$๋ผ๊ณ ํ๋ค. ์ดํ
$W_{adv}$์์ ์์ค์ด ์ต์ํ๋๋๋ก ํ๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐ ํ ์๋ ๊ฐ์ค์น $W(t)$์์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ํํ์ฌ ๊ฐ์ค์น๋ฅผ ์
๋ฐ์ดํธํ๋ค. ์ด๋ฌํ
์ ์ฐจ๋ฅผ ํตํด SAM์ ํ๋ จ ์ค์ ๋ชจ๋ธ์ ๊ฐ์ค์น์ ๊ต๋์ ์ฃผ์ด ์์ค์ ๋ ์นด๋ก์ด ๋ถ๋ถ์ ์ธ์ํ๊ณ ์ด๋ฅผ ์ต์ํํ๋ค.
4. ์ฐ๊ตฌ๊ฒฐ๊ณผ
๋ณธ ์ฐ๊ตฌ๋ ConvNeXt์ ViT์ SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ๋น์ ์๊ณผ ์ ์ ์๋ด์๊ฒฝ ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅํ๊ณ ์ ํ์๋ค. ํ์ต์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ณ ์
ํ์ต ๋ฐ ๊ฒ์ฆ ์์ค๊ฐ์ด ๋ ์ด์์ ์๋ ด์ ๋ณด์ด์ง ์์ ๋ ์ข
๋ฃํ์๋ค. ๋ํ ์ฑ๋ฅ์ ํฅ์ํ๊ณ ์ ์ฆ๋์ ์ฑ
์ธ AutoAugment๋ฅผ ์ ์ฉํ์ฌ ํ์ต ๋ฐ์ดํฐ๋ฅผ
25๋ฐฐ ์ฆ๋ํ๊ณ ์๋ณธ ๋ฐ์ดํฐ์
์ ๋ํ์๋ค. ์๋ณธ ๋ฐ์ดํฐ์
๊ณผ ์ฆ๋ํ ๋ฐ์ดํฐ์
์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ 2์ ์์ธํ ๋ํ๋ด์๋ค.
ํ 2. ์๋ด์๊ฒฝ ์ด๋ฏธ์ง ํ์ต ์๋ณธ ๋ฐ ์ฆ๋ ๋ฐ์ดํฐ์
๊ตฌ์ฑ(๋จ์ : ์ฅ)
Table 2. Constructing original and augmented gastroscopy image learning dataset
Type
|
Number of Training images
|
Original
|
Augment
|
ABN
|
180
|
4,680
|
NOR
|
180
|
4,680
|
์ด๋ฅผ ํตํด ๊ฐ ๋ชจ๋ธ์ด ๋น์ ์๊ณผ ์ ์ ์ด๋ฏธ์ง์ ๋ฏธ์ธํ ๋ณํ์ ๋ค์ํ ํจํด์ ํ์ตํ์ฌ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ณ CADx์ ์ฑ๋ฅ์ ํฅ์ํ ์ ์๋๋ก ํ์๋ค.
ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ๋น๊ตํ๊ธฐ ์ํด ๋ชจ๋ธ๋ง๋ค ์๋ณธ ๋ฐ์ดํฐ์
๊ณผ ์ฆ๋ ๋ฐ์ดํฐ์
์ ์ ์ฉํ์ฌ ํ
์คํธ๋ฅผ ์งํํ์๋ค. ๋ถ๋ฅ ์ฑ๋ฅ์ผ๋ก๋ ์ ๋ฐ๋(Precision),
๋ฏผ๊ฐ๋(Sensitivity), F1-score, ์ ํ๋(Accuracy)๋ฅผ ํ๊ฐ์งํ๋ก ์ฌ์ฉํ์๋ค. ์ ๋ฐ๋๋ ๋ชจ๋ธ์ด ๋ถ๋ฅํ ๋น์ ์ ์ด๋ฏธ์ง ์ค ์ค์
๋น์ ์ ์ด๋ฏธ์ง์ธ ๊ฒฝ์ฐ์ ๋น์จ์ด๋ค. ๋ฏผ๊ฐ๋๋ ์ ์ฒด ๋น์ ์ ํด๋์ค ์ค ๋ชจ๋ธ์ด ๋น์ ์ ํด๋์ค ๋ถ๋ฅ์ ์ฑ๊ณตํ ๋น์จ์ ์๋ฏธํ๋ค. F1-score๋ ์ ๋ฐ๋์
๋ฏผ๊ฐ๋์ ์กฐํํ๊ท ์ผ๋ก ํธํฅ๋ ํ๊ฐ๋ฅผ ๋ฐฉ์งํ๋ค. ์ ํ๋๋ ์ ์ฒด ์ด๋ฏธ์ง ์ค ๋ชจ๋ธ์ด ์ ํํ๊ฒ ๋น์ ์๊ณผ ์ ์์ ๋ถ๋ฅํ ๋น์จ์ ์๋ฏธํ๋ค. ํ 3์ ์๋ณธ ๋ฐ์ดํฐ์
๋ฐ ์ฆ๋ํ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ต๋ ConvNeXt ๋ชจ๋ธ๊ณผ SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ๋ชจ๋ธ์ ๋น์ ์๊ณผ ์ ์ ํ
์คํธ ์ด๋ฏธ์ง ๋ถ๋ฅ ๊ฒฐ๊ณผ์ด๋ค.
ํ 3. ConvNeXt ๋ชจ๋ธ์ ์ธ๋ถ ๋ถ๋ฅ ์ฑ๋ฅ
Table 3. Detailed classification performance of ConvNeXt modelv
Model
|
Type
|
Abnormal vs Normal
|
Original
|
AutoAugment
|
ConvNeXt
-Base
|
Precision
|
0.7770
|
0.7756
|
Sensitivity
|
0.7167
|
0.7583
|
F1-score
|
0.7456
|
0.7668
|
Accuracy
|
0.7167
|
0.7583
|
Precision
|
0.9585
|
0.9833
|
ConvNeXt
-Base
(SAM Optimizer)
|
Sensitivity
|
0.9583
|
0.9833
|
F1-score
|
0.9584
|
0.9833
|
Accuracy
|
0.9583
|
0.9833
|
๋ชจ๋ ํ๊ฐ์งํ๋ฅผ ๋น๊ตํ์ ๋, ConvNeXt์ SAM์ ์ ์ฉํ์์ ๊ฒฝ์ฐ ๋งค์ฐ ํฐ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ณด์๋ค. ์ด๋ ์๋ฃ ์์์ ํตํด ๊ฐ๋ฐํ CADx์ ํ๊ฐ์งํ๋
์ ํ๋๋ณด๋ค ๋ฏผ๊ฐ๋๊ฐ ๋ ์ค์ํ ์๋ฏธ๋ฅผ ๋ดํฌํ๋ค. ์๋ฃ ๋ฐ์ดํฐ๋ ํด๋์ค๋ง๋ค ํ์์ ๋ถํฌ๊ฐ ๋ฌ๋ผ ๋ถ๊ท ํํ ๋ฐ์ดํฐ์
์ด ํ์ฑ๋ ์ ์์ผ๋ฏ๋ก ์ ํ๋๋ง์ผ๋ก
ํ๊ฐํ๋ฉด ์ ๋ขฐ๋๊ฐ ๊ฐ์ํ๋ค. ์ค์ ๋ก๋ ๋น์ ์์ด๋ ์ ์์ผ๋ก ๋ถ๋ฅํ ๊ฒฝ์ฐ, ํ์์ ์ ๋ณ๋ณ์ ๋ฐ๊ฒฌ์ด ๋ฆ์ด ์น๋ฃ ์๊ธฐ๋ฅผ ๋์น ์ ์๋ค. ๋ฐ๋ผ์ ๋ฏผ๊ฐ๋๋
์ค์ํ ํ๊ฐ์งํ๋ก ์ฌ์ฉ๋๋ค. ํ์ง๋ง ๋ณธ ์ฐ๊ตฌ์์๋ ๋ฐ์ดํฐ์
์ ๊ฐ ํด๋์ค ์ฅ ์๊ฐ ๋์ผํ๋ฏ๋ก ๋ฏผ๊ฐ๋์ ์ ํ๋๊ฐ ๋์ผํ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. SAM์ ์ ์ฉํ์ง
์์ ConvNeXt์ ๋ฏผ๊ฐ๋๋ฅผ ๋ณด๋ฉด ์๋ณธ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ตํ์์ ๋๋ 0.7167์ ๋ฌ์ฑํ์๊ณ ์ฆ๋ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ตํ์์ ๋ 0.7583์ ๋ฌ์ฑํ์ฌ
์๋ณธ ๋ฐ์ดํฐ์
๋๋น 4.16%์ ์ฑ๋ฅ ํฅ์์ ๋ณด์๋ค. ๋ฐ๋ฉด์ Original ๋ชจ๋ธ์ SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์์ ๊ฒฝ์ฐ, 0.9583์์ 0.9833์ผ๋ก
SAM์ ์ ์ฉํ์ง ์์ ConvNeXt๋ณด๋ค ์ฑ๋ฅ ํฅ์ ํญ 2.5%๋ก ์๋ณธ ๋ฐ์ดํฐ์
๋๋น ํฅ์ํญ์ ์ ์ง๋ง Original ๋ชจ๋ธ ๋๋น 24.16%, 22.5%์
์ฑ๋ฅ ํฅ์ํญ์ ๋ณด์๋ค. ๋ค์
ํ 4๋ ViT-Base ๋ชจ๋ธ์ ์ธ๋ถ ๋ถ๋ฅ ์ฑ๋ฅ์ ๋ํ๋ด์๋ค.
ํ 4. ViT ๋ชจ๋ธ์ ์ธ๋ถ ๋ถ๋ฅ ์ฑ๋ฅ
Table 4. Detailed classification performance of ViT model
Model
|
Type
|
Abnormal vs Normal
|
Original
|
AutoAugment
|
ViT
-Base
|
Precision
|
0.9520
|
0.9520
|
Sensitivity
|
0.9500
|
0.9500
|
F1-score
|
0.9510
|
0.9510
|
Accuracy
|
0.9500
|
0.9500
|
ViT-Base
(SAM Optimizer)
|
Precision
|
0.7769
|
0.9595
|
Sensitivity
|
0.7750
|
0.9583
|
F1-score
|
0.7760
|
0.9589
|
Accuracy
|
0.7750
|
0.9583
|
SAM์ ์ ์ฉํ์ง ์์ ViT์ Sensitivity๋ฅผ ํ์ธํ๋ฉด ์๋ณธ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ตํ์์ ๋ 0.9500์ ๋ฌ์ฑํ์์ผ๋ฉฐ ์ฆ๋ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ตํ์์
๋ ๋ํ ์๋ณธ ๋ฐ์ดํฐ์
๊ณผ ๋์ผํ ์ฑ๋ฅ์ด ๋์๋ค. SAM์ ์ ์ฉํ ViT์ ๊ฒฝ์ฐ ์๋ณธ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ตํ์์ ๋๋ 0.7750์ผ๋ก ๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ์
๋ณด์ฌ์ฃผ์์ง๋ง ์ฆ๋ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ตํ์์ ๋ 0.9583์ผ๋ก ์๋ณธ ๋ฐ์ดํฐ์
๋๋น 18.33% ์ฑ๋ฅ ํฅ์ํญ์ ๋ณด์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ์ฆ๋ ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ๊ณ
SAM์ ์ ์ฉํ ๋ชจ๋ธ์ด ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๊ฐ์ง์ ์ ์ ์๋ค.
5. ๊ฒฐ ๋ก
๋ณธ ์ฐ๊ตฌ์์๋ ๊ฒฝ์๊ตญ๋ฆฝ๋ํ๊ต๋ณ์ ์ํ๊ธฐ๋ด๊ณผ์์ ์์งํ ๋น์ ์ ๋ฐ ์ ์ ์๋ด์๊ฒฝ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์ฌ ๋น์ ์๊ณผ ์ ์ ํด๋์ค ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅํ๋ CADx
์์คํ
์ SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ํฅ์ํ๋ ์ฐ๊ตฌ๋ฅผ ์งํํ์๋ค. ๋ณธ ์ฐ๊ตฌ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์
์ ์๋ฃ ์์์ผ๋ก ์์ง์ด ์ด๋ ค์ ์ด์ ๋ฐ๋ผ
์์ ๋ฐ์ดํฐ์
์ด ๊ตฌ์ฑ๋์๋ค. ์ด๋ ํ์ตํด์ผ ํ๋ ๋ค์ํ ๋ณ๋ณ์ ํน์ง์ด ๋ถ์กฑํ์ฌ ๊ณผ์ ํฉ์ ์ ๋ฐํ๊ณ ์ฑ๋ฅ์ ํ๋ฝํ ์ ์๋ค. ์ด๋ฌํ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด
๊ตฌ๊ธ์์ ์ ์ํ AutoAugment๋ฅผ ํ์ฉํ์ฌ ์๋ณธ ๋ฐ์ดํฐ์
์ ์ฆ๋ํ์๋ค. ์ด๋ฅผ ํตํด ์ถฉ๋ถํ ํจํด๊ณผ ๋ณ๋ณ์ ํน์ง์ ํ์ต์ ์ ์ฉํ์๋ค.
์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ์ธ ConvNeXt์ ViT์ SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ์๋ณธ ๋ฐ์ดํฐ์
๊ณผ ์ฆ๋ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ตํ ๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ๊ฐ
๋น๊ตํ์๋ค. ์๋ณธ ๋ฐ์ดํฐ์
์ ๋ํ ConvNeXt์ ViT์ SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์์ ๋ Original ๋ชจ๋ธ์ ๋นํด ConvNeXt๋
24.16% ๋์ ์ฑ๋ฅ์ ๋ณด์์ง๋ง ViT๋ชจ๋ธ์์๋ 17.5% ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์๋ค. ํ์ง๋ง ImageNet ์ฆ๋์ ์ฑ
์ ์ ์ฉํ AutoAugment ์ฆ๋
๋ฐ์ดํฐ์
์ ๋ํ ConvNeXt์ ViT์ SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ๋ชจ๋ธ์ ๋ฏผ๊ฐ๋๋ Original ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ ConvNeXt๋ 22.5%
๋์ ์ฑ๋ฅ์ ๋ณด์๊ณ , ViT ๋ํ 0.83% ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด๋ฅผ ํตํด SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ด CADx ์ฑ๋ฅ์ ์ถฉ๋ถํ ํฅ์ํ ์ ์๋ค๋ ์ฌ์ค์
์
์ฆํ์๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ CNN ๊ธฐ๋ฐ์ ๋ชจ๋ธ๊ณผ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ํตํด CADx์ ์ฑ๋ฅ์ ํฅ์ํ๊ณ ์ ํ์๋ค. ํ์ง๋ง SAM
Optimizer๋ฅผ ์ ์ฉํจ์ ์์ด ํ์ต๋ฅ ๋ฐ Rho ๊ฐ๊ณผ ๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๋ณ๋๋ก ์กฐ์ ํ์ง ์์ ์๋ฒฝํ SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ์ ๋์ด๋๋ค๊ณ
๋ณด๊ธฐ์ ์ด๋ ค์ด ์ ์ด ์กด์ฌํ๋ค. ์ถํ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ์ ์ ๊ฐ์ ํ๊ธฐ ์ํ์ฌ ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฏธ์ธ์กฐ์ ์ ํตํด SAM ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ์ ๋์ฑ ํฅ์ํ
์ ์๋ ์ฐ๊ตฌ๋ฅผ ์งํํ ์์ ์ด๋ค. ๋ํ, ๊ธฐ๋ณธ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก SGD(Stochastic Gradient Descent)๋ฟ๋ง ์๋๋ผ ์ต์ ์ต์ ํ
์๊ณ ๋ฆฌ์ฆ์ ์ถ๊ฐ๋ก ์ ์ฉํ์ฌ ๋ ๋น ๋ฅด๊ฒ ์์ค๊ฐ์ ์๋ ดํ ์ ์๋๋ก ์ถ๊ฐ ์ฐ๊ตฌ๋ฅผ ์งํํ ์์ ์ด๋ค. ๋ํ ImageNet ๊ธฐ๋ฐ์ ์ฆ๋์ ์ฑ
์ ์ ์ฉํ AutoAugment๋
๋น์ ์ ๋ฐ ์ ์ ์๋ด์๊ฒฝ ์ด๋ฏธ์ง์ ์ ํฉํ ์ฆ๋์ ์ฑ
์ด๋ผ๊ณ ๋ณด๊ธฐ์ ํ๋ค๋ค. ์ด๋ฌํ ์ ์ ๋ฐํ์ผ๋ก ์ถํ ์ฐ๊ตฌ์์๋ ๊ณผ์ ํฉ์ ๋ง๊ณ ๋ค์ํ ์ ๋ณ๋ณ์ ํจํด์
ํ์ตํ ์ ์๋ ์๋ด์๊ฒฝ ์ด๋ฏธ์ง์ ๋ง๋ ๋ฐ์ดํฐ ์ฆ๋์ ์ฑ
์ ๊ฐ๋ฐํ๋ ์ฐ๊ตฌ๋ฅผ ์ํ ์์ ์ด๋ค.
Acknowledgements
This research was supported by Basic Science Research Program through the National
Research Foundation of Korea(NRF) funded by the Ministry of Education (No. 2022R1I1A3053872)
and was supported by "Regional Innovation Strategy (RIS)" through the National Research
Foundation of Korea(NRF) funded by the Ministry of Education(MOE)(2022RIS-005).
References
F. Bray, J. Ferlay, I. Soerjomataram, R. L. Siegel, L. A. Torre, A. Jemal, 2018, Global
Cancer Statistics 2018: GLOBOCAN Estimates of Incidence and Mortality Worldwide for
36 Cancers in 185 Countries, Int. J. Cancer, Vol. 144, pp. 1941-1953
Ministry of Health and Welfare, 2023, Annual report of the National Cancer Registration
Program 2020, Ministry of Health and Welfare
Korea National Cancer Center, 2021, Cancer trend report through data,
Korean Academy of Medical Sciences, 2021, Annual Report of Medical Subspecialty in
Korea 2021,
O. Attallah, M. Sharkas, 2021, GASTRO-CADx: a three stages framework for diagnosing
gastrointestinal diseases, PeerJ Computer Science, Vol. 7, pp. e423-
F. Mohammad, M. Al-Razgan, 2022, Deep feature fusion and optimization-based approach
for stomach disease classification, Sensors, Vol. 22, No. 7, pp. 2801-
H. Ueyama, 2021, Application of Artificial Intelligence with a Convolutional Neural
Network for Early Gastric Cancer Diagnosis Based on Magnifying Endoscopy with NarrowโBand
Imaging, Journal of Gastroenterology and Hepatology, Vol. 36, No. 2, pp. 482-489
H. Okamoto, Q. Cap, T. Nomura, H. Iyatomi, J. Hashimoto, 2019, Stochastic Gastric
Image Augmentation for Cancer Detection from X-ray Images, Proceedings of the 2019
IEEE International Conference on Big Data, pp. 4858-4863
A. Teramoto, T. Shibata, H. Yamada, Y. Hirooka, K. Saito, H. Fujita, 2022, Detection
and characterization of gastric cancer using a cascade deep learning model in endoscopic
images, Diagnostics, Vol. 12, No. 8, pp. 1996-
Y. Sakai, S. Takemoto, K. Hori, M. Nishimura, H. Ikematsu, T. Yano, H. Yokota, 2018,
Automatic detection of early gastric cancer in endoscopic images using a transferring
convolutional neural network, Proceedings of the 40th Annual International Conference
of the IEEE Engineering in Medicine and Biology Society (EMBC), pp. 4138-4141
M. Kang, S. Kang, K. Oh, 2020, Verification of the Effect of Data Augmentation and
Transfer Learning on the Performance Improvement of CNN-Based Gastroscope Classification/
Segmentation, Proceedings of the Korea Information Science Society Conference, pp.
593-595
E.D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, Q.V. Le, 2019, Autoaugment: Learning augmentation
strategies from data. Proc, In Proceedings of the IEEE/CVF conference on computer
vision and pattern recognition, pp. 113-123
A. Krizhevsky, 2009, Learning multiple layers of features from tiny images, Technical
report
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, L. Fei-Fei, 2009, Imagenet: A large-scale
hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition,
pp. 248-255
Y. Netzer, T. Wang, A. Coates, A. Bissacco, B. Wu, A. Y. Ng, 2011, Reading Digits
in Natural Images with Unsupervised Feature Learning, Neural Information Processing
Systems (NIPS)
A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner,
M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, N. Houlsby, 2020, An
Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv preprint
arXiv:2010.11929
Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, S. Xie, Mar. 2022, A ConvNet
for the 2020s, In Proceedings of the IEEE/CVF conference on computer vision and pattern
recognition, pp. 11976-11986
S. Xie, R. Girshick, P. Dollรกr, Z. Tu, K. He, 2017, Aggregated residual transformations
for deep neural networks, In Proceedings of the IEEE conference on computer vision
and pattern recognition, pp. 1492-1500
P. Foret, A. Kleiner, H. Mobahi, B. Neyshabur, 2020, Sharpness-aware minimization
for efficiently improving generalization, arXiv preprint arXiv:2010.01412
์ ์์๊ฐ
๋ฐ์ฌ๋ฒ (Jae-beom Park)
Jae-beom Park currently working toward B.S and M.S. degree in Interdisciplinary
Graduate Program for BIT Medical Convergence from Kangwon National University, South
Korea.
Min-jun Kim currently working toward the B.S. degree in Electrical and Electronic
Engineering from Kangwon National University, South Korea.
์ํ์(Hyeong-sik Won)
Hyeong-sik Won currently working toward the B.S. degree in Electrical and Electronic
Engineering from Kangwon National University, South Korea.
She received the M.S. and Ph.D. degrees in Internal Medicine from Gyeongsang National
University School of Medicine of Jinju, South Korea in 2008 and 2014, she was a Fellow
at Samsung Medical Center, Sungkyunkwan University School of Medicine, Seoul, South
Korea from 2009 to 2010.
During 2011-2015, she was a professor at Samsung Changwon Hospital, Sungkyunkwan
University School of Medicine, Changwon, South Korea.
She is currently a professor at Gyeongsang National University School of Medicine
and Gyeongsang National University Hospital, Jinju, Korea.
์กฐํ์ข
(Hyun-chong Cho)
Hyun-chong Cho received his M.S. and Ph.D. degrees in electrical and computer engineering
from the University of Florida, USA, in 2009.
During 2010โ2011, he was a Research Fellow at the University of Michigan, Ann Arbor,
USA.
From 2012 to 2013, he was a Chief Research Engineer at LG Electronics, South Korea.
He is currently a Professor with the Department of Electronics Engineering and Interdisciplinary
Graduate Program for BIT Medical, Kangwon National University, South Korea.