이한성
(Han-sung Lee)
1iD
조현종
(Hyun-chong Cho)
†iD
-
(Dept. of Interdisciplinary Graduate Program for BIT Medical Convergence, Kangwon National
University, Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Gastirc disease, CADx, Deep Learning, Grad-CAM
1. 서 론
통계청에서 발표한 2021년 국내 사망원인 통계에 따르면 암으로 인한 사망률은 26%로 사망원인 중 1위를 차지하였고, 암은 2021년뿐만 아니라
10년 이상 전부터 국내 사망률 1위를 기록하고 있다(1). 또한, 국내 암 환자 수는 노인계층 인구 증가 및 비만 유병률의 증가 등을 이유로 2015년 이후로 지속적으로 증가하는 추세를 보이고 있어 암
사망률과 발병률을 감소시키기 위한 대책 마련이 필요하다 볼 수 있다. 특히, 위암은 2015년부터 2018년까지 발병률 1위를 기록하였기에 여러 암
중에서도 위암 관련 연구의 필요성이 높은 암에 해당한다(2). 암 발생자 수와 위암 발병률에 관한 자세한 지표는 그림 1을 통해 나타내었다. 위암은 식이 요인, 흡연, 비만 등을 원인으로 볼 수 있으나 정확한 원인을 정의하기가 어렵고 병변이 상당 부분 진행되기 전까지
특별한 전조증상이 없다. 따라서 정기적인 위 내시경 검사를 통해 진단받기 전까지는 암의 발생을 파악할 수 없고 팽만감, 소화불량 등의 증상이 나타날
수 있지만 이는 다른 위장질환과 구분이 어려워 대부분의 환자들이 적절한 치료시기를 놓치게 된다.
그림. 1. 국내 암 환자 통계
Fig. 1. Statistics of cancer cases in Korea
또한, 조기 위암의 경우 위 내시경 검사 시 전문의조차 육안으로 구분이 어려울 정도로 점막 및 혈관의 미세한 변화만이 동반되기에 숙련도에 따라 진단
정확성의 편차가 발생할 수 있고 사람의 업무 특성상 전문의의 피로도와 같은 외부적 요인으로 인해 진단 정확성이 감소할 수 있다(3). 이러한 이유로 의사를 보조하여 정확한 진단을 가능하게 하는 딥러닝 기반 컴퓨터 보조 진단 시스템인 CADx(Computer-aided diagnosis)
관련 연구가 이루어지고 있다.
딥러닝 기반 CADx 연구는 위 내시경 이미지에서 각 질환에 해당하는 병변의 특징을 학습함으로써 질환 발생 유무를 판단하는 분류(Classification)
연구가 수행되었다(4,5,6). 기존 연구에서는 조기 위암 환자와 정상 환자의 위 내시경 영상 데이터를 수집 후 화면 흔들림과 같은 외부적 요인으로 인해 품질이 감소된 이미지는
제거하였다. 학습 데이터에서는 클래스 간의 개수 불균형을 해소하기 위해 회전, 반전, 밝기 조절 등의 영상처리적 기법을 적용하여 증대하였다. 또한,
학습된 딥러닝 모델과 전문의의 진단 정확도의 비교를 진행하였고, 결과적으로 딥러닝 모델이 전문의와 유사하거나 오히려 더 높은 정확도를 보이면서 위
병변을 위한 CADx가 의사의 진단을 보조하기에 충분한 성능을 보임을 알 수 있다. 위 질환을 진단할 뿐만 아니라 객체 탐지 네트워크를 통해 병변의
위치를 탐지하는 연구도 이루어졌다(7). 기존 연구에서는 실시간 탐지를 위해 객체 탐지 알고리즘 중 대표적인 YOLO 계열 알고리즘을 사용하였고 그중에서 YOLOv5를 통해 학습이 이루어졌다.
총 3,747명의 환자에게서 31,117장의 이미지를 수집하여 연구를 수행하였고 결과적으로 mAP는 0.898, 47 FPS의 성능을 보이면서 실시간
탐지가 가능함을 보임과 동시에 준수한 성능을 유지하는 것이 가능함을 나타내었다.
이미지 내 병변을 분할하고 분할된 병변에 대해서 분류를 수행하는 기존 연구도 존재한다(8,9). 분할 연구는 객체 탐지 연구와 마찬가지로 병변의 위치 파악이 가능하고 데이터 증대 등에 활용될 수 있는 가능성이 존재한다. 하지만 딥러닝 모델
학습 시 모델이 예측한 병변의 위치, 영역과 비교할 Ground Truth가 존재해야 한다. Ground Truth는 전문의의 수작업으로 이루어져야
하기에 분류 연구에 비해 수집 과정에서 상대적으로 많은 인력과 시간이 소요되게 된다.
의료 데이터의 수집 절차상 어려움을 언급하며 GAN(Generative Adversarial Network)를 통해 데이터를 증대 후 병변의 분할을
진행한 연구가 존재한다(10). 기존 연구에서는 GAN을 활용하여 새로운 이미지를 생성할 뿐만 아니라 밝기 조절, 노이즈 추가 등의 방식을 적용하여 추가적인 데이터 증대를 진행하였다.
전반적인 기존 연구를 살펴보면 의료데이터는 다른 분야의 데이터에 비해 방대한 양의 수집이 어렵기에 수집된 데이터로 최대한의 효율을 내고자 데이터 증대를
수행함을 알 수 있다. 데이터의 품질과 양이 성능에 중요한 영향을 미치는 딥러닝 학습에서 이러한 연구 방식은 효과적인 방식이라 볼 수 있다.
본 연구에서는 조기위암과 정상의 분류뿐만 아니라 위염, 용종 등의 질환을 포함한 위 질환과 정상을 분류하는 CADx 개발을 목표로 하였다. CADx의
학습을 위해 정상 위 내시경과 8가지 위 질환 이미지를 수집하였지만 위 질환 이미지는 발병률에 따라 질환별 개수 차이가 존재한다. 상대적으로 개수가
적은 질환은 CADx가 정확한 학습을 진행할 수 없기에 전체 데이터셋에 AutoAugment 증대 정책 중 하나인 Cifar10 증대 정책을 적용함으로써
데이터 부족 문제를 보완하였다. 그 후 원본 데이터셋과 증대 데이터셋으로 학습한 모델의 성능을 비교하여 본 연구에서 적용한 증대정책이 위 질환 분류
성능 향상에 효과적임을 보이고자 하였다. 또한, 딥러닝 모델의 관심 영역을 시각화할 수 있는 Grad-CAM(Gradient-weighted Class
Activation Map)을 활용하여 의사의 라벨링이 없더라도 병변의 위치를 파악할 수 있는 CADx 연구를 진행하였다.
2. 본 론
의료데이터에 해당하는 위 내시경 이미지는 수집 과정에서 환자 개인의 동의와 임상 시험 심사 위원회 (IRB, Institutional Review
Board)의 승인이 요구된다. 따라서 본 연구에 활용된 데이터셋은 국립 경상대학교 병원의 소화기내과를 통해 수집되었고 모든 데이터셋은 IRB의 승인을
받은 후 수집되었다. 추가로 전체 데이터셋은 조직 검사를 수행 및 검증하는 과정을 통해 데이터의 신뢰도를 유지하였다. 위 내시경 검사는 목적에 따라
백색광 내시경, 협대역 영상 내시경 등이 존재하지만 본 연구에서는 일반적으로 사용되는 백색광 내시경을 활용하여 데이터셋을 구성하였다.
2.1 학습 데이터셋 구성
수집된 데이터셋은 총 192명의 환자로부터 정상 이미지 600장과 비정상 이미지 600장을 수집하여 총 1,200장으로 데이터셋을 구성하였다. 비정상
질환에는 조기위암을 포함하여 위염, 종양, 궤양, 용종, 출혈, 황색종, 혈전 등이 존재한다. 의료 데이터를 다루는 연구에서는 병변의 구성뿐만 아니라
환자의 구성이 중요한 요소이다. 한 환자로부터 수집된 이미지는 동일한 병변에 대해 유사한 여러 장의 이미지를 포함할 수 있다. 따라서 CADx의 신뢰도
높은 성능 평가를 진행하기 위해서는 각 환자는 학습과 테스트 중 한 범주에만 포함되어야 한다. 본 연구의 데이터셋을 볼 때 각 환자마다 최소 1장부터
최대 18장의 이미지가 수집되었다. 결과적으로 본 연구에서 모든 환자는 학습과 테스트 중 한 범주에만 해당하는 조건 하에 무작위로 구성하였다. 최종적으로
학습과 테스트에 96명씩 분배되었고 각 범주 내에서 클래스마다 48명씩 300장으로 구성되었다. 자세한 데이터셋 구성은 표 1에 나타내었다.
표 1. 학습 데이터셋 구성(단위 : 장)
Table 1. Configuration of train dataset
2.2 데이터셋 증대
딥러닝 모델은 다양한 위 질환 및 여러 병변의 모습을 학습해야 정확한 특징 학습이 이루어져 과적합을 방지하고 높은 성능을 보일 수 있다. 하지만 위
내시경 이미지는 수집 절차가 어려울 뿐만 아니라 발병률에 따라 수집이 원활하지 않고 이에 따라 클래스 간 개수 불균형이 발생할 수 있다. 실제로 본
연구의 데이터셋을 보면 조기위암은 152장인 반면, 용종은 12장으로 장 수의 차이가 크게 나타난다. 이러한 점을 극복하고자 본 연구에서는 AutoAugment
증대정책 중 Cifar10 증대정책을 활용하여 데이터를 증대하였다. AutoAugment 증대정책에는 ImageNet, Cifar10, SVHN이
존재하지만 세 가지 증대정책을 위 내시경 데이터에 적용하였을 때, Cifar10 증대정책이 가장 좋은 성능을 보였던 기존 연구를 참고하여 증대 정책을
선정하였다(11).
Cifar10 증대정책에는 이미지에 기하학적 변화인 TranslateX/Y, Rotate, ShearX/Y와 밝기 변화인 Color, Solarize,
Posterize, Sharpness, Contrast, Brightness, Equalize, AutoContrast, Invert 등을 포함한
총 14가지의 증대기법이 존재한다. 이 중 2가지 기법을 조합하여 총 25가지의 증대 정책으로 존재하고 확률에 따라 두 가지 증대 기법 중 한 가지만
적용되거나 두 가지 모두 적용되는 경우가 존재하여 같은 정책이라 할지라도 매번 다른 이미지가 생성될 수 있다. Cifar10 증대정책이 적용된 예시는
그림 2에 나타내었다. 증대정책을 적용함으로써 한 이미지 당 25장의 새로운 이미지를 생성할 수 있으며 동일한 병변일지라도 위치와 밝기의 정보를 변화시킴으로
인해 딥러닝 모델에게 새로운 이미지를 학습시키는 효과를 줄 수 있다.
2.3 EfficientNetV2
CNN(Convolution Neural Network)은 지역적인 정보를 추출하는 것에 우수한 성능을 보이는 구조이기에 위 내시경 상에서 병변의
유무를 판단하여 진단을 수행하기에 적합하다 판단되어 본 연구의 네트워크 구조로 활용되었다. 딥러닝 모델은
그림. 2. 이미지 증대 예시
Fig. 2. Sample of image augmentation
초기 레이어에서 Low-level의 특징을 추출하고 후반부로 갈수록 High-level의 특징을 추출 및 학습하기에 깊은 구조의 네트워크일수록 이미지의
자세한 특징을 학습할 수 있다. 하지만 딥러닝 네트워크의 구조가 깊지 않더라도 일반적으로 CNN은 많은 연산량을 필요로 하기에 이를 뒷받침할 하드웨어가
필수적이다. 따라서 제한된 하드웨어에서 최대한의 성능을 출력하기 위한 연구가 진행되었고 이에 대한 연구로 EfficientNetV2가 등장하였다.
EfficientNetV2는 모델에 존재하는 파라미터의 효율을 최대화하기 위해 모델의 설계를 수동적인 설계가 아닌 강화학습 기반의 Training-Aware
NAS(Neural Architecture Search)를 통해 설계되었다(12). 모델 설계를 위해 EfficientNetV1을 백본으로 설정하고 Training-Aware NAS를 진행한 결과 EfficientNetV2가 설계되었다.
그림 3은 EfficientNetV2에 적용된 레이어의 구조를 나타내었다. EfficientNetV1에서 구조적으로 달라진 점은 모델 초기 레이어에서 MBConv이
아닌 Fused-MBConv을 사용했다는 점이다. MBConv에서 사용된 구조인 Depthwise Convolution은 이론적으로 연산량을 감소시키는
효과가 있지만 초기 레이어에 있을 시 오히려 실행시간(Runtime)을 감소시키게 되어 이를 일반 컨볼루션으로 변환한 것이 Fused-MBConv
구조이다. 이에 추가로 2017년 ImageNet 대회에서 우승한 모델인 SeNet의 SE Block(Squeeze-and-Excitation) 구조를
적용함으로써 학습에 효율성을 높였다(13). SE Block은 생성된 특징맵의 채널당 중요도를 계산하여 학습에 활용하는 구조로 성능의 향상이 이루어지면서 연산량은 크게 증가하지 않는 장점을
지닌다. EfficientNetV2는 모델의 크기에 따라 S, M, L이 존재하고 본 연구의 데이터셋의 크기를 고려하여 모델을 선정하였다. 따라서
Cifar10 증대정책을 통해 25배 증대된 데이터셋을 효과적으로 학습시키기 위해 가장 큰 구조를 가지는 EfficientNetV2-L 모델을 학습에
활용하였다.
2.4 Xception
EfficientNetV2에서는 초기 레이어의 실행속도 향상을 위해 Depthwise Convolution을 일반 컨볼루션으로 변경하였다. 반면에
Xception 네트워크는 특징맵의 채널 연산과 공간 연산을 완전히 분리하기 위해 Depthwise Separabel Convolution을 주된
레이어 구조로 가진 네트워크이기에 본 연구의 성능 비교 네트워크로 활용되었다. Depthwise Separable Convolution은 1x1 컨볼루션을
수행하는 Pointwise 연산과 3x3 컨볼루션을 수행 Depthwise Convolution 하는 구조를 가진다. 또한, Pointwise 연산
시 채널 수를 조절하여 연산량을 감소시키고 Pointwise 연산과 Depthwise Convolution 연산 사이에 비선형 함수를 제거함으로써
정보의 손실을 방지하는 것이 특징이다. 추가로 Xception은 그레디언트 손실을 방지하기 위해 Skip Connection과 Batch normalization
등을 적용함으로써 깊은 네트워크 구조가 설계되었다(14).
그림. 3. EfficientNetV2 레이어 구조
Fig. 3. Layer structure of EfficientNetV2
2.5 Grad-CAM
많은 연산량을 수행할 하드웨어가 발전함에 따라 딥러닝에 관한 연구는 빠른 속도도 진행되었고 특히, CNN의 경우 컴퓨터 비전 분야에서 매우 우수한
성능을 보인다. 하지만 딥러닝 모델의 내부는 비선형 연산이 반복적으로 수행되고 이로 인해 출력 결과에 대한 분석은 어려움을 겪었다. 따라서 딥러닝
모델이 우수한 성능을 보이는 것에 대한 명확한 이유를 찾고자 CAM(Class Activation Map)에 관한 연구가 수행되었다(15). CAM은 마지막 레이어의 특징맵 값을 활용하여 딥러닝 모델의 예측에 근거가 된 관심영역을 시각화해주는 알고리즘이다. 하지만 GAP(Global
Average Pooling) 계층이 필수적으로 필요하고 맨 마지막 레이어에 대해서만 시각화가 가능하다. 특히, 맨 마지막 레이어에 대해서만 시각화가
가능하다는 점은 딥러닝 내부구조를 파악하고자 하는 목적을 고려했을 때, 치명적인 단점이라 볼 수 있다. 따라서 CAM의 단점을 보완하여 모든 레이어에서
관심영역을 추출해 낼 수 있는 Grad-CAM이 등장하였다(16). Grad-CAM은 CNN의 학습 과정에서 역전파 시 생성되는 기울기를 활용한 방식이고 자세한 과정은 다음과 같다. 관심영역을 확인할 레이어에
존재하는 k개의 특징맵 $A^{k}$를 추출한 후 모델이 클래스 c로 분류한 예측값인 $y_{c}$로 역전파를 수행한다. 역전파 수행 시 $A^{k}$의
기울기 맵이 생성되고 생성된 맵에 GAP를 수행하여 최종적인 $\alpha_{k}$를 구한다. 최종적으로 $A^{k}$와 $\alpha_{k}$를
곱한 후 활성함수인 RelU를 적용하면 클래스 c에 대한 Grad-CAM인 $L_{c}$가 된다. Grad-CAM에 대한 자세한 수식은 식(1), (2)에 나타내었다.
본 연구에서 Grad-CAM은 EfficientNetV2의 마지막 레이어의 관심영역을 시각화하는데 사용되었다. CNN은 컨볼루션 연산을 수행하면서
후반부로 갈수록 고차원의 특징을 추출할 뿐만 아니라 이전 레이어의 정보를 함축하고 있다. 따라서 마지막 레이어의 관심영역을 시각화한다면 학습 전체의
과정에서 발생한 정보를 기반으로 판단한 관심영역을 얻을 수 있을 것이라 판단하였다.
3. 연구결과
학습된 딥러닝 모델의 성능 평가를 위해 조기위암과 정상이미지 분류, 비정상과 정상 이미지 분류에 대해 테스트가 진행되었다. 학습 속도 및 분류 성능에
대한 비교가 이루어졌으며 성능 평가지표로는 Precision, Sensitivity, Specificity, Accuracy, F1-Score, AUC
값을 통해 이루어졌다. Precision은 CADx가 분류한 비정상 이미지 중 실제 비정상 이미지의 비율을 의미하고 Sensitivity는 전체 비정상
중 모델이 분류에 성공한 비정상 이미지의 비율을 의미한다. 특히, 의료데이터를 다루는 CADx 연구에서는 비정상 예측에 실패 시 환자의 적절한 치료시기를
놓치게 되므로 Sensitivity의 성능이 중요한 평가지표라 볼 수 있다. Specificity는 정상 이미지 중 모델이 정상이라 분류한 비율이고
Accuracy는 전체 이미지 중 모델이 정확하게 분류한 이미지의 비율을 의미한다. F1-score는 Precision과 Sensitivity의 조화평균에
해당하는 값으로 한 지표에 편향되지 않은 성능 정보를 보여준다.
그림 4에는 EfficientNetV2와 Xception의 Train Loss 수렴 그래프를 나타내었다. EfficientNetV2는 파라미터의 효율의 최대화를
목표로 설계된 네트워크로 학습 속도가 빠른 것이 장점이다. 그림 4를 보면 EfficientNetV2의 Train Loss 시작 값이 상대적으로 큰 값을 가짐에도 불구하고 학습이 진행됨에 따라
그림. 4. EfficientNetV2 및 Xception의 Train loss 그래프
Fig. 4. Train loss graph of EfficientNetV2 and Xception
Xception보다 빠른 속도로 수렴하는 것을 알 수 있다. EfficientNetV2는 수렴 속도뿐만 아니라 분류 성능 측면에서도 우수한 성능을
보였다.
표 2는 원본 데이터셋으로 학습된 딥러닝 모델의 조기 위암과 정상 분류, 비정상과 정상 분류 테스트 결과를 보여준다. 비정상과 정상의 분류에서는 EfficientNetV2가
모든 평가 지표면에서 우수한 성능을 보였고, 조기위암과 정상 분류에서는 Precision과 Specificity를 제외하고 대부분의 평가지표에서 EfficientNetV2가
우수한 성능을 보였다. 특히, 의료 데이터를 다루는 CADx 연구에서 중요한 평가지표인 Sensitivity와 AUC가 높은 값을 가진다는 점과 학습
속도를 고려할 때 EfficientNetV2가 위 질환 분류 네트워크로 적합함을 알 수 있다.
표 2. EfficientNetV2와 Xception 분류 성능 결과
Table 2. Result of classification performance between EfficientNetV2 and Xception
표 3. 증대 데이터셋에 대한 EfficientNetV2의 분류 성능
Table 3. Classification performance of EfficientNetV2 for augmented dataset
표 3은 원본 데이터셋에 대해 상대적으로 우수한 성능을 보였던 EfficientNetV2을 증대 데이터셋으로 학습 후 테스트한 결과이다. 증대정책으로는
ImageNet 증대 정책과 Cifar10 증대정책을 적용한 후 각 데이터셋에 대한 성능 비교를 진행하였다. 두 가지 증대정책 모두 원본 데이터셋
대비 향상된 분류 성능을 보였고, 그 중에서도 Cifar10 증대 정책으로 학습한 모델이 대부분의 평가지표에서 ImageNet 증대정책보다 우수한
성능을 보였다. 특히, 위 질환 검출 정확도를 나타내는 Sensitivity를 보면, 조기위암과 정상의 분류에서 0.878에서 0.966으로 약 10%의
유의미한 성능 향상이 이루어졌다. 비정상과 정상의 분류에서도 Sensitivity는 0.690에서 0.817로 약 18%의 성능 향상이 이루어진 것으로
볼 때, 본 연구에서 적용한 Cifar10 증대정책이 딥러닝 모델의 분류 성능 향상에 효과적임을 알 수 있다. ROC 커브의 아래 면적에 해당하는
AUC는 딥러닝 모델의 클래스 간 분류 정도를 나타내는 수치로 의료데이터를 다루는 연구에서 중요한 평가지표로 사용되고, 그림 5와 그림 6에 원본 데이터셋으로 학습한 모델과 증대 데이터셋으로 학습한 모델의 ROC 커브를 나타내었다.
그림. 5. 정상과 조기위암 이미지 분류에 대한 EfficientNet-L의 ROC 커브
Fig. 5. ROC curve of EfficientNetV2-L for normal and early gastric cancer image classification
그림 5의 정상과 조기위암의 분류를 보면 AUC 값은 원본 데이터셋으로 학습한 모델이 0.971에서 데이터 증대 후 0.979로
그림. 6. 비정상과 정상 이미지 분류에 대한 EfficientNet-L의 ROC 커브
Fig. 6. ROC curve of EfficientNetV2-L for abnormal and normal image classification
큰 폭의 성능 향상은 이루어지지 않았다. 조기 위암은 위 내부에 병변이 미세하게 존재하기에 증대과정에서 발생하는 이미지 처리에 특징 정보가 일부 손실될
가능성이 존재한다. 이러한 점이 미세한 성능 향상의 원인으로 판단된다. 반면, 조기위암뿐만 아니라 위염, 용종, 궤양 등 총 7가지 질환을 추가한
후 학습한 비정상과 정상의 분류인 그림 6을 보면 원본 데이터셋으로 학습한 모델이 0.873에서 데이터 증대 후 0.930으로 약 7%의 성능향상이 이루어졌다.
그림. 7. 조기위암에 대한 Grad-CAM 결과
Fig. 7. Result of Grad-CAM for early gastric cancer
분류뿐만 아니라 Grad-CAM을 활용하여 EfficientNetV2의 마지막 레이어에서 추출된 관심영역을 확인하였다. 관심도가 높은 영역은 빨간색으로
상대적으로 관심도가 낮은 영역은 파란색으로 나타나고 원본 이미지에는 전문의의 라벨링이 노란색으로 표시되어 있다. 그림 7는 비정상 이미지 중 대표적 질환인 조기위암에 대한 Grad-CAM 결과를 보여준다. 그림 7의 (a), (b), (c), (d)는 분류 예측에 성공한 조기위암 이미지와 여러 레이어의 Grad-CAM 결과를 보여주고 있다. (b)와 (c)는 가장 많은 정보를 포함하는 마지막 레이어의 Grad-CAM 결과를 보여주고, 원본 데이터셋으로 학습한 결과인 (b)는 병변 주위에 미세한 관심영역이 나타나지만 증대 데이터셋으로 학습한 결과인 (c)는 실제 병변의 위치와 관심영역이 유사하게 위치한다. 이를 통해 증대 데이터셋이 병변 학습에 효과적이었음을 알 수 있다. 또한, Grad-CAM은
CAM과 달리 중간 레이어의 관심영역을 시각화할 수 있고 이를 (d)에 나타내었다. 중간 레이어의 관심영역은 병변을 포함하여 여러 영역에 나타난 것을 볼 수 있고 추가적인 레이어를 거침에 따라 관심영역은 (c)처럼 병변으로 수렴하는 모습을 보였다. 반면, (e), (f)는 조기 위암을 정상으로 잘못 분류한 이미지와 그에 대한 Grad-CAM 결과이다. (e)에 표시된 전문의의 라벨링을 볼 때, 병변이 미세하고 분산되어 존재하는 경우 관심영역이 명확하게 존재하지 않고 분류에 어려움을 겪는 것을 알 수 있다.
추가적인 성능 향상 연구가 이루어진다면 미세한 병변에도 Grad-CAM을 통한 시각화가 이루어져 객체 탐지 및 분할 연구에서 전문의의 라벨링을 대체하여
인력 및 시간을 감소시킬 수 있는 효과적인 방법이 될 수 있다.
4. 결 론
본 논문에서는 CNN 구조의 Xception과 EfficientNetV2-L를 활용하여 위 내시경 상에서 조기위암과 정상, 정상과 비정상을 분류하는
CADx를 연구하였다. 원본 데이터셋 학습을 통해 Xception과 EfficientNetV2의 성능 비교를 진행하였고 학습속도와 분류성능 측면에서
EfficientNetV2가 Xception보다 적합한 분류 네트워크임을 실험적으로 보였다. 딥러닝 모델의 과적합 방지 및 성능 향상을 위해 ImageNet과
Cifar10 증대정책을 활용하여 원본 대비 25배 향상된 데이터셋을 생성하였고 이에 따라 모든 평가지표의 성능이 향상된 결과를 보였다. 특히, Cifar10
증대정책은 ImageNet보다 높은 폭의 성능 향상을 보였다. 하지만 Cifar10 증대 정책은 Cifar10 데이터셋에 최적화된 증대 알고리즘으로
위 질환 분류에 최적화된 증대 정책이라 할 수 없다. 또한, 증대정책이 적용되는 강도에 따라 원본 이미지가 가지는 병변의 특징이 변형되었을 가능성이
존재하기에 이에 대한 개선점이 남아있다. 본 연구에서 사용한 Grad-CAM의 특징으로는 모든 레이어에서 관심영역을 추출할 수 있다는 점이다. 그림 7에서 볼 수 있듯이 중간 레이어의 관심영역은 병변을 포함한 영역의 위치정보를 가지고 있다. 따라서 이전 레이어에서 추출한 관심영역을 다음 레이어에
제공한다면 딥러닝 모델이 집중적으로 학습해야 할 범위를 좁히게 되어 병변 학습에 도움을 줄 수 있을 것이다. 딥러닝 모델의 구조적 관점에서 보면 CNN
구조는 컨볼루션 연산을 통해 이미지 내 특징 추출을 진행하는 구조를 가진다. 하지만 최근 이미지 내 특징 추출을 위한 방법으로 CNN뿐만 아니라 이미지를
패치 단위로 나누어 학습하는 Transformer 기반의 분류 모델이 우수한 성능을 보인다. 따라서 향후 연구에서는 Transformer의 대표적인
모델인 ViT (Vision Transformer)와 CNN의 성능 비교를 진행해 볼 것이다. ViT는 GAP 구조를 사용하지 않기에 향후 연구에서
동등한 비교를 위해 CAM이 아닌 Grad-CAM을 활용할 예정이다. 또한, 본 연구에서 사용한 위 질환 클래스는 총 8가지로 질환마다 다른 크기의
병변이 존재하고 같은 질환이라 할지라도 유병 기간에 따라 병변의 크기에서 차이가 존재하게 된다. 따라서 향후 연구에서는 학습 시 이미지의 크기를 변화시키는
Progressive learning을 수행하여 크기에 대한 강건함을 향상시키고 추가적인 데이터 수집을 통해 학습 데이터의 다양성을 향상시켜 성능의
향상이 가능할 것이라 생각한다. 기존보다 향상된 성능을 기반으로 Grad-CAM을 수행한다면 작은 병변을 포함하는 정확한 위치에 관심영역이 존재할
것이고 이를 바탕으로 병변의 분할 관련 연구도 수행할 수 있을 것이다.
Acknowledgements
This research was supported by Basic Science Research Program through the National
Research Foundation of Korea(NRF) funded by the Ministry of Education (No. 2022R1I1A3053872)
and was supported by “Regional Innovation Strategy (RIS)” through the National Research
Foundation of Korea(NRF) funded by the Ministry of Education(MOE)(2022RIS-005) and
was supported by Korea Institute for Advancement of Technology(KIAT) grant funded
by the Korea Government(MOTIE) (P0020966, HRD Program for Industrial Innovation).
References
Korean Statistics Information Service, Statistics on the cause of death in 2021.
이름 Korean Statistics Information Service, Cancer registration statistics.
Weon Jin Ko, 2017, Diagnosis of Early Gastric Cancer Using Image-enhanced Endoscopy,
The Korean Journal of Medicine, Vol. 92, No. 3, pp. 264-268
Xiaoqi Liu, 2018, Transfer learning with convolutional neural network for early gastric
cancer classification on magnifiying narrow-band imaging images, 2018 25th IEEE International
Conference on Image Processing (ICIP). IEEE, pp. 1388-1392
Lan Li, 2020, Convolutional neural network for the diagnosis of early gastric cancer
based on magnifying narrow band imaging, Gastric Cancer, Vol. 23, No. 1, pp. 126-132
Yaqiong Zhang, 2020, Diagnosing chronic atrophic gastritis by gastroscopy using artificial
intelligence, Digestive and Liver Disease, Vol. 52, No. 5, pp. 566-572
Yiji Ku, Ding Hui, Wang Guangzhi, 2022, Efficient Synchronous Real-Time CADe for Multicategory
Lesions in Gastroscopy by Using Multiclass Detection Model, BioMed Research International
2022
Sin-Ae Lee, Hyun Chin Cho, Hyun-ng Cho, 2021, A novel approach for increased convolutional
neural network performance in gastric-cancer classification using endoscopic images,
IEEE Access, Vol. 9, pp. 51847-51854
Guitao Cao, Wenli Song, 2019, Gastric cancer diagnosis with mask R-CNN, 2019 11th
International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC),
Vol. 1
Zhi-Heng Cui, 2022, Application of Improved Mask R-CNN Algorithm Based on Gastroscopic
Image in Detection of Early Gastric Cancer, 2022 IEEE 46th Annual Computers, Software,
and Applications Conference (COMPSAC). IEEE, pp. 1396-1401
S.-a. Lee, D.-h. Kim, H.-c. Cho, 2020, Deep Learning bases Gastric Lesion Classification
System using Data Augmentation, The Transactions of the Korean Institute of Electrical
Engineering, Vol. 69, No. 7, pp. 1033-1039
M. Tan, 2021, Efficientnetv2: Smaller models and faster training, In International
Conference on Machine Learning(PMLR), Vol. 139, pp. 10096-10106
Jie Hu, Shen Li, Sun Gang, 2018, Squeeze-and-excitation networks, Proceedings of the
IEEE conference on computer vision and pattern recognition, pp. 7132-7141
Chollet Francois, 2017, Xception: Deep Learning With Depthwise Separable Convolutions,
The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1251-1258
Bolei Zhou, 2016, Learning deep features for discriminative localization, Proceedings
of the IEEE conference on computer vision and pattern recognition, pp. 2921-2929
Ramprasaath R. Selvaraju, 2017, Grad-cam: Visual explanations from deep networks via
gradient-based localization, Proceedings of the IEEE international conference on computer
vision, pp. 618-626
저자소개
Han-sung Lee received the B.S. degree in Electrical and Electronic Engineering from
Kangwon National University, South Korea in 2022.
He is currently working toward the M.S. degree in Interdisciplinary Graduate Program
for BIT Medical Convergence from Kangwon National University, South Korea.
Hyun-chong Cho received his M.S. and Ph.D. degrees in electrical and computer engineering
from the University of Florida, USA, in 2009.
During 2010–2011, he was a Research Fellow at the University of Michigan, Ann Arbor,
USA.
From 2012 to 2013, he was a Chief Research Engineer at LG Electronics, South Korea.
He is currently a Professor with the Department of Electronics Engineering and Interdisciplinary
Graduate Program for BIT Medical, Kangwon National University, South Korea.