이신애
(Sin-ae Lee)
1iD
조현종
(Hyun-chong Cho)
†iD
-
(Interdisciplinary Graduate Program for BIT Medical Convergence, Kangwon National University,
Korea)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Augmentation, Computer-aided diagnosis(CADx), Deep learning, Gastric endoscopy
1. 서 론
1.1 컴퓨터 보조 진단 시스템
2017년 우리나라의 위암 발생자 수는 29,685건으로 전체 암 발생의 12.8%라는 가장 높은 수치를 기록했다(1). 전 세계적으로도 위암 발생률은 대한민국이 1위이며 위염이나 위궤양 같은 질환 발생률도 매우 높다(2,3). 그림 1은 국내 암종 별 암 발생 현황을 나타낸 그래프이다. 위장 질환의 발생을 조기에 정확하게 알 수 있는 방법은 위 내시경 검진이다. 위 내시경 검진은
숙련된 진단의가 촬영 중에 혹은 촬영된 영상을 육안으로 보고 진단을 내린다. 진단을 내리기 위해서는 염증의 정도, 암의 판별 여부같이 상세한 영상
분석이 가능해야 한다.
진단의 수동 작업을 줄이고 정확도와 신뢰도를 높이기 위해서 최근 몇 년간 컴퓨터 보조 진단(Computer-aided Diagnosis, CADx)
시스템에 관한 연구가 많이 증가하였다. CADx 시스템은 의료 영상을 기반으로 전문의에게 진단 의견을 제시하여 전문의의 진단 효율을 상승시킬 수 있는
시스템이다. 많은 CADx 시스템 연구는 딥러닝과 함께 개발되고 있으며, 딥러닝에는 많은 데이터가 필요하다.
그림. 1. 한국의 주요 암 발생률
Fig. 1. Cancer incidence of common sites, both sexes, in Korea 2017
딥러닝은 데이터 의존적이며 데이터의 양이 많아질수록 성능이 향상한다. 하지만 의료 영상 데이터는 개인의 민감한 데이터이므로 임상 시험 심사 위원회(Institutional
Review Board, IRB)의 허가 후 수집하게 되는데, 이 과정에 시간과 인력이 많이 소모되므로 큰 데이터 세트를 만드는 것이 굉장히 어렵다.
이 문제를 해결하기 위해 대표적으로 적용할 수 있는 방법이 증대 기법이다. 증대 기법을 적용할 때는 데이터의 특성에 알맞은 증대 기법을 적용하는 것이
중요하다. 본 논문에서는 위 내시경 데이터 세트에 맞는 증대 기법을 탐색하는 방법을 제시하고 CADx 시스템에 적용하여 비교한다.
1.2 관련 연구
데이터 증대 기법은 딥러닝의 성능을 향상하는 중요한 기법이다. 기존의 영상 데이터를 이용하여 인위적으로 데이터 수를 늘리게 된다.
영상을 증대하여 CADx 시스템을 만든 연구는 다음과 같다. 가장 대표적인 증대 방법인 회전 방식을 적용하여 위 내시경 영상을 4배로 증대시킨 후에
정상과 비정상 분류를 진행한 연구가 있었다(4). 그리고 피부 병변을 진단하기 위해 영상의 밝기, 색 대조를 [0.9~1.1]의 범위 내에서 랜덤으로 적용하여 데이터를 증대한 후 흑색종을 분류하는
CADx 연구가 진행되었다(5). 또 다른 위 내시경 영상을 이용한 CADx 시스템 연구에서 회전과 반전 기법을 적용하여 기존의 데이터를 8배로 증대한 후 학습한 연구도 있었다(6). 위 내시경 영상에서 비정상 병변을 찾아내는 CADx 시스템 연구에서는 데이터 증대를 위해 확대, 회전, 이동 등의 방법을 이용하는데 특정 범위
내에서 랜덤하게 증대의 강도를 지정하여 적용하여 진행되었다(7).
의료 영상을 포함한 다양한 영상들에 대해서 딥러닝을 위한 증대 방법들이 연구되고 있다. 최근에 구글과 카카오에 데이터 세트에 맞는 증대 방법을 제시해
주는 강화학습 알고리즘 연구가 진행되었다(8,9).
또한, 생성기가 노이즈를 랜덤하게 생성하여 만든 거짓 영상을 판별기가 실제 영상으로 인식하도록 속이는 생성과 판별의 적대적 관계를 이용한 적대적 생성
신경망이 연구되었다(10).
본 논문에서는 14가지의 증대 방법을 우리의 위 내시경 영상 데이터 세트에 적용하고 이를 Xception 네트워크를 학습시켜 성능을 비교하였다. 수집된
위 내시경 영상을 위암과 위암이 아닌 비정상 영상으로 분류하는 CADx 시스템을 통해 제안된 증대 기법을 검증하였다.
2. 본 론
2.1 위 내시경 데이터 수집
본 논문에서는 비정상 영상 중에서 위암인 영상을 찾아내는 CADx 시스템에 대해 연구한다. 연구를 위해 우리는 위 백색광 내시경 데이터를 수집하였다.
국립 경상대학교 병원의 소화기 내과로부터 데이터를 받았다. 수집된 데이터는 모두 내과 전문의의 진단과 조직검사 결과를 통해 검증되었으며 제공자의 권리를
위해 IRB 승인을 받은 후(승인번호: GNUH 2017- 09-019-003) 진행되었다.
120명의 환자로부터 819장의 비정상 내시경 영상이 수집되었고 수집된 데이터의 구성은 표 1에 나타내었다. 병변은 위암, 종양, 궤양, 용종, 위염, 출혈, 기타 병변으로 구성되어 있고 기타 병변에는 혈전증, 황색종, 위게실 등을 포함한다.
위암은 276장이며, 위암이 아닌 비정상 데이터는 543장이다. 표 2에 나타낸 것처럼 학습에는 655장을 사용하였고, 테스트 데이터는 164장을 사용하였다. 위 내시경 영상은 그림 2와 같이 촬영한 후 수집되었다.
표 1. 위 내시경 영상 데이터의 병변별 수(단위: 장)
Table 1. Type and number of gastroscopy images
Type
|
Number
|
Cancer
|
276
|
Non-cancer
|
SMT
|
85
|
Ulcer
|
95
|
Polyp
|
30
|
Gastritis
|
265
|
Bleeding
|
18
|
Others
|
50
|
Total
|
819
|
표 2. 학습과 테스트 데이터 세트 구성(단위: 장)
Table 2. Training and test data set
Type
|
Train
|
Test
|
Total
|
Cancer
|
221
|
55
|
276
|
Non-cancer
|
434
|
109
|
493
|
Total
|
655
|
164
|
819
|
그림. 2. 비정상 위내시경 영상
Fig. 2. Abnormal gastroscopy images
2.2 증대 방법
위 내시경 데이터에 적절한 증대 정책을 찾기 위해 실험에서 사용한 작업 기법은 총 14가지이다. 기법은 ShearX/Y, Tran- slateX/Y,
Rotate, AutoContrast, Invert, Equalize, Solarize, Posterize, Contrast, Color, Brightness,
Sharpness를 사용하였고, 각 기법에 대한 설명은 표 3에 나타내었다. ShearX/Y, TranslateX/Y, Rotate 다섯 가지는 영상을 회전하거나 비트는 물리적인 기법이고, 나머지 아홉 가지는
모두 색상 변환을 이용한 기법이다.
AutoContrast와 Equalize, Invert 기법을 제외한 11가지의 기법들은 파라미터에 따라 강도가 달라질 수 있기 때문에 각 기법마다
3개씩 값을 지정해 주어 증대 영상이 생성되도록 하였다. 기법에 따른 강도는 표 4에 나타내었다. 강도의 범위는 구글의 AutoAugment를 참고하였다(8).
표 3. 증대 적용기법 설명
Table 3. Operation description[8] of augmentation
Operation Name
|
Description
|
ShearX(Y)
|
Shear the image horizontally (vertically) with rate magnitude.
|
TranslateX(Y)
|
Translate the image horizontally (vertically) by magnitude number of pixels.
|
Rotate
|
Rotate the image magnitude degree.
|
AutoContrast
|
Maximize the image contrast, by making the darkest pixel black and lightest pixel
white.
|
Invert
|
Invert the pixels of the image.
|
Equalize
|
Equalize the image histogram.
|
Solarize
|
Invert all pixels above the threshold.
|
Posterize
|
Reduce the number of bits in the pixel.
|
Contrast
|
Control the image contrast. A magnitude=0 gives a gray image, whereas magnitude=1
gives the original image.
|
Color
|
Adjust the color balance of the image. A magni- tude=0 gives a black & white image,
whereas magnitude=1 gives the original image.
|
Brightness
|
Adjust the brightness of the image. A magni- tude=0 gives a black image, whereas magnitude=1
gives the original image.
|
Sharpness
|
Adjust the sharpness of the image. A magni- tude=0 gives a blurred image, whereas
magnitude=1 gives the original image.
|
각 기법을 통해 증대된 영상의 예시 일부를 그림 3을 통해 나타내었다. Equalization과 AutoContrast는 적용이 되거나 혹은 안 되거나의 경우의 수만 있기 때문에 한 장의 영상 당
한 장의 증대 영상이 생성되었다. Brightness와 Shear Y는 강도에 따라서 무수히 많은 영상이 생성될 수 있는데 표 4에 나타낸 값들로 세 장씩 생성되도록 하였다.
14개의 기법을 모두 적용한다면 한 장의 영상으로부터 총 36장의 증대된 영상을 얻을 수 있다. 증대된 영상들을 모두 사용하면 학습 시간이 오래 걸리며,
성능 향상에 오히려 방해될 수 있다. 위 내시경 영상에 알맞은 증대 기법을 선택하기 위해서 그림 4와 같은 방법을 통해 기법에 따른 성능 비교가 진행되었다.
표 4. 증대 기법에 적용된 강도
Table 4. Magnitude of each operation for augmentation
Operation Name
|
magnitude 1
|
magnitude 2
|
magnitude 3
|
ShearX(Y)
|
0.1
|
0.2
|
0.3
|
TranslateX(Y)
|
45
|
95
|
135
|
Rotate
|
10
|
20
|
30
|
Solarize
|
77
|
154
|
230
|
Posterize
|
4
|
6
|
8
|
Contrast
|
0.3
|
0.6
|
0.9
|
Color
|
0.3
|
0.6
|
0.9
|
Brightness
|
0.3
|
0.6
|
0.9
|
Sharpness
|
0.3
|
0.6
|
0.9
|
그림. 3. 증대된 영상의 일부
Fig. 3. Samples of augmented image
그림. 4. 증대 기법의 평가 방법
Fig. 4. Evaluation method of augmentation performance
원본 영상으로 이루어진 데이터 세트를 학습시켜서 기본 분류 모델을 생성한다. 생성된 모델에 각 기법으로 증대된 데이터 세트를 입력으로 넣어주고 f1-score
값을 비교하였다. 이 비교 방법은 증대된 데이터를 학습하여 비교하는 것이 아니며 학습된 모델의 입력으로 사용하여 비교하기 때문에 시간이 단축된다.
학습은 원본 영상으로 기본 모델을 생성할 때 한 번만 진행된다. 테스트 데이터로는 최종적인 성능 비교만 가능할 뿐 학습 데이터의 증대 기법 선택에
영향을 끼칠 수 없기 때문에 이와 같은 방법을 선택하였다. f1-score의 비교를 통해 원본 데이터와 얼마나 유사한 영상을 만들어내는지 알 수 있으며
이는 원본과 동떨어진 영상을 학습에서 제외하는 방법이 될 수 있다.
표 5를 통해 값들을 나타내었다. f1-score는 precision과 recall의 조화평균으로 구해진다. precision과 recall이 서로 trade-off
관계이기 때문에 분류 성능을 구할 때 이 관계성을 고려하기 위해 f1-score를 사용하였다.
표 5. 증대 기법의 평가 결과
Table 5. Results of augmentation operation
Operation Name
|
F1-score
|
ShearX
|
0.9357
|
ShearY
|
0.9127
|
TranslateX
|
0.9616
|
TranslateY
|
0.9615
|
Rotate
|
0.8615
|
AutoContrast
|
0.9726
|
Invert
|
0.2919
|
Equalize
|
0.5016
|
Solarize
|
0.4444
|
Posterize
|
0.4285
|
Contrast
|
0.9096
|
Color
|
0.8888
|
Brightness
|
0.8990
|
Sharpness
|
0.9709
|
표 5에 나타난 값들을 기반으로 값이 높은 기법들을 그룹별로 묶어서 4개의 데이터 세트를 생성하였다. 그룹 1은 f1-score가 0.95 이상인 Sharpness,
AutoContrast, TranslateX, TranslateY으로 증대된 그룹이고, 그룹 2는 0.90 이상인 Sharpness, AutoContrast,
TranslateX, TranslateY, ShearX, ShearY, Rotate로 이루어져 있다. 그룹 3은 0.85 이상인 기법들로 Invert,
Equalize, Posterize, Solarize를 제외한 10개의 기법들이 포함되어 있으며, 그룹 4에는 모든 증대 기법이 포함된다. 그룹별로
증대된 배수는 각 11배, 20배, 29배, 37배이다. 각 그룹의 증대 데이터들을 학습한 뒤에 테스트 데이터를 통해 결과를 비교하였다.
2.3 Xception 네트워크
본 논문에서는 딥러닝과 증대된 데이터를 이용한 CADx 시스템을 실험하고 있으며, 우리는 딥러닝 네트워크로 Xception 네트워크를 선택하였다.
Xception 네트워크는 GoogLeNet의 Inception 모듈을 변형시켜 성능과 학습 속도를 개선한 네트워크로 2016년에 발표되었다. 노드들
간의 연결을 줄이고 더 나아가 각 채널 간의 관계를 찾는 것과 지역 정보를 찾는 것을 분리하였다(11).
우리는 이전 논문에서 Inception-V3와 Xception을 비롯하여 Inception-Resnet-V2, Renet-101 네트워크를 사용하여
CADx 시스템의 성능을 비교하였다(11). 결과적으로 Xception 네트워크의 성능이 가장 좋았기 때문에 이번 실험에서도 Xception을 사용하였다.
그림 5에 나타낸 Inception의 변형된 모듈은 입력에 대하여 1x1 컨볼루션을 거친 후 모든 채널을 분리해 3x3 컨볼루션을 거쳐 각 채널당 특징맵을
연산을 하는 모듈이다. Xception 네트워크는 Extreme Inception 모듈로 구성되어 Depth-wise separable 컨볼루션 연산을
한다. 기존 컨볼루션은 모든 채널과 지역 정보를 동시에 고려하여 하나의 특징맵을 만든 것이라 할 수 있고, Depth-wise separable 컨볼루션은
색상 채널별로 나누어 각각의 특징맵을 하나씩 만든 뒤 1x1 컨볼루션 연산을 수행하여 특징맵을 만든다. 이는 출력되는 특징맵의 수를 조정하여 성능을
상승시킬 수 있는 방법이다(12).
그림. 5. Inception 모듈의 Extreme version
Fig. 5. Extreme version of inception module
3. 연구 결과
본 연구에서 제안한 증대 기법을 적용하여 위암 영상과 위암이 아닌 비정상 영상을 분류하도록 하였고, 결과는 다음 표 6과 같다.
표 6. 테스트 데이터 세트를 이용한 증대 기법 성능 비교
Table 6. Comparison of the augmentation performance on test data set
Group
|
F1-score
|
Accuracy
|
Control Group
|
0.8372
|
0.8597
|
Group 1
|
0.8993
|
0.9146
|
Group 2
|
0.8938
|
0.9085
|
Group 3
|
0.9221
|
0.9327
|
Group 4
|
0.9150
|
0.9260
|
CIFAR-10 policy
|
0.9080
|
0.9207
|
원본 영상으로 학습을 한 뒤 테스트한 결과 (Control Group) f1-score는 0.8372이다. 본 논문에서 제안된 방법 중 가장 높은
성능을 보인 그룹 3의 f1-score는 0.9221로 약 0.085의 상승이 있었다. Accuracy에서도 마찬가지로 원본 영상과 그룹 3의 차이는
0.073으로 높은 차이를 보였다.
이전 논문에서 사용하였던 AutoAugment 기법 중에 가장 성능이 좋았던 CIFAR-10 데이터의 정책을 함께 비교하였다(11). 이 정책은 데이터를 25배로 증대시킨다(8). CIFAR-10 데이터의 증대 정책보다도 본 연구에서 제안된 증대 방법을 적용한 경우 더 높은 결과를 보인다.
가장 높은 결과를 보여 주는 그룹 3은 10가지의 증대 기법을 사용하며 제외된 4가지의 기법은 Invert, Equalize, Posterize,
Solarize이다. Invert와 Solarize는 색상 반전이 일어나기 때문에 붉은색의 보색인 파란 계열의 색상을 가진 영상이 생성되고 이 영상은
제대로 된 위장이 가지고 있는 색상 정보를 가지지 못하게 된다. Equalize도 마찬가지로 색상 변환이 크게 일어나면서 병변의 색상이나 정상 부위의
색상 구분이 힘들어지면서 학습에 방해가 되었다. Posterize는 색상을 나타내는 픽셀의 비트 수를 줄이게 되면서 마찬가지로 병변과 정상 부위의
경계가 흐려지고 병변의 색상 정보가 학습되지 못하게 한다.
물리적인 변환 기법은 표 5에서 보듯이 f1-score 값이 14개의 기법 중 대부분 상위권에 존재한다. 위 내시경 영상 특성상 색상의 변환보다 물리적인 변환이 더 성능 향상에
도움이 된다고 볼 수 있다.
모든 기법을 사용한 그룹 4의 데이터로 학습하였을 때는 영상의 증대 배수가 더 커짐에도 불구하고 그룹 3을 학습하였을 때보다 성능이 떨어지는 것을
볼 수 있다. 이는 그룹 4에 포함된 Invert, Equalize, Posterize, Solarize가 위 내시경 영상에 적합하지 않은 기법이라는
것을 나타낸다. 하지만 그룹 1, 2에 비해서는 높은 성능을 보인 것은 그룹 1, 2의 증대 방법이 다양하지 않았기 때문에 네트워크가 영상의 특징을
잡아내는 것에 있어 한계가 생겼기 때문으로 추측된다.
그룹 3에 포함된 기법들은 위 내시경 영상에 적합하게 적용되고 물리적인 변환 기법인 ShearX/Y, TranslateX/Y, Rotate가 모두
포함된다. 물리적 기법이 포함되면서 Invert, Equalize, Posterize, Solarize와 같은 색상 변환이 심한 기법이 제외되었을
때 가장 높은 성능을 보였다.
4. 결 론
국내의 암 중 위암 발생률은 1위이며, 전 세계 위암 발생률도 우리나라가 1위이다. 위암을 조기에 검진하고 치료하기 위해서는 내시경을 이용한 진단이
필요하다. 내시경 검진은 의사가 육안을 통해 진단하기 때문에 피로도가 증가할 수 있으며, 오진의 가능성이 있다. 이를 방지하기 위해 CADx 시스템들이
연구되고 있다. CADx 시스템이 딥러닝을 이용하여 연구될 때는 의료 영상 데이터 세트의 크기가 매우 중요하다. 하지만 의료 영상을 수집하는 과정이
매우 복잡하여 시간과 인력이 많이 소모된다. 이를 위해서 증대 기법이 중요한 요소로써 사용되고 있으며 다양한 증대 기법 중 데이터에 알맞은 기법을
선택하여 적용하는 것이 중요하다.
본 논문에서는 원본 영상을 학습시킨 모델에 각 기법으로 증대된 데이터들을 입력으로 넣어주어 f1-score를 구하였다. 이를 토대로 그룹별로 학습하고
비교하였다. Group 3의 데이터로 학습을 시켰을 때 성능이 가장 우수함을 알 수 있었다. Group 3은 f1-score가 0.85 이상인 기법들로
증대한 데이터 집합으로, 데이터의 양이 적절하게 증가하면서도 학습을 방해할 수 있는 저품질의 영상은 제외되었다고 볼 수 있다.
본 논문의 실험에서는 증대 기법 종류를 14가지로 정해 놓은 후에 최선의 기법을 찾으려고 하였기 때문에 다소 결과가 한정적일 수 있다. 하지만 연구
과정에서의 복잡도를 낮추기 위한 방안이었으며, 충분한 성능의 향상을 보였기 때문에 유의미하다고 볼 수 있다. 향후 기법의 종류를 다양하게 설정하고,
기법을 동시에 2가지 이상 적용할 수 있는 경우의 수도 고려한 연구가 진행될 필요가 있다.
이 증대 방법은 데이터에 따라 어떤 증대 방법이 적절한지 비교해보고 적용할 수 있는 방법이기 때문에 정형화된 다른 방법을 쓸 필요 없이 효과적으로
데이터에 맞게 적용이 가능하다.
Acknowledgements
This work was supported by the National Research Foundation of Korea (NRF) grant funded
by the Korea government(MSIT) (No. 2017R1E1A1A03070297). This research was supported
by the MSIT (Ministry of Science and ICT), Korea, under the ITRC (Information Technology
Research Center) support program (IITP-2020-2018- 0-01433) supervised by the IITP
(Institute for Infor- mation & communications Technology Promotion).
References
Ministy of Healthy and Welfare, 2019, 2017 Cancer registration statistics
F Bray, J Ferlay, I Soerjomataram, RL Siegel, LA Torre, A Jemal, 30 Oct 2019, Global
cancer statistics 2018: GLOBOCAN Estimates ofincidence and mortality worldwide for
36 cancers in 185 countries., CA Cancer J Clin 2018. [Online]. https://www.wcrf.org/dietandcancer/cancer-trends/stomach-cancer-statistics.
Healthcare big data hub, 2019, The treatment statistics by Health Insurance Review
and Assessment Service disease
D.-h. Kim, H.-c. Cho, 2018, Deep Learning based Computer- aided Diagnosis System for
Gastric Lesion using Endoscope, The Transactions of The Korean Institute of Electrical
Engineers, Vol. 67, pp. 928-933
D. Ergashev, Y. Im Cho, 2019, Skin Lesion Classification towards Melanoma Diagnosis
using Convolutional Neural Network and Image Enhancement Methods, Journal of Korean
Institute of Intelligent Systems, Vol. 29, pp. 204-209
Y. Zhu, Q.-C. Wang, M.-D. Xu, Z. Zhang, J. Cheng, Y.-S. Zhong, 2019, Application of
convolutional neural network in the diagnosis of the invasion depth of gastric cancer
based on conventional endoscopy, Gastrointestinal endoscopy, Vol. 89, pp. 806-815.
e1
A. Asperti, C. Mastronardo, 2017, The effectiveness of data augmentation for detection
of gastrointestinal diseases from endoscopical images, arXiv preprint arXiv:1712.03689
E. D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, Q. V. Le, 2019, Autoaugment: Learning
augmentation strategies from data, in Proceedings of the IEEE conference on computer
vision and pattern recognition, pp. 113-123
S. Lim, I. Kim, T. Kim, C. Kim, S. Kim, 2019, Fast auto- augment, in Advances in Neural
Information Processing Systems, pp. 6665-6675
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, et al.,
2014, Generative adversarial nets, in Advances in neural information processing systems,
pp. 2672-2680
S.-a. Lee, D.-h. Kim, H.-c. Cho, 2020, Deep Learning based Gastric Lesion Classification
System using Data., The Transactions of The Korean Institute of Electrical Engineers.,
Vol. 69, pp. 1033-1039
F. Chollet, 2017, Xception: Deep learning with depthwise separ- able convolutions,
in Proceedings of the IEEE conference on computer vision and pattern recognition,
pp. 1251-1258
저자소개
She received the B.S. degree in Electrical and Electronic Engineering from Kangwon
National University, South Korea in 2018.
She is currently working toward the M.S. degree in Interdisciplinary Graduate Program
for BIT Medical Convergence from Kangwon National University, South Korea.
He received his MS and PhD degrees in Electrical and Computer Engineering from the
University of Florida, USA in 2009.
During 2010-2011, he was a Research Fellow at the University of Michigan, Ann Arbor,
USA.
From 2012 to 2013, he was a Chief Research Engi- neer in LG Electronics, South Korea.
He is currently a professor with the Department of Electronics Engineering and Interdisciplinary
Graduate Program for BIT Medical Convergence, Kangwon National University, South Korea.