양수
(Su Yang)
1#iD
천소영
(Soyoung Chun)
2#iD
김다엘
(Dael Kim)
2
전보성
(Bo Soung Jeoun)
2
유지용
(Jiyong Yoo)
3
강세룡
(Se-Ryong Kang)
3
최민혁
(Min-Hyuk Choi)
3
김조은
(Jo-Eun Kim)
§
허경회
(Kyung-Hoe Huh)
§§
이삼선
(Sam-Sun Lee)
§§
허민석
(Min-Suk Heo)
§§
이원진
(Won-Jin Yi)
†iD
-
(Dept. of Applied Bioengineering, Graduate School of Convergence Science and Technology,
Seoul National University, Seoul, Korea. E-mail : s8431@snu.ac.kr)
-
(Interdisciplinary Program of Bioengineering, Seoul National University, Seoul, Korea.
E-mail: soyljh@snu.ac.kr)
-
(ept. of Biomedical Radiation Sciences, Graduate School of Convergence Science and
Technology, Seoul National University, Seoul, Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Deep learning, Anatomical structure segmentation, Metal artifacts, U-Net, Tversky loss
1. 서 론
두개악안면 기형으로 인해 발생되는 악골의 형태 변형과 위치 변화는 얼굴 모양과 치아 교합에 큰 영향을 미치므로, 악교정 수술을 위해 두개악안면 기형의
정확한 진단과 수술계획이 필요하다(1-2). 또한, 치과 임플란트를 악골에 삽입하는 수술에서 악골과 하악관, 상악동 등 해부학적 위치 관계를 고려하여 수술을 계획하는 것이 중요하다(3-4). 이러한 수술계획에는 환자의 3차원 해부학적 모델이 필요하고, 이를 위해서는 방사선 영상 촬영 및 해부학적 구조물 분할이 선행되어야 한다(5-6). 콘빔 컴퓨터 단층촬영(cone-beam computed tomography, CBCT) 영상은 다중검출 컴퓨터단층촬영(multi-detector
computed tomography, MDCT) 영상보다 방사선조사량이 적고 촬영 시간이 짧아 치과 분야에서 주로 사용되나, MDCT에 비해 영상
대조도(image contrast)가 낮은 한계점이 존재한다(7-9). 그리고 치아 교정기(dental braces)와 치아 보철물(dental prosthesis), 아말감 충전재(amalgam filling),
치과 임플란트(dental implants) 등으로 인한 금속 음영(metal artifacts)과 영상 촬영 시 환자의 움직임으로 인한 움직임 잡음(motion
artifact)이 CBCT 영상에서 발생할 수 있다(10-12). 또한, 환자마다 두개악안면 골의 형상이 다양하며, 특히 CBCT 영상에서 하악관(mandibular canal) 영역의 경계는 턱끝 구멍(mental
foramen)으로 갈수록 불분명해지고, 상악동은 비강(nasal cavity), 사골동(ethmoid sinus), 전두골(frontal sinus)
등과 인접하여, 다양한 해부학적 구조물 사이에서 목표 구조물을 정확히 분할하는 것이 어렵고, 시간 또한 많이 소요된다(13-15). 따라서, CBCT 영상에서 해부학적 구조물을 자동분할하는 기술에 대한 필요성이 대두되고 있다.
CBCT 영상에서 해부학적 구조물 자동분할 연구들은 임계값(threshoding) 기반, 통계형상모델(statistical shape model)
기반, 딥러닝(deep learning) 기반 방법으로 나눌 수 있다.
그림 1 CBCT 영상에서 해부학적 구조물 레이블링 예시. (a) 수평면 측(axial view), (b) 해부학적 구조물의 3차원 재건 결과, (c)
관상면 측(coronal view), (d) 시상면 측(sagittal view). 노란색, 하늘색, 초록색, 빨간색 영역은 각각 안면중앙부 골,
하악골, 상악동, 하악관을 의미한다.
Fig. 1 Example of anatomical structure labeling in CBCT images. (a) axial view, (b)
3D reconstruction of anatomical structures, (c) coronal view, (d) sagittal view. The
yellow, blue, green, and red regions are the midfacial bone, mandible, maxillary sinus,
and mandibular canal, respectively.
임계값 기반 자동분할 방법은 고전적인 방법의 해부학적 구조물 분할 방법이며, Histogram filter와 Otsu 방법을 이용한 하악골과 안면중앙부
골 분할 연구가 보고되었다(16). 그러나, 이 방법은 금속 음영이 포함되어 있는 CBCT 영상에 대하여 하악골과 안면중앙부 골 분할 성능이 떨어지고, 하악과두(mandi- bular
condyles)나 하악관과 같이 상대적으로 대조도가 낮은 구조물에 대하여 자동분할이 어렵다.
통계형상모델 기반 자동분할 방법으로 대조도가 높은 MDCT 영상을 사용하여 통계형상모델을 생성한 후, 이를 활용하여 상대적으로 잡음이 많고 대조도가
낮은 CBCT 영상에서 통계형상모델 기반 하악골 자동분할하는 방법이 보고되었다(17). 또한, 턱뼈 구멍(mandibular foramen)에서 턱끝 구멍까지의 해부학적 구조를 고려한 통계형상모델 기반 하악관 자동분할 방법이 보고되었다(18). 그러나 통계형상모델 기반 자동분할 방법은 시간과 비용 측면에서 높은 계산량을 가지고 있고, 초기 통계형상모델에서 수동적인 상호작용을 통해 적절한
매개변수를 선택해야만 유의미한 결과를 얻을 수 있는 한계점이 존재한다.
최근에 딥러닝 기술이 발전하면서 전통적인 방법들의 한계를 극복한 연구들이 보고되고 있다(19-22). 딥러닝 기반 악골 자동분할 방법의 경우, 금속 음영을 포함한 CBCT 영상에서 MSD-Net 기반 악골 자동분할 방법이 보고되었고, 평균 다이스
계수(Dice similarity coefficient) 성능은 $0.87 \pm 0.06$으로 관찰되었다(15). 또한, CBCT 영상에서 딥러닝 기반 상악동 자동분할 방법이 보고되다. 이 방법은 nnU-Net을 사용하여 상악동 공기 영역에서 $0.93 \pm
0.16$, 병변 영역에서 $0.76 \pm 0.18$의 평균 다이스 계수 성능을 달성하였다(14). 마지막으로 하악관 자동분할 방법의 경우, 3D U-Net을 설계하여 CBCT 영상에서 좌측과 우측 하악관을 각각 분할한 후 성능을 비교한 연구가
보고되었다(13). 해당 연구에서 평균 다이스 계수 성능은 좌측 하악관에서 $0.57 \pm 0.08$, 우측 하악관에서 $0.58 \pm 0.09$으로 관찰되었다.
최근 해부학적 구조물 자동분할 연구는 대부분 단일 해부학적 구조물을 대상으로 자동분할하는 방법들을 제안하였다. 그러나 실제 임상에서 구강악안면 수술
시 양악에 대한 해부학적 정보가 필요하고, 임플란트 수술의 경우 악골과 상악동, 하악관의 해부학적 정보가 필요하다. 따라서, CBCT 영상에서 해부학적
구조물의 다중 클래스 자동분할 방법은 구강악안면 및 임플란트 수술에서 환자의 해부학적 구조물 정보 획득과 위치 관계 분석에 필수적이다.
본 연구에서는 금속 음영이 포함된 CBCT 영상에서 딥러닝 기반 다중 클래스 해부학적 구조물 자동분할 방법을 제안하였다. 해부학적 구조물은 하악골(mandible)과
안면중앙부 골(mid- facial bone), 하악관, 상악동을 포함하며, 각 딥러닝 모델은 U-Net의 인코더(encoder) 부분을 DenseNet121(24), VGGNet16(25), ResNet101(26), EfficientNetB4(27) 백본(backbone)으로 각각 변경하여 학습하였다. 제안한 방법은 해부학적 구조물 자동분할에 소요되는 시간을 CBCT 영상 당 약 0.01초로
단축시켰다. 또한, 금속 음영을 포함한 CBCT 영상에서 높은 정확도로 해부학적 구조물을 자동분할 할 수 있다.
본 논문의 구성으로는 2장에서 연구재료와 방법, 실험데이터 및 학습 구성, 성능평가 지표 등을 소개하고, 3장에서는 각 딥러닝 모델의 해부학적 구조물
자동분할 성능에 대하여 비교 및 평가를 진행하였다. 4장에서는 결과에 대한 고찰과 함께 향후 연구 방향을 제시하였고, 마지막으로 5장에서는 결론을
기술하였다.
2. 재료 및 방법
2.1 재료
본 연구는 서울대학교치과병원 IRB(Institutional Review Board)의 승인을 받아 진행하였다(ERI18001). 연구참가자로부터
획득한 CBCT 데이터셋은 1975년 헬싱키 선언(2013년 개정)에 따라, 데이터 익명화 과정을 거쳐 연구목적으로만 사용하였다. 총 30명의 CBCT
영상을 획득하여 딥러닝 학습과 평가에 활용하였다. CBCT 영상은 CBCT 영상촬영장치(DENTRI, HDX WILL Corp., Seoul, South
Korea)를 이용하여 획득하였고, 촬영조건은 $75\sim 120$kVp와 $7\sim 10$mA로 설정하였다. CBCT 영상의 픽셀 스페이싱(pixel
spacing)은 $0.3\times 0.3{mm}^{2}$, 두께(thick- ness)는 $0.3{mm}$, 그리고 영상의 크기는 $800\times
800$으로 구성되어 있다. 해부학적 구조물은 하악골과 안면중앙부 골, 하악관, 상악동을 포함하며, 영상치의학 전문의 한 명이 정답 레이블링(ground
truth)을 수행하였다(그림 1).
그림 2 금속 음영이 포함된 CBCT 영상에서 딥러닝 기반 해부학적 구조물 분할 방법의 구조
Fig. 2 The framework of deep learning based method for anatomical structure segmentation
in CBCT images containing metal artifacts
2.2 방법
본 연구에서는 U-Net 기반 딥러닝 모델들을 개발하여 금속 음영이 포함된 CBCT 영상에서 해부학적 구조물 분할 성능을 비교하였다. 실험에 사용된
딥러닝 모델들은 U-Net(23) 구조를 따르며, U-Net의 인코더(encoder) 부분을 DenseNet121(24), VGGNet16(25), ResNet101(26), EfficientNetB4(27) 백본(backbone)으로 각각 변경하며 자동분할 성능을 평가하였다(그림 2).
2.2.1 데이터 전처리
데이터 전처리 과정은 CBCT 영상을 픽셀값의 범위를 변경하는 정규화(normalization)와 영상의 크기 축소(resize)로 구성된다. CBCT
영상에서 금속 음영은 4096 이상의 픽셀값을 가지게 되는데, 이를 제거하기 위해 4096 이상의 픽셀값은 4096으로 설정, 0보다 작은 픽셀값은
0으로 설정한 후, CBCT 영상의 전체 픽셀값들을 4096으로 나누어 정규화를 진행하였다. 그런 다음, 크기인 원본 CBCT 영상을 $256\times
256$으로 크기를 축소하여 딥러닝 모델 학습에 사용하였다.
2.2.2 VGGNet
VGGNet(25)은 $3\times 3$ 크기의 합성곱 필터(convolution filter)로 구성된 합성곱 신경망(convolutional neural network,
CNN) 구조이다. VGGNet은 $3\times 3$ 크기의 합성곱 필터를 반복적으로 사용함으로써 이전의 $5\times 5$ 또는 $7\times
7$ 크기의 합성곱 필터보다 학습 파라미터는 줄어들면서 영상 분류 성능은 향상시켰다. 또한, CNN 계층을 16, 19층까지 깊게 쌓아 상대적으로
얕은 CNN보다 뛰어난 성능을 보였다.
2.2.3 ResNet
ResNet(26)은 잔차 학습(residual learning)을 이용하여 기존의 CNN 모델의 계층이 깊어질수록 나타나는 vanishing problems와 exploding
gradients 문제를 해결한 딥러닝 모델이다. 일반적인 CNN은 입력 $x$를 정답 $y$에 맵핑하는 $H(x)$를 학습하는 반면에, 잔차 학습은
출력 $F(x)$에 입력 $x$를 더하는 구조로 $H(x)=F(x)+x$로 정의된다. 여기서, 입력 $x$를 더해주는 방법을 shortcut connection이라
하며, ResNet은 $F(x)$를 최소화하는 방향으로 잔차 학습한다. 이와 같은 방식은 학습 파라미터와 연산량을 크게 증가시키지 않을 뿐만 아니라,
상대적으로 계층을 더 깊게 쌓을 수 있게 되었다. 따라서, ResNet은 VGGNet보다 8배 깊은 101층의 구조임에도 불구하고 상대적으로 낮은
학습 파라미터를 가지며 ImageNet에서 뛰어난 성능을 보였다.
2.2.4 DenseNet
DenseNet(24)은 각 계층마다 이후의 계층에 특징 정보가 전달될 수 있도록 skip connection을 이용하여 모든 계층의 특징 맵(feature map)들을
조밀하게 연결한 CNN 구조이다. 이와 같은 방법은 입력 데이터의 특징 맵을 보존해 재사용할 수 있고, 적은 채널 수의 특징 맵을 반복적으로 생성함으로써
기존의 네트워크에 비해 더 적은 학습 파라미터로 더 깊은 계층의 신경망을 학습할 수 있다.
그림 3 해부학적 구조물 분할 결과. 노란색, 하늘색, 초록색, 빨간색 영역은 각각 안면중앙부 골, 하악골, 상악동, 하악관을 의미한다.
Fig. 3 Segmentation results of anatomical structures. The yellow, blue, green, and
red regions are the midfacial bone, mandible, maxillary sinus, and mandibular canal,
respectively.
2.2.5 EfficientNet
일반적으로 CNN 모델의 정확도를 높이기 위해 딥러닝 모델의 깊이, 너비, 입력 이미지의 크기를 변경하며 모델을 세부조정하였다. 그러나 위 세 가지의
파라미터들은 실험을 통해 수동으로 조절하였기 때문에, 최적의 성능을 얻기가 어려웠다. 이를 해결하고자 EfficientNet은 위 세 가지의 파라미터들을
효율적으로 조절할 수 있는 compound scaling 방법을 제안하였고, 이는 architecture engineering을 자동화하는 기술인
neural architecture search 방법을 이용하여 최적화하였다(27). Effi- cientNet은 ImageNet에서 다른 네트워크들보다 더 적은 파라미터로 더 높은 분류 정확도를 달성하였다.
2.2.6 손실 함수
CBCT 영상에서 하악관과 같이 다른 해부학적 구조물에 비해 관심영역(region of interest)이 상대적으로 작은 경우, 정밀도(precision)는
높지만 재현율(recall)이 낮은 분할 성능을 보일 수 있다(28-29). 따라서, 재현율을 개선하기 위해 위양성(false positive, FP)보다 위음성(false negative, FN)에 더 높은 가중치를 부여해야
한다. 이러한 문제를 해결하기 위해, 본 연구에서는 Tversky loss를 손실 함수(loss function)로 사용하여 딥러닝 모델을 학습하였다(30). Tversky loss는 Dice similarity coefficient(DSC)에서 FP와 FN에 각각 가중치(weight) 상수를 곱한 손실
함수이며 다음과 같이 정의된다.
여기서, $TL$은 Tversky loss, $G$는 정답값, $P$는 예측값을 의미한다. $\alpha$와 $\beta$는 각각 FP와 FN의 가중치를
나타내며, $\beta$는 $1-\alpha$로 정의된다. Tversky loss에서 $\alpha$와 $\beta$를 $0.5$로 설정할 경우,
일반적인 DSC와 동일하게 정의된다.
2.3 실험데이터 구성
총 30명의 CBCT 데이터셋은 6:2:2의 비율로 학습(18명), 검증(6명), 테스트(6명) 데이터셋으로 나누어 실험을 진행하였다. 딥러닝 모델
학습 및 성능평가용 데이터셋은 총 20744장의 수평면 CBCT 영상으로 구성되어 있고, 학습 데이터로 12467장, 검증 데이터로 4125장, 테스트
데이터로 4152장을 사용하였다. 학습 데이터는 데이터 증강(data augmentation) 방법을 적용하여 무작위로 상하좌우 이동($-6.25\sim
6.25\%$), 확대축소($-10\sim$$10\%$), 회전($-45^{\circ}\sim 45^{\circ}$), 밝기($-20\sim 20\%$),
대비($-20\sim$$20\%$)를 기하학적 변형시킨 영상을 딥러닝 모델 학습에 함께 활용하였다.
그림 4 해부학적 구조물 분할 결과의 3차원 재건과 그 비교. 노란색, 하늘색, 초록색, 빨간색 영역은 각각 안면중앙부 골, 하악골, 상악동, 하악관을
의미한다. 보라색 화살표와 점선 원은 각각 위양성과 위음성을 나타낸다.
Fig. 4 3D reconstruction results of anatomical structure segmentation and its comparison.
The yellow, blue, green, and red regions are the midfacial bone, mandible, maxillary
sinus, and mandibular canal, respectively. The violet arrow and dashed circle are
false positive and false negative, respectively.
딥러닝 모델 학습을 위해 Adam optimizer(31)를 사용하였고, 학습률(learning rate)은 0.001에서 시작하여 검증 데이터셋에서 25 에폭(epoch) 동안 성능 개선이 없을 시, 학습률을
0.5 비율만큼 감소시키며 학습을 진행하였다. 최대 학습 에폭은 300번으로 설정하였고, 50번의 에폭 동안 검증 데이터셋에서 성능 개선이 없을 시,
학습을 종료하였다. 딥러닝 모델은 Ubuntu 16.04에서 Python3 언어 기반의 Tensorflow를 사용하여 개발하였고, NVIDIA Geforce
1080Ti 그래픽카드 2장을 사용하여 16 배치(batch) 크기로 학습을 진행하였다.
DenseNet121, VGG16, ResNet101, EfficientNetB4 모델은 ImageNet에서 사전 학습된 가중치를 모델 학습의 초기
가중치로 사용하는 전이 학습(transfer learning) 방법을 이용하여 학습을 진행하였다(32).
2.4 성능평가 지표
본 연구에서는 딥러닝 모델들의 해부학적 구조물 분할 성능을 평가하기 위해, Jaccard Index(JI), Precision(PR), Recall(RC),
F1 score(F1)를 사용하였다(33). PR은 딥러닝 모델이 양성으로 예측한 것 중에서 실제 양성인 것의 비율을 의미한다. JI는 딥러닝 모델이 예측한 결과와 정답 사이의 유사도를 측정하는
방법이며, 두 집합이 동일하면 1의 값을 가지고, 공통의 원소가 하나도 없으면 0의 값을 가진다. RC는 실제 양성 중에서 딥러닝 모델이 양성으로
예측한 것의 비율을 의미한다. F1은 PR과 RC의 조화평균으로, 0에서 1 사이의 값을 가지며 1에 가까울수록 성능이 높다. 각 평가지표는 다음과
같이 정의된다.
여기서 TP는 실제 양성인 클래스를 양성으로 판별한 경우인 진양성(true positive)을 의미하고, FP는 실제 음성인 클래스를 양성으로 판별된
위양성을 의미한다. 마지막으로 FN은 실제 양성인 클래스를 음성으로 판별된 위음성을 의미한다.
표 1 딥러닝 모델 간 분할 성능 비교. MN은 하악골, MD는 안면중앙부 골, MC는 하악관, MS는 상악동을 의미한다.
Table 1 Comparison of segmentation performance between deep learning models. MN, mandible;
MD, midfacial bone; MC, mandibular canal; MS, maxillary sinus.
|
DenseNet121
|
VGGNet16
|
ResNet101
|
EfficientNetB4
|
|
JI
|
F1
|
PR
|
RC
|
JI
|
F1
|
PR
|
RC
|
JI
|
F1
|
PR
|
RC
|
JI
|
F1
|
PR
|
RC
|
MN
|
$0.843 \pm \\
0.089
$
|
$0.912 \pm \\
0.070$
|
$0.875 \pm \\
0.077$
|
$0.956 \pm \\
0.077$
|
$0.806 \pm \\
0.151$
|
$0.881 \pm \\
0.137$
|
$0.858 \pm \\
0.111$
|
$0.919 \pm \\
0.159$
|
$0.824 \pm \\
0.127$
|
$0.896 \pm \\
0.109$
|
$0.863 \pm \\
0.087$
|
$0.943 \pm \\
0.131$
|
$0.832 \pm \\
0.142$
|
$0.899 \pm \\
0.130$
|
$0.871 \pm \\
0.111$
|
$0.940 \pm \\
0.148$
|
MD
|
$0.792 \pm \\
0.092$
|
$0.880 \pm \\
0.080$
|
$0.872 \pm \\
0.074$
|
$0.895 \pm \\
0.103$
|
$0.772 \pm \\
0.089$
|
$0.868 \pm \\
0.074$
|
$0.832 \pm \\
0.082$
|
$0.913 \pm \\
0.081$
|
$0.789 \pm \\
0.081$
|
$0.880 \pm \\
0.064$
|
$0.858 \pm \\
0.070$
|
$0.909 \pm \\
0.080$
|
$0.805 \pm \\
0.079$
|
$0.890 \pm \\
0.063$
|
$0.870 \pm \\
0.066$
|
$0.914 \pm \\
0.077$
|
MC
|
$0.575 \pm \\
0.258$
|
$0.687 \pm \\
0.265$
|
$0.761 \pm \\
0.261$
|
$0.660 \pm \\
0.284$
|
$0.543 \pm \\
0.243$
|
$0.665 \pm \\
0.249$
|
$0.757 \pm \\
0.258$
|
$0.621 \pm \\
0.260$
|
$0.526 \pm \\
0.266$
|
$0.642 \pm \\
0.280$
|
$0.780 \pm \\
0.281$
|
$0.582 \pm \\
0.291$
|
$0.555 \pm \\
0.257$
|
$0.672 \pm \\
0.260$
|
$0.787 \pm \\
0.260$
|
$0.625 \pm \\
0.280$
|
MS
|
$0.918 \pm \\
0.090$
|
$0.954 \pm \\
0.063$
|
$0.936 \pm \\
0.082$
|
$0.979 \pm \\
0.041$
|
$0.892 \pm \\
0.136$
|
$0.935 \pm \\
0.114$
|
$0.936 \pm \\
0.103$
|
$0.944 \pm \\
0.125$
|
$0.907 \pm \\
0.119$
|
$0.945 \pm \\
0.100$
|
$0.941 \pm \\
0.093$
|
$0.957 \pm \\
0.103$
|
$0.912 \pm \\
0.092$
|
$0.951 \pm \\
0.066$
|
$0.958 \pm \\
0.065$
|
$0.949 \pm \\
0.081$
|
3. 결 과
본 연구에서는 총 6명의 환자로 구성된 테스트셋을 대상으로 하악골, 안명중앙부 골, 하악관, 상악동 분할 결과와 정답 간 JI, F1, PR, RC를
각각 계산하여 성능을 평가하였다. 표 1은 Tversky loss에서 $\alpha =0.5,\:\beta =0.5$의 조건으로 학습된 Dense- Net121, VGGNet16, ResNet101,
EfficientNetB4의 해부학적 구조물 분할성능을 각각 나타낸 것이다. 하악골 분할의 경우 DenseNet121이 $0.843 \pm 0.089$의
JI, $0.912 \pm 0.070$의 F1, $0.875 \pm$$0.077$의 PR, 그리고 $0.956 \pm 0.077$의 RC으로 다른
딥러닝 모델의 결과와 비교하였을 때 가장 높은 성능을 보였다. 안명중앙부 골 분할의 경우, EfficientNetB4가 JI, F1, RC 각각 $0.805
\pm 0.079$, $0.890 \pm 0.063$, $0.914 \pm 0.077$로 가장 높은 성능을 보였고, 반면에 DenseNet121이
가장 높은 $0.872 \pm 0.074$의 PR 성능을 달성하였다. 하악관 분할의 경우, DenseNet121이 하악관 분할에서 JI, F1, RC
각각 $0.575 \pm 0.258$, $0.687 \pm$$0.265$, $0.660 \pm 0.284$을 달성하였고, 상악동 분할에서 JI, F1,
RC 각각 $0.918 \pm 0.090$, $0.954 \pm 0.063$, $0.979 \pm 0.041$으로 가장 높은 성능을 보인 반면에 EfficientNetB4이
하악관 분할에서 $0.787 \pm 0.260$의 PR, 상악동 분할에서 $0.958 \pm 0.065$의 PR으로 가장 높은 정밀도를 보였다.
본 논문에서 Tversky loss의 초매개변수 값에 따른 성능을 확인하기 위해, 우수한 성능을 보인 DenseNet121을 대표모델로 선정하여 Tversky
loss의 와 를 변경하며 실험을 진행하였다. Tversky loss에서 $\alpha =0.5,\:\beta =0.5$로 설정한 경우, 가장 높은
하악골과 상악동 분할 성능을 보였다(표 2). 그리고 Tversky loss에서 FN에 더 큰 가충치를 준 경우($\alpha =0.4,\:\beta =0.6$), 상대적으로 작은 해부학적
구조물인 하악관 분할 성능이 향상되었다. 반면에 FP에 더 큰 가중치를 준 경우($\alpha =0.8,\:\beta =0.2$), 상대적으로 큰
해부학적 구조물인 안면중앙부 골 분할 성능이 향상되었다.
그림 3는 DenseNet121, VGGNet16, ResNet101, EfficientNetB4의 해부학적 구조물 분할 결과를 각각 나타낸 것이다. 그림 3에서 하악골과 안면중앙부 골의 치아 주변부에는 금속 음영들이 포함하고 있는데, 모든 딥러닝 모델들이 해당 금속 음영을 배경(background)으로
분류한 것을 확인할 수 있다. 그림 4은 DenseNet121, VGGNet16, ResNet101, EfficientNetB4의 해부학적 구조물 분할 결과를 3차원 재건하여 시각화한
결과이며, VGGNet16, ResNet101, EfficientNetB4은 해부학적 구조물 주변부에서 FP가 관찰되는 반면에, DenseNet121은
상대적으로 목표 구조물 영역만을 정확히 분할한 것을 확인할 수 있다.
표 2 DenseNet121 학습에서 초매개변수인 Tversky loss의 $\alpha$와 $\beta$ 값에 따른 성능(F1) 비교. MN은 하악골,
MD는 안면중앙부 골, MC는 하악관, MS는 상악동을 의미한다.
Table 2 Comparison of segmentation performance (F1) for different values of the hyperparameters
$\alpha$ and $\beta$ of Tversky loss in training DenseNet121. MN, mandible; MD, midfacial
bone; MC, mandibular canal; MS, maxillary sinus.
|
DenseNet121
|
$(\alpha ,\:\beta)$
|
MN
|
MD
|
MC
|
MS
|
$(0.1,\:0.9)$
|
$0.836 \pm 0.065$
|
$0.849 \pm 0.092$
|
$0.665 \pm 0.247$
|
$0.924 \pm 0.108$
|
$(0.2,\:0.8)$
|
$0.852 \pm 0.067$
|
$0.877 \pm 0.075$
|
$0.673 \pm 0.277$
|
$0.934 \pm 0.087$
|
$(0.3,\:0.7)$
|
$0.864 \pm 0.063$
|
$0.888 \pm 0.078$
|
$0.666 \pm 0.263$
|
$0.939 \pm 0.103$
|
$(0.4,\:0.6)$
|
$0.871 \pm 0.066$
|
$0.894 \pm 0.100$
|
$0.702 \pm 0.239$
|
$0.933 \pm 0.122$
|
$(0.5,\:0.5)$
|
$0.912 \pm 0.071$
|
$0.880 \pm 0.080$
|
$0.687 \pm 0.265$
|
$0.954 \pm 0.063$
|
$(0.6,\:0.4)$
|
$0.877 \pm 0.066$
|
$0.902 \pm 0.115$
|
$0.581 \pm 0.305$
|
$0.943 \pm 0.106$
|
$(0.7,\:0.3)$
|
$0.884 \pm 0.066$
|
$0.918 \pm 0.085$
|
$0.600 \pm 0.294$
|
$0.946 \pm 0.110$
|
$(0.8,\:0.2)$
|
$0.876 \pm 0.076$
|
$0.923 \pm 0.088$
|
$0.648 \pm 0.253$
|
$0.950 \pm 0.083$
|
$(0.9,\:0.1)$
|
$0.865 \pm 0.090$
|
$0.914 \pm 0.104$
|
$0.566 \pm 0.281$
|
$0.942 \pm 0.088$
|
4. 고 찰
본 연구에서는 금속 음영이 포함된 CBCT 영상에서 딥러닝 기반 해부학적 구조물의 다중 클래스 자동분할 방법을 제안하였다. 제안한 딥러닝 기반 자동분할
방법은 두 가지 장점이 존재한다. 첫 번째, 제안한 딥러닝 모델은 종단간(end-to-end) 모델로써 하악골, 안면중앙부 골, 하악관, 상악동을
다중 클래스 분할할 수 있다. 기존의 해부학적 구조물 분할 연구들은 이진화 분할에 초점이 맞춰져 있으며, 실제 단일 구조물 분할 결과만으로는 해부학적
구조물들 사이의 위치 관계를 분석하기 어렵다. 반면에 제안한 방법은 단일 딥러닝 모델에서 해부학적 구조물의 다중 클래스 분할이 가능하고, 자동분할
결과의 3차원 재건을 통해 각 구조물 사이의 위치 관계를 분석할 수 있다. 그리고, 개발한 딥러닝 모델은 금속 음영 제거를 위한 추가적인 금속 음영
감소(metal artifact reduction) 과정이 필요하지 않으며, 전후처리 단계를 최소화하여 CBCT 영상마다 해부학적 구조물 자동분할에
소요되는 예측 시간을 약 0.01초로 단축시켰다. 제안한 방법의 두 번째 장점은 금속 음영이 포함된 CBCT 영상에서 높은 정확도로 해부학적 구조물
자동분할이 가능하다는 것이다. 금속 음영은 CBCT 영상에서 하악과 상악의 뼈 영역을 가릴 수 있으며, 수술계획에 필요한 해부학적 구조물 분할 과정에서
부정확한 분할 결과와 시간 제약을 유발할 수 있다. 본 연구에서 사용된 U-Net 기반의 딥러닝 모델들은 CBCT 영상에서 금속 음영 영역을 배경으로
정확하게 분류할 수 있으며, 특히 치아 영역과 금속 음영의 영향을 받은 연조직(soft tissue) 영역 사이의 경계를 정확히 분할하였다(그림 3).
제안한 방법은 CBCT 영상에서 해부학적 구조물을 실시간으로 자동분할할 수 있지만, 실용화를 위해서는 몇 가지 개선해야 할 측면이 있다. 그림 4의 하악골 분할 결과에 따르면, 하악과두 영역에서 위음성들이 관찰되었다. 일반적으로 CBCT 영상에서 하악과두 영역은 복셀(voxel)값 구분이 명확하지
않고, 환자마다 하악과두 영역의 위치와 형상이 다양하여 자동분할하는 데 한계가 존재한다. 또한, 3차원 재건 결과에서 하악관 분할 결과 내에서 끊어짐
현상이 관찰되었다(그림 4). 이러한 끊어짐 현상은 실제 존재하는 하악관에 대해 위음성으로 판단된 요소들 때문이며, 더불어 위양성으로 판단된 요소들도 하악관 주변부에서 관찰되었다.
이는 CBCT 영상에서 하악관이 다른 해부학적 구조물보다 상대적으로 볼륨(volume)이 작으며, 낮은 대조도로 인해 육안으로 관찰이 어려울 뿐만
아니라 딥러닝 모델의 학습 제한과 성능 하락을 야기한 것으로 판단된다.
향후 연구에서 U-Net의 백본을 CNN 모델보다 글로벌 정보(global information)를 모델링하는 능력이 뛰어난 Vision Transformer(34)로 변경하거나, 해부학적 구조물 자동분할 성능이 가장 우수한 DenseNet121과 EfficientNetB4를 기반으로 다중 평면(multi-planar)
정보를 학습한 후, 그 분할결과를 앙상블(ensemble)하여 하악과두와 하악관 분할 성능을 향상시킬 예정이다.
5. 결 론
본 연구에서는 금속 음영이 포함된 CBCT 영상에서 하악골, 안면중앙부 골, 하악관, 상악동을 멀티 클래스 자동분할하는 딥러닝 모델을 개발하고 비교하였다.
개발된 종단간 딥러닝 모델은 CBCT 영상에서 해부학적 구조물을 정확하고 강인하게 분할할 수 있고, 영상의 전후처리 단계를 최소화하여 영상마다 분할에
소요되는 시간을 약 0.01초로 단축시켰다. 또한, 금속 음영이 포함한 CBCT 영상에서도 해부학적 구조물을 정확하고 강인하게 분할하는 것을 확인하였다.
제안한 방법은 구강악안면 수술 및 치과 임플란트 수술에 필요한 해부학적 구조물 분할을 자동화하고 소요시간을 단축시킬 수 있다.
Acknowledgements
This work was supported by the National Research Foundation of Korea (NRF) Grant funded
by the Korea government (MSIT) (No. 2019R1A2C2008365), and by the Korea Medical Device
Development Fund Grant funded by the Korea government (the Ministry of Science and
ICT, the Ministry of Trade, Industry and Energy, the Ministry of Health & Welfare,
the Ministry of Food and Drug Safety) (No. 1711138289, KMDF_PR_20200901_0147, 1711137883,
KMDF_PR_20200901_0011).
References
K. Stokbro, 2014, Virtual planning in orthognathic surgery, International journal
of oral and maxillofacial surgery, Vol. 43, No. 8, pp. 957-965
Sanjay Naran, Derek M. Steinbacher, Jesse A. Taylor, 2018, Current concepts in orthognathic
surgery, Plastic and reconstructive surgery, 141.6:925e-936e
Christos Angelopoulos, Tara Aghaloo, 2011, Imaging technology in implant diagnosis,
Dental Clinics, Vol. 55.1, pp. 141-158
Philip Worthington, Jeffrey Rubenstein, David C. Hatcher, 2010, The role of cone-beam
computed tomography in the planning and placement of implants, The Journal of the
American Dental Association, pp. 141:19s-24S
Dae-Seung Kim, 2014, An integrated orthognathic surgery system for virtual planning
and image-guided transfer without intermediate splint, Journal of Cranio-Maxillofacial
Surgery, pp. 42.8:2010-2017
Brian B. Farrell, 2014, Virtual surgical planning in orthognathic surgery, Oral and
maxillofacial surgery clinics of North America, pp. 26.4:459-473
Bart Vandenberghe, 2010, Modern dental imaging: a review of the current technology
and clinical applications in dental practice, European radiology, pp. 20.11:2637-2655
Michele Cassetta, 2014, How accurate Is CBCT in mea- suring bone density: A comparative
CBCT-CT in vitro study, Clinical implant dentistry and related research, pp. 16.4:
471-478
Timo Kiljunen, 2015, Dental cone beam CT: A review, Physica Medica, pp. 31.8:844-860
Nagarajappa, 2015, Artifacts: The downturn of CBCT image, Journal of International
Society of Preventive & Community Dentistry
R. Schulze, 2011, Artefacts in CBCT: a review, Dento-maxillofacial Radiology, pp.
40.5:265-273
Cosimo Nardi, 2014, Metal and motion artifacts by cone beam computed tomography (CBCT)
in dental and maxil-lofacial study, La radiologia medica, pp. 120.7:618-626
Joel Jaskari, 2020, Deep learning method for mandibular canal segmentation in dental
cone beam computed tomo- graphy volumes, Scientific reports, pp. 10.1:1-8
Seok-Ki Jung, 2021, Deep Active Learning for Automatic Segmentation of Maxillary Sinus
Lesions Using a Convolu- tional Neural Network, Diagnostics, 11.4:688
Jordi Minnema, 2019, Segmentation of dental cone-beam CT scans affected by metal artifacts
using a mixed-scale dense convolutional neural network, Medical physics, pp. 46.11:
5027-5035
Mantas Vaitieknas, 2020, Automatic Method for Bone Segmentation in Cone Beam Computed
Tomography Data Set, Applied Sciences
Joojin Kim, MIN JIN LEE, Helen Hong, 2017, Automatic Segmentation of the Mandible
using Shape-Constrained Information in Cranio-Maxillo-Facial CBCT Images, Korea Computer
Graphics Society, Vol. 23, No. 5, pp. 19-27
Fatemeh Abdolali, 2017, Automatic segmentation of mandi- bular canal in cone beam
CT images using conditional statistical shape model and fast marching, International
journal of computer assisted radiology and surgery, pp. 12.4: 581-593
Tae-Hoon Yong, 2021, QCBCT-NET for direct measurement of bone mineral density from
quantitative cone-beam CT: a human skull phantom study, Scientific Reports, pp. 11.1:
1-13
Odeuk Kwon, 2020, Automatic diagnosis for cysts and tumors of both jaws on panoramic
radiographs using a deep convolution neural network, Dentomaxillofacial Radiology,
49.8:20200185
Hyuk-Joon Chang, 2020, Deep learning hybrid method to automatically diagnose periodontal
bone loss and stage periodontitis, Scientific reports, pp. 10.1:1-8
Su Yang, 2019, Deep learning segmentation of major vessels in X-ray coronary angiography,
Scientific reports, pp. 9.1:1-11
Olaf Ronneberger, 2015, U-net: Convolutional networks for biomedical image segmentation,
International Conference on Medical image computing and computer-assisted intervention
Gao Huang, 2017, Densely connected convolutional net- works, Proceedings of the IEEE
conference on computer vision and pattern recognition
Karen Simonyan, Andrew Zisserman, 2014, Very deep con-volutional networks for large-scale
image recognition, arXiv preprint, arXiv:1409.1556
Kaiming He, 2016, Deep residual learning for image recognition, Proceedings of the
IEEE conference on compu- ter vision and pattern recognition
Mingxing Tan, Quoc Le, 2019, Efficientnet: Rethinking model scaling for convolutional
neural networks, International Conference on Machine Learning
Nabila Abraham, Naimul Mefraz Khan, 2019, A novel focal tversky loss function with
improved attention u-net for lesion segmentation, IEEE 16th International Symposium
on Biomedical Imaging (ISBI 2019)
Su Yang, 2019, Major vessel segmentation on x-ray coronary angiography using deep
networks with a novel penalty loss function, International Conference on Medical Imaging
with Deep Learning—Extended Abstract Track
Seyed Sadegh Mohseni Salehi, Deniz Erdogmus, Ali Gholipour, 2017, Tversky loss function
for image segmentation using 3D fully convolutional deep networks, International workshop
on machine learning in medical imaging
Diederik P. Kingma, Jimmy Ba, 2014, Adam: A method for stochastic optimization, arXiv
preprint, arXiv:1412.6980
Karl Weiss, 2016, A survey of transfer learning, Journal of Big data, pp. 3.1:1-40
Abdel Aziz Taha, Allan Hanbury, 2015, Metrics for evalu- ating 3D medical image segmentation:
analysis, selection, and tool, BMC medical imaging, pp. 15.1:1-28
Salman Khan, 2021, Transformers in vision: A survey, arXiv preprint
저자소개
He received B.S. and M.S. degree in biomdeical engineering from Keimyung University
School of Medicine, Daegu, Korea, in 2016 and 2018, respectively.
He has been studying as Ph.D. student in Seoul National University, Seoul, Korea.
Before starting his graduate study, he worked as a research engineer at Asan Medi-
cal Center, Seoul, Korea.
She received B.S. degree in biomdeical engi- neering in Kyung-Hee University, Seoul,
Korea, in 2020.
She is a M.S. student in the Inter- disciplinary Program in Bioengineering, Seoul
National University, Seoul, Korea.
Her current research interests include deep learning appli- cations for medical image
analysis.
Interdisciplinary Program of Bioengineering, Seoul National University, Seoul, Korea.
Interdisciplinary Program of Bioengineering, Seoul National University, Seoul, Korea.
Dept. of Biomedical Radiation Sciences, Graduate School of Convergence Science and
Technology, Seoul National University, Seoul, Korea.
Dept. of Biomedical Radiation Sciences, Gra- duate School of Convergence Science and
Technology, Seoul National University, Seoul, Korea.
Dept. of Biomedical Radiation Sciences, Graduate School of Convergence Science and
Technology, Seoul National Uni- versity, Seoul, Korea.
Dept. of Oral and Maxillofacial Radiology, Seoul National University Dental Hospital,
Seoul, Korea.
Dept. of Oral and Maxillofacial Radiology, School of Dentistry and Dental Research
Institute, Seoul National University, Seoul, Korea.
Dept. of Oral and Maxillofacial Radiology, School of Dentistry and Dental Research
Institute, Seoul National University, Seoul, Korea.
Dept. of Oral and Maxillofacial Radiology, School of Dentistry and Dental Research
Institute, Seoul National University, Seoul, Korea.
He received B.S., M.S., and Ph.D. degrees in electrical engineering from Seoul National
University, Seoul, Korea, in 1994, 1997, and 2001, respectively.
He is currently a professor with the Department of Oral and Maxillofacial Radiology,
School of Dentistry and Dental Research Institute, Seoul National University, Seoul,
Korea.