• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Graduate School of Automobile and Mobility, Kookmin University, Korea E-mail:dayeon345@kookmin.ac.kr)



Image Classification, Deep learning, Vision Transformer

1. 서 론

최근 딥러닝의 발전과 방대하고 다양한 데이터셋에 대한 접근성이 향상되면서 컴퓨터 비전 기술이 전례 없는 혁신을 이루고 있다. 특히, 합성곱 신경망 (Convolutional neural network, CNN) 기반의 모델들이 고정적인 수용장 내에서 이미지의 지역적인 문맥 특징을 능숙하게 추출하며 컴퓨터 비전 발전에 지대한 기여를 했다[1]-[4]. 그러나, 수용장의 크기가 고정적이기 때문에 이미지의 전역적인 의미론적 관련성을 포착하거나 다양한 크기의 객체를 학습하는 데에는 한계를 갖는다. 이미지의 전역적인 맥락을 이해하기 위해 자연어 처리 분야에서 사용되던 트랜스포머 구조를 비전 분야로 확장한 비전 트랜스포머 (Vision Transformer, ViT)가 등장했다[5]. 비전 트랜스포머는 이미지를 단어와 같은 순차적인 토큰으로 처리하고 어텐션 연산을 통해 토큰 간의 관계성을 파악한다. CNN 모델과 달리 연산이 고정적인 수용장으로 국한되지 않기 때문에 이미지의 전반적인 문맥을 파악할 수 있는 것이 특징이다. 그러나, 이미지를 구성하는 모든 토큰에 대해 어텐션을 계산하는 것은 이미지의 크기에 따라 이차적인 계산량을 수반한다. 이러한 문제를 해결하기 위해 어텐션 영역을 윈도우로 제한하여 계산 효율을 높이는 모델들이 제안되었다. 대표적으로, Swin transformer[6]그림 1(a)와 같이 이미지를 윈도우로 분할하고 윈도우 내에서만 어텐션 연산을 수행한 후 결과들을 순차적으로 잇는 Window Multi-head Self-Attention(W-MSA) 방식을 제안하였다. 이렇게 하면, 계산 복잡성은 줄이면서도 이미지를 전체적으로 이해할 수 있다. 윈도우 기반 어텐션은 같은 윈도우에 속하는 토큰 간의 관계성은 포착할 수 있지만 서로 다른 윈도우에 속하는 토큰들 간의 관계성을 포착하는 데에는 어려움이 있다. Swin transformer는 서로 다른 윈도우 간의 정보 교환을 위해 Shifted Window Multi-head Self-Attention(SW-MSA)를 추가적으로 적용한다. 그림 1(b)와 같이 윈도우로 분할하는 경계를 오른쪽 아래로 이동시킨 후 이미지를 윈도우 어텐션을 하는 것인데, 이렇게 하면 서로 다른 윈도우에 속하던 이미지 토큰들의 관계성을 추가적으로 파악할 수 있다.

그림 1. swin transformer의 윈도우 어텐션 동작 원리

Fig. 1. window attention mechanism of swin transformer

../../Resources/kiee/KIEE.2024.73.6.1004/fig1.png

그러나, 이 역시도 이미지 공간의 거리를 기반으로 윈도우를 분할하기 때문에 거리가 먼 토큰들은 여전히 같은 윈도우로 묶이지 않는다는 문제가 발생한다. 따라서, 본 논문에서 제안하는 Refined feature-space window attention transformer (Refined transformer)는 BOAT transformer[7]에서 영감을 받아, 이미지를 윈도우로 분할할 때 특징 공간에서의 거리를 기준으로 하여 이미지상 거리가 멀지만 서로 연관성 있는, 즉, 특징 벡터가 유사한 토큰들끼리 하나로 묶는 방법을 채택한다. 이때, 모델의 표현력을 향상하기 위해 중요한 곳은 강조하고 아닌 곳은 억제하도록 특징 공간을 정제한다. 정제된 특징 공간에서의 유사도에 따라 군집화 된 토큰들끼리 어텐션하는 Refined Feature-space window Multi-head Self-Attention(RF-M SA)을 적용하여 거리가 먼 토큰 간의 관계성을 포착한다. Refined transformer는 Swin transformer의 SW-MSA를 RF-MSA로 대체한 것이다. 제안하는 모델을 ImageNet-1K[8]로 학습한 결과, 기존의 Swin transformer보다 분류 성능이 개선되었다. 해당 연구의 기여를 정리하면 아래와 같다.

특징 공간에서 윈도우를 분할함으로써 먼 거리에 있지만 유사한 토큰들을 하나의 윈도우로 묶을 수 있다. 이러한 방식이 이미지 공간에서의 윈도우 어텐션 기법을 대체하면서 지역성 문제를 해결하고 이미지에 대한 더욱 전역적인 이해를 통해 이미지 분류 성능을 개선하는 것을 실험적으로 보여주었다.

CNN기반 어텐션 모듈을 통해 특징 공간의 채널 및 공간에 대해 집중할 영역을 강조하고, 이를 통해 CNN 기반의 어텐션 기법이 트랜스포머 내부에도 적용 가능하며 이러한 방식이 두 어텐션 매커니즘의 장점을 극대화한다는 것을 보인다.

본 논문은 다음과 같이 구성되어 있다. 2절에서 관련 연구로서 비전 트랜스포머와 어텐션 기법을 설명한다. 3절에서는 제안하는 네트워크의 전체적인 구조와 구성 요소를 상세히 설명하고 ImageNet-1K에 대해 학습한 결과를 다른 모델과 비교한다. 4절의 결론에서는 실험 결과와 미래 연구 방향을 제시한다.

2. 관련 연구

2.1 비전 트랜스포머

트랜스포머가 자연어 처리에서 성공을 거둔[9] 것에 영감을 받아 이미지를 단어처럼 취급하고 트랜스포머의 입력으로 사용하는 시도들이 있었다. ViT[5]는 이러한 시도의 초기 모델로 합성곱을 사용하지 않는 것이 특징이다. ViT는 입력 이미지를 고정된 크기의 겹치지 않는 패치로 나누고 어텐션을 통해 패치 간의 관계를 포착한다. ViT의 변형 모델로서 다양한 규모의 특징을 계층적으로 얻거나[10], 효율적인 학습을 위해 증류 기법을 사용하는 모델[11]이 등장했다. 나아가, CNN이 고정적인 수용장 내에서 지역적인 특징을 잘 포착한다는 점과 트랜스포머가 전역적인 문맥 정보를 포착하는데 적합하다는 점을 통합한 모델도 등장하였다[12]-[14].

한편, 전역적인 어텐션을 하는 비전 트랜스포머는 이미지 크기에 따라 이차적인 계산량을 수반하기 때문에 고해상도 이미지를 학습하는 데 적합하지 않다. 이러한 문제를 해결하기 위해 어텐션 영역을 윈도우라는 지역으로 제한하는 모델이 등장하였다. 대표적으로 Swin transformer[6]가 있으며 윈도우의 모양이나 어텐션 계산 방식에 따라 다양한 모델들이 있다. CSwin transformer[15]는 십자가 모양으로, Pale transformer[16]는 성긴 모양으로 영역을 제한하여 전역적인 비전 트랜스포머보다는 연산 복잡도를 줄이면서도 풍부한 문맥 정보를 포착할 수 있다. 어텐션 영역을 특정 윈도우로 제한하는 모델들은 서로 다른 윈도우 간의 관계성을 파악하기 어렵다는 문제점이 있다. 이를 해결하기 위해 SW-MSA 방식[6]을 채택하거나 적응형 윈도우로 중첩된 윈도우 간의 정보 교환을 촉진하려는 노력이 있었다[17]. 그러나, 이러한 방식은 가까이에 있는 윈도우 즉, 주변 토큰 간의 관계성만을 파악할 수 있어 거리가 먼 토큰 간의 관계성은 계산하기 어렵다. 본 논문에서는 연관성이 있지만 거리가 멀어 관계성을 포착하기 어려운 토큰들의 상호 작용을 계산하기 위해 이미지 공간뿐만 아니라 특징 공간에서 윈도우를 분할하는 방법을 적용하였다.

2.2 비전에서의 어텐션 기법

어텐션은 많은 데이터 중에서 의미 있는 정보를 추출하는 기법으로 어텐션 점수를 계산하는 방식에 따라 다르게 범주화 할 수 있다. 예를 들어, 채널 어텐션과 공간 어텐션은 각각 이미지의 채널과 공간에 대해 어텐션하는 기법이다. 먼저, 채널 어텐션은 입력 이미지의 ‘무엇’에 집중해야 할지 계산하는 것으로 객체마다 특징 맵의 채널이 다른 표현을 갖는 것에서 착안하였다[18]. SENet[19]은 채널 어텐션의 선구적인 모델로 채널 간의 관계성을 모델링하여 모델의 표현 능력을 향상한다. SENet에서 파생된 ECANet[20]은 차원 축소를 제거하여 모델 복잡성을 줄인다. 공간 어텐션은 이미지의 ‘어디’에 중요한 정보가 있는지에 초점을 맞춘다. 이미지의 공간적인 범위에 걸친 어텐션을 적용한 다양한 모델들이 등장하며 공간 어텐션이 이미지의 주요 부분을 강조하여 모델의 표현력을 개선하는데 도움이 되는 것을 보여주었다[21][22]. 채널 및 공간 어텐션을 통합하여 각각의 장점을 극대화한 모듈도 제안되었다[23][24]. 채널 어텐션과 공간 어텐션이 중요한 부분을 강조하는 것과 달리 셀프 어텐션은 이미지의 구성 픽셀들이 서로 얼마나 유사한지에 따라 어텐션 점수를 계산한다. 본 논문에서는 채널 어텐션, 공간 어텐션, 셀프 어텐션을 모두 활용하여 어텐션 매커니즘을 강화함으로서 모델의 표현력을 향상한다.

3. 제안하는 비전 트랜스포머 모델

3.1 Refined Transformer의 전체 아키텍처

본 절에서는 제안하는 모델인 Refined transformer의 전체적인 구조에 대해 설명한다. 그림 2(a)는 Refined transformer의 전체 구조를 나타낸다. 총 4단계로 구성되어 있으며 각 단계는 패치 병합층, W-MSA 블록, RF-MSA 블록으로 구성되어 있다. 네트워크의 가장 앞 단에는 패치 임베딩 층이 위치하여 입력 이미지를 트랜스포머에 입력할 수 있는 형태로 변환한다. 패치 임베딩은 입력으로 받은 이미지를 겹치지 않는 이미지 패치로 분할하고 차원을 조정하여 트랜스포머 인코더에 입력할 수 있는 형태로 바꾸는 과정이다. 먼저, $h\times w\times 3$크기의 입력 이미지를 $4\times 4$크기의 패치로 분할하여 $4\times 4\times 3=48$사이즈의 패치를 $\dfrac{h}{4}\times\dfrac{w}{4}$개 생성한다. 그 다음, 패치들을 임의의 차원으로 사영하기 위해 선형 임베딩을 적용한다. 임베딩된 패치들에 위치 정보를 융합하면 마치 문장을 구성하는 단어와 같이, 순서가 있는 데이터로 취급할 수 있다.

그림 2. (a) 제안하는 Refined transformer의 전체 구조 (b) 패치 병합 동작 원리 (c) W-MSA블럭과 RF-MSA블럭의 구조

Fig. 2. (a) The overall architecture of Refined transformer (b) The patch merging mechanism (c) The construction of W-MSA block and RF-MSA block

../../Resources/kiee/KIEE.2024.73.6.1004/fig2.png

각 단계의 앞 단에 위치한 패치 병합층은 이전 단계의 결과를 다음 단계에 입력할 때 거치는 층으로 그림 2(b)와 같이 인접한 이미지 패치들을 병합하여 다운샘플링한다. 구성 단계가 깊어질수록 다운샘플링이 여러 번 일어나기 때문에 모델은 다양한 규모의 객체를 학습할 수 있다. 또한, 다운샘플링을 통해 어텐션 연산에 드는 계산 복잡도가 감소하여 계산 속도 측면에도 이점이 있다. 패치 병합 층은 W-MSA 블록, RF-MSA 블록과 연속적으로 이어진다.

(1)

$\hat{X}^{l}=W$-$MSA(LN(X^{l-1}))+X^{l-1}$

$X^{l}=MLP(LN(\hat{X}^{l}))+\hat{X}^{l}$

$\hat{X}^{l+1}=RF-MSA(LN(X^{l}))+X^{l}$

$X^{l+1}=MLP(LN(\hat{X}^{l+1}))+\hat{X}^{l+1}$

W-MSA 블록과 RF-MSA 블록은 각각 레이어 정규화(Layer Normalization, LN) 및 다층 퍼셉트론(multi-layer perceptron, MLP)으로 구성되어 있는데 이때, W-MSA 블록은 Swin transformer에서 제안한 것이다. W-MSA는 그림 1(a)와 같이 이미지를 패치로 나눈 후 고정 크기의 윈도우로 패치들을 묶는다. 그리고 나서 같은 윈도우 내에 속한 패치들끼리 어텐션 연산을 하고 윈도우별 어텐션 결과를 잇는 방식으로 전체 이미지에 대한 어텐션 결과를 얻는다. 기존의 Swin transformer는 W-MSA 이후, 윈도우 간의 정보 교환을 위해 그림 1(b)와 같은 SW-MSA를 계산하지만, 본 논문에서는 이를 RF-MSA로 대체하였다. 따라서, 그림 2(c)의 그림과 같이 두 블록이 연속적으로 이어진 구조를 가지며 식으로 나타내면 식 (1)과 같다. $\hat{X}$은 W-MSA 및 RF-MSA의 결과를, $X$는 LN과 MLP의 결과를 나타낸다.

표 1 Refined transformer의 구성

Table 1 The detailed configurations of Refined transformer

output size

layer

Refined-T

Refined-S

stage 1

56X56

linear embedding

concat 4X4, 96-d, LN

concat 4X4, 96-d, LN

W-MSA block

win(cluster) sz. 7X7,

dim 96, head 3

win(cluster) sz. 7X7,

dim 96, head 3

RF-MSA block

stage 2

28X28

patch merging

concat 2X2, 192-d, LN

concat 2X2, 192-d, LN

W-MSA block

win(cluster) sz. 7X7,

dim 192, head 6

win(cluster) sz. 7X7,

dim 192, head 6

RF-MSA block

stage 3

14X14

patch merging

concat 2X2, 384-d, LN

concat 2X2, 384-d, LN

W-MSA block

win(cluster) sz. 7X7,

dim 384, head 12

X3

win(cluster) sz. 7X7,

dim 384, head 12

X9

RF-MSA block

stage 4

7X7

patch merging

concat 2X2, 768-d, LN

concat 2X2, 768-d, LN

W-MSA block

win(cluster) sz. 7X7,

dim 768, head 24

win(cluster) sz. 7X7,

dim 768, head 24

RF-MSA block

본 연구에서는 각 단계를 구성하는 W-MSA 블록과 RF-MSA 블록의 개수에 따라 Tiny (Refined-T), Small (Refined-S)의 두 가지 버전을 제안하며 Table 1을 통해 Refined transformer의 세부적인 구성을 확인할 수 있다. Refined-T는 세 번째 단계에서 W-MSA와 RF-MSA 블록이 각각 3개씩 포함되고 Refined-S는 9개씩 포함되며 나머지 구성 요소는 같다.

3.2 정제된 특징 공간에서의 어텐션 (RF-MSA)

본 절에서는 RF-MSA 블록의 동작에 대해 설명한다. RF-MSA는 크게 세 단계로 나눌 수 있다. 가장 먼저 특징 공간을 정제하여 중요한 부분은 강조하고 아닌 곳은 억제한다. 그러고 나서, 정제된 특징 공간에 대해 유사한 토큰끼리 군집화하고 마지막으로, 군집 내에서 어텐션을 수행한다. 이어지는 절에서 이 세 단계에 대해 세부적으로 설명한다.

3.2.1 CBAM을 사용한 특징 공간 정제

특징 공간에서 중요한 부분을 강조하고 아닌 곳을 억제하면서 모델의 표현력을 향상하기 위해 정제 과정을 거친다. 이때, Convolutional Block Attention Module (CBAM)[23]을 사용하는데 CBAM은 풀링과 합성곱으로 구현된 어텐션 매커니즘을 포함하며 그림 3(a)와 같이 채널 어텐션과 공간 어텐션으로 구성되어 있다. 먼저, 그림 3(b)에 나타낸 채널 어텐션을 계산한다. 이때, 입력 특징의 각 채널이 갖는 특징 맵을 취합하기 위해 최대 풀링과 평균 풀링을 동시에 적용하여 공간 차원을 압축한다. 이전의 연구에서는 평균 풀링만을 사용하였는데[19] CBAM에서는 최대 풀링을 함께 적용하여 더욱 정교하게 채널 어텐션을 할 수 있다. 풀링이 적용된 특징맵 각각을 동일한 MLP에 통과시킨 결과를 요소별 덧셈하여 시그모이드 함수에 통과시키면 공간적 차원이 압축된 채널-정제 특징맵이 산출된다. 채널-정제 특징맵을 정제하기 전의 특징맵과 요소별 곱셈하면 중요한 정보를 담고 있는 채널이 강조된 특징맵을 얻을 수 있다.

채널 어텐션을 통해 얻은 채널-정제된 특징 맵을 그림 3 (c)에 나와있는 공간 어텐션 모듈에 통과시킨다. 공간 어텐션은 채널 어텐션과 같이 최대 풀링과 평균 풀링으로 구성되어 있지만 차이점은 두 개의 풀링이 연속적으로 적용된다는 것이다. 풀링의 결과로 얻은 특징 맵에 $7\times 7$크기의 필터를 합성곱하고 이를 시그모이드에 통과시켜 공간-정제 피처 맵을 얻는다. 이렇게 얻은 특징 맵을 공간 어텐션 적용 전의 특징맵, 즉 채널-정제 특징맵과 요소별 곱셈하면 채널 및 공간에 대해 정제된 형태의 새로운 특징맵을 구할 수 있다. 입력 특징 𝐹에 대한 정제 과정을 식으로 나타내면 식 (2)과 같다.

(2)

$R_{c}(F)=\sigma(MLP(Avg Pool(F))+MLP(\max Pool(F)))$

$R_{s}(F)=\sigma(Conv(concat(Avg Pool(F),\: \max Pool(F))))$

$F_{c}=R_{c}(F)\otimes F$

$F_{new}=R_{s}(F_{c})\otimes F_{c}$

위 식에서 $\sigma$는 시그모이드 함수를 나타내고 $\otimes$는 두 특징맵의 요소별 곱셈을 의미한다. 또한, $R_{c},\: R_{s}$는 각각 채널 어텐션과 공간 어텐션을, $F_{c},\: F_{new}$ 는 각각 채널-정제 특징맵과 채널 및 공간에 대해 정제된 최종적인 새로운 특징맵을 나타낸다.

그림 3. CBAM의 전체 구조

Fig. 3. Overview of CBAM

../../Resources/kiee/KIEE.2024.73.6.1004/fig3.png

3.2.2 특징 유사도를 기반으로 한 토큰 군집화

정제된 특징맵에서 토큰의 유사도를 기반으로 군집화한다. 이때, 군집의 크기가 일정해야 GPU에서 병렬 연산을 효율적으로 할 수 있으므로 균등 이진 군집화[7]를 채택한다. 균등 이진 군집화는 N개의 토큰을 N/2개씩 같은 크기의 두 군집으로 나누는 방식을 말한다. 가장 먼저, 입력을 무작위의 두 군집으로 나누고 각 군집의 평균값으로 두 개의 무게 중심 $c_{1}$과 $c_{2}$를 초기화한다. 초기 무게 중심과 토큰들 간의 유사도를 구하고 두 무게 중심 $c_{1}$과 $c_{2}$중 어느 값과 더 가까운지에 따라 해당 토큰의 군집이 결정된다.

(3)
$r_{i}=\dfrac{s(t_{i},\: c_{1})}{s(t_{i},\: c_{2})},\: \forall\in[1,\: N]$

(3)을 통해 더욱 가까운 무게 중심 값을 구할 수 있다. 식 (3)에서 $s$는 군집의 무게 중심과 토큰 사이의 코사인 유사도를 의미한다. 결과의 내림차순에 따라 토큰의 일련 번호를 정렬하면 $c_{1}$과 가까운 토큰일수록 앞쪽에 정렬된다. 즉, 정렬된 일련 번호 중 앞쪽의 토큰들은 1번 군집으로, 나머지는 2번 군집으로 군집화할 수 있다. 새롭게 생성된 군집의 평균을 구해 무게 중심 $c_{1}$과 $c_{2}$를 각각 갱신한다. 갱신된 무게 중심에 대해 위의 과정을 반복하면 크기가 같은 군집들을 구할 수 있다. 단계별 이미지 해상도 변화와 그에 따른 군집화 반복 횟수는 Table 2의 Iter열과 같다. $N_{p}$는 패치의 개수를, $C_{s}$는 군집의 크기를 나타낸다. 매 단계에서 군집의 크기를 모두 동일하게 유지해야 하는데 패치 병합 층에 의해 단계별 이미지의 해상도가 다운샘플링 되므로 모델의 층이 깊어질수록 군집화 반복 횟수가 줄어든다.

표 2 단계 별 군집화 반복 횟수

Table 2 Number of clustering iterations by stage

stage

# patches

cluster sz.

Iter

$\log_{2}(N_{p}/ C_{s})$

1

56X56=3136 49

6

2

28X28=784 49

4

3

14X14=196 49

2

3.2.3 군집 내에서의 multi-head self-attention

각 군집 내에서 multi-head self-attention을 통해 군집을 구성하는 토큰 간의 관계성을 파악한다. 이때, multi-head self-attention이란, 셀프 어텐션을 헤드의 개수만큼 여러 번 반복하는 기법을 말한다. 이렇게 하면 각 헤드에서의 어텐션 결과가 서로 보완되어 다양한 상호 작용을 표현할 수 있다.

(4)

$Q_{j}=\left\{q_{1},\: ... ,\: q_{h}\right\}$

$K_{j}=\left\{k_{1},\: ... ,\: k_{h}\right\}$

$V_{j}=\left\{v_{1},\: ... ,\: v_{h}\right\}$

$head_{i}=Attention(q_{i},\: k_{i},\: v_{i})$

각 헤드에서의 셀프 어텐션 식은 (4)와 같이 표현할 수 있다. 여기서 $Q_{j},\: K_{j},\: V_{j}$는 각각 위치 정보가 융합된 패치로부터 얻은 쿼리, 키, 값 행렬이며 $h$는 헤드의 개수이다.$Attention(Q,\: K,\: V)$는 $soft\max(Q\bullet K^{T}/\sqrt{d})\bullet V$로 계산한다. $d$는 $Q,\: K$의 차원으로서 $Q\bullet K^{T}$ 의 계산 결과를 $\sqrt{d}$로 나누는 정규화를 통해 학습 과정에서의 기울기를 안정화한다. 이렇게 얻은 어텐션 점수를 소프트맥스 함수를 통해 확률로 변환하고 마지막으로 $V$를 곱해준다. 어텐션 결과가 높을수록 이어지는 층에서 추가적인 집중을 받게된다. 식 (4)의 어텐션 결과를 이은 것이 multi-head self-attention으로 식 (5)와 같다.

(5)
$Multi Head(Q_{j},\: K_{j},\: V_{j})=Concat(head_{1},\: ... ,\: head_{h})$

각 군집 내에서 수행한 multi-head self-attention 연산의 결과를 모두 이어 이미지 전체에 대한 어텐션 결과를 얻는다.

3.3 다른 네트워크와의 성능 비교

제안한 모델의 분류 성능을 다른 네트워크와 비교한다. 4개의 A6000 GPU에서 배치 크기 256을 사용하여 실험하였고 그 외 실험 환경 설정은 DeiT[11]와 Swin transformer[6]을 따른다. 총 300 에폭 중 처음 20 에폭 동안 선형 웜업을 적용하였다. AdamW 옵티마이저는 가중치 감쇠를 0.05로 설정하여 사용했으며 초기 학습률은 0.001이다. Dropout은 Refined-T에서 0.2, Refined-S에서 0.3를 적용한다. 학습 및 평가는 224×224 크기의 ImageNet-1K 이미지로 수행되며, 이 데이터셋에는 1,000개의 클래스로 구성된 1.28백만 개의 훈련 이미지와 5만 개의 검증 이미지가 포함되어 있다. ImageNet-1K에 대해 학습한 결과는 Table 3와 같다. Swin-T 보다는 Refined-T가 0.3% 성능이 개선되었으며 Swin-S보다 Refined-S는 0.2% 성능이 개선되었다.

표 3 이미지넷에 대해 다른 모델들과 성능 비교한 결과

Table 3 Comparison of different models on the ImageNe t-1k dataset

model

#param

Input size

FLOPs

Top-1

(%)

ResNet-18[1]

12M

224

1.8G

70.3

ResNet-50

26M

224

3.8G

76.7

ResNet-101

45M

224

7.6G

78.3

ResNet-152

60M

224

11.3G

78.9

ViT-B/16[5]

87M

224

17.6G

77.9

ViTAE-T[27]

4.8M

224

1.5G

75.3

DeiT-S/16[11]

22M

224

4.6G

79.8

PVT-Tiny[10]

13M

224

1.9G

75.1

PVT-Small

25M

224

3.8G

79.8

PVT-Medium

44M

224

6.7G

81.2

TNT-S[28]

24M

224

5.2G

81.3

Swin-T[6]

29M

224

4.5G

81.3

T2T-ViT-14[29]

22M

224

5.2G

81.5

CrossViT-S[30]

27M

224

5.4G

81.3

Refined-T

37M

224

4.5G

81.6

Twins-SVT-S

[25]

24M

224

2.9G

81.7

PVT-Large

61M

224

9.8G

81.7

DeiT-B

87M

224

17.5G

81.8

T2T-ViT-19

39M

224

8.9G

81.9

ConViT-S+[26]

48M

224

10.0G

82.2

ConViT-B

86M

224

17.0G

82.4

ConvViT-B+

152M

224

30.0G

82.5

TNT-B

66M

224

14.1G

82.8

Swin-S

50M

224

8.7G

83.0

Refined-S

66M

224

8.7G

83.2

4. 결 론

본 논문에서는 모델의 표현력을 강화한 정제된 특징 공간에서 특징 벡터간 유사도를 기반으로 윈도우를 분할하고 분할된 윈도우 내에서 지역 어텐션을 계산하는 방식이 적용된 네트워크를 제안한다. 기존의 윈도우 기반 어텐션이 서로 다른 윈도우 간의 관계성을 포착하는 데에 취약하다는 점을 보완하기 위해 제안되었으며 대표적인 윈도우 기반 어텐션 비전 트랜스포머인 Swin transformer에서 제안하는 SW-MSA 기법을 대체하면서 개선된 분류 성능을 달성하였다. 본 연구는 이미지 공간에서의 윈도우 어텐션 방식을 넘어서, 특징 공간에서의 윈도우 어텐션을 활용한 문맥 정보 보완 방식을 적용함으로써 분류 성능을 개선한 것에 의의가 있다.

비전 트랜스포머는 복잡한 상황과 다양한 크기의 물체를 인지하는데 이점이 있으므로 향후 자율주행과 같은 분야에 활용할 수 있다. 더욱 고도화된 자율주행을 위해서는 현실 세계에서 발생할 수 있는 다양한 상황에 대한 학습이 필요한데 비전 트랜스포머의 성능 향상을 위해선 학습에 많은 양의 데이터를 사용해야 하므로 데이터셋의 확보가 중요한 과제로 남아있다. 또한, 실시간 인지를 위해서는 연산량의 개선이 불가피하며 이러한 방향으로 연구를 해나간다면 비전 트랜스포머를 더욱 다양한 연구 분야에 활용할 수 있을 것으로 기대된다.

Acknowledgements

이 논문은 2024년도 정부(산업통상자원부)의 재원으로 한국산업기술진흥원의 지원을 받아 수행된 연구임(P0020536, 2024년 산업혁신인재성장지원사업).

References

1 
A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” Advances in neural information processing systems, vol. 25, pp. 1097-1105, 2012.URL
2 
K. Simonyan, and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in ICLR, 2015.DOI
3 
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in CVPR, 2015.URL
4 
K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, 2016.URL
5 
A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby, “An image is worth 16×16 words: Transformers for image recognition at scale,” in ICLR, 2021.DOI
6 
Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo, “Swin transformer: Hierarchical vision transformer using shifted windows,” In Proceedings of the IEEE/CVF international conference on computer vision, pp. 10012-10022, 2021.URL
7 
T. Yu, G. Zhao, P. Li, and Y. Yu, “BOAT: Bilateral local attention vision transformer,” arXiv preprint arXiv:2201.13027, 2022.DOI
8 
J. Deng, W. Dong, R. Socher, L. J. Li, K. Li, and L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” In 2009 IEEE conference on computer vision and pattern recognition, pp. 248-255, 2009.DOI
9 
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaised, I. Polosukhin, “Attention is all you need,” Advances in neural information processing systems, 2017.URL
10 
W. Wang, E. Xie, X. Li, D. P. Fan, K. Song, D. Liang, T. Lu, P. Luo, and L. Shao, “Pyramid vision transformer: A versatile backbone for dense prediction without convolutions,” In Proceedings of the IEEE/CVF international conference on computer vision, pp. 568-578, 2021.URL
11 
H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles, and H. Jégou, “Training data-efficient image transformers & distillation through attention,” In International conference on machine learning, pp. 10347-10357, PMLR, 2021.URL
12 
J. Guo, K. Han, H. Wu, Y. Tang, X. Chen, Y. Wang, and C. Xu, “Cmt: Convolutional neural networks meet vision transformers,” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 12175- 12185, 2022.URL
13 
J. Fang, H. Lin, X. Chen, and K. Zeng, “A hybrid network of cnn and transformer for lightweight image super-resolution,” In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 1103-1112, 2022.URL
14 
H. Wu, B. Xiao, N. Codella, M. Liu, X. Dai, L. Yuan, and L. Zhang, “Cvt: Introducing convolutions to vision transformers,” In Proceedings of the IEEE/CVF international conference on computer vision, pp. 22-31, 2021.URL
15 
X. Dong, J. Bao, D. Chen, W. Zhang, N. Yu, L. Yuan, D. chen, and B. Guo, “Cswin transformer: A general vision transformer backbone with cross-shaped windows,” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 12124-12134, 2022.URL
16 
S. Wu, T. Wu, H. Tan, and G. Guo, “Pale transformer: A general vision transformer backbone with pale-shaped attention,” In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 3, pp. 2731-2739, 2022.DOI
17 
Q. Zhang, Y. Xu, J. Zhang, and D. Tao, “Vsa: Learning varied-size window attention in vision transformers,” In European conference on computer vision, Cham: Springer Nature Switzerland, pp. 466-483, 2022.DOI
18 
M. D. Zeiler, and R. Fergus, “Visualizing and understanding convolutional networks,” In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part I 13, pp. 818-833, Springer International Publishing, 2014.DOI
19 
J. Hu, L. Shen, S. Albanie, G. Sun, and E. Wu, “Squeeze- and-excitation networks,” In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 7132-7141, 2018.URL
20 
Q. Wang, B. Wu, P. Zhu, P. Li, W. Zuo, and Q. Hu, “ECA-Net: Efficient channel attention for deep convolutional neural networks,” In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 11534-11542, 2020.URL
21 
Z. Meng, J. Ma, and X. Yuan, “End-to-end low cost compressive spectral imaging with spatial-spectral self-attention,” In European conference on computer vision, pp. 187-204, Cham: Springer International Publishing, 2020.DOI
22 
X. Wang, R. Girshick, A. Gupta, and K. He, “Non-local neural networks,” In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 7794-7803, 2018.URL
23 
S. Woo, J. Park, J. Y. Lee, and I. S. Kweon, “Cbam: Convolutional block attention module,” In Proceedings of the European conference on computer vision, ECCV, pp. 3-19, 2018.URL
24 
J. Park, S. Woo, J. Y. Lee, and I. S. Kweon, “Bam: Bottleneck attention module,” arXiv preprint arXiv:1807.06514, 2018.DOI
25 
X. Chu, Z. Tian, Y. Wang, B. Zhang, H. Ren, X. Wei, H. Xia, and C. Shen, “Twins: Revisiting the design of spatial attention in vision transformers,” Advances in Neural Information Processing Systems, vol. 34, pp. 9355-9366, 2021.URL
26 
S. d’Ascoli, H. Touvron, M. L. Leavitt, A. S. Morcos, G. Biroli, and L. Sagun, “Convit: Improving vision transformers with soft convolutional inductive biases,” In International Conference on Machine Learning, pp. 2286-2296, PMLR, 2021.URL
27 
Y. Xu, Q. Zhang, J. Zhang, and D. Tao, “Vitae: Vision transformer advanced by exploring intrinsic inductive bias,” Advances in Neural Information Processing Systems, vol. 34, pp. 28522-28535, 2021.URL
28 
K. Han, A. Xiao, E. Wu, J. Guo, C. Xu, and Y. Wang, “Transformer in transformer,” Advances in Neural Information Processing Systems, vol. 34, pp. 15908-15919, 2021.URL
29 
L. Yuan, Y. Chen, T. Wang, W. Yu, Y. Shi, Y, Z. Jiang, F. E. H. Tay, J. Feng, and S. Yan, “Tokens-to-token vit: Training vision transformers from scratch on imagenet,” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 558-567, 2021.URL
30 
C. F. Chen, Q. Fan, and R. Panda, “Crossvit: Cross-attention multi-scale vision transformer for image classification,” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 357-366, 2021.URL

저자소개

유다연(Dayeon Yoo)
../../Resources/kiee/KIEE.2024.73.6.1004/au1.png

She received the B.S. degree in Automotive Engineering from Kookmin University, Seoul, Republic of Korea, in 2022. She is currently pursuing the M.S. degree in Automotive IT Convergence and conducting research with the Intelligent Vehicle Signal Processing Lab. Her research interests include deep learning, computer vision, and autonomous driving technologies.

유진우(Jinwoo Yoo)
../../Resources/kiee/KIEE.2024.73.6.1004/au2.png

He received his BS, MS, Ph.D. in electrical engineering from Pohang University of Science and Technology (POSTECH) in 2009, 2011, 2015, respectively. He was a senior engineer at Samsung Electronics from 2015 to 2019. He is currently an Associate Professor in the department of Automobile and IT Convergence, College of Automotive Engineering at Kookmin University. His current research interests are autonomous driving technologies and signal/image processing techniques.