• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Department of Electronics and Computer Engineering, Seokyeong University, Korea.)



Cross-Modality Person Re-identification, Data Augmentation, GAN, Cut-Mix

1. 서 론

사람 재식별(person re-identification)은 다중 카메라 환경에서 얻어진 여러 이미지 중에서 특정 사람을 검색하거나 구별해 내는 작업으로, 보안, 범죄 예방, 실종자 탐색 등 다양한 분야에 활용되고 있다 [1, 2]. 그러나 대부분의 재식별 기법은 낮에 촬영된 영상에 적합하도록 학습되기 때문에, 야간 환경에서 촬영된 영상에 대해서는 낮은 성능을 보인다.

이를 해결하기 위해 적외선(Infrared) 영상과 컬러(가시 광선, Visible) 영상 간의 재식별을 수행하는 교차 양식(Cross-Modality) 기반 사람 재식별에 대한 연구가 활발히 진행되고 있다 [3, 4, 5, 6]. 그러나 컬러 영상과 적외선 영상 간의 큰 시각적 차이로 인해 재식별의 난이도는 매우 높다. 이를 완화하기 위해 두 양식에 다양한 마스크를 적용하는 방법 [3], 적외선 영상과 유사한 컬러 영상을 생성하는 방법 [4], 각 양식에 대한 intra 공간의 거리 분석 [5], 그리고 양식-특화 특징과 양식-공유 특징 간의 균형을 고려하는 방법 [6] 등이 제안되었다. 이들 연구는 주로 모델을 변형하여 두 양식간의 차이를 줄이거나 분기 구조를 추가하여 양식의 공통 특성과 차이를 활용하고 있다. 그러나 이들 기법은 모델의 내부 구성에 초점을 맞춘 것으로 모델 구조가 복잡해지는 단점이 있다. 또한 대부분의 연구가 모델과 손실함수 구성을 다루고 있고, 입력단의 데이터 증식에 관한 연구는 대표적으로 사용되는 Random Erasing [9] 이외에는 거의 이루어지지 않고 있다.

본 논문에서는 컬러와 적외선 사이의 큰 차이에 따른 식별의 어려움에 대해서 데이터 증식을 통해 대처하고자 한다. 구체적으로 적대적생성(GAN) 방식을 사용하여 컬러에서 적외선 영상의 생성 및 적외선에서 컬러 영상의 생성을 양방향으로 수행한다. 상대되는 양식의 이미지를 생성하고, 여기에 양측 이미지의 부분 조각들을 서로 교체하여 데이터의 다양성과 양식 간의 특징 차이를 줄이는 데이터 증식 기법을 제안한다. 즉, 기존의 데이터 증식 기법들이 동일 양식 내에서의 생성만을 수행하는 데 비해, 제안된 증식 기법은 다른 양식 간의 이미지 일부까지도 교체하기 때문에 상대 양식의 일부 정보가 포함되어 있다. 따라서 혼합된 양식을 사용하는 제안된 기법은 데이터의 다양성을 증가시키는 것뿐만 아니라, 직접적으로 두 양식 간의 차이를 효과적으로 줄일 수 있다.

본 논문의 기여는 다음과 같다.

1. 기존의 동일 양식에서의 증식과 달리 적대적생성(GAN) 방식을 사용하여 컬러와 적외선 영상 간의 양방향 데이터 증식을 수행하였다.

2. 적대적생성에 CutMix 기법을 추가 적용하여 부분적인 교체를 수행함으로써, 증식 효과의 다양화를 획득하였다.

3. 교차 양식 사람 재식별 데이터 중에서 가장 어려운 SYSU-MM01 [7]에 대하여 제안된 기법을 타 기법들과 비교하여 평가하였고, 우수한 성능을 확인했다.

2. 교차 양식 사람 재식별

2.1 일반 사람 재식별

일반 사람 재식별은 RGB 카메라로 얻어진 컬러 영상 간의 동일한 사람을 찾는 작업으로, 그림 1과 같이 비교하는 영상 간의 시각적 차이가 크지 않다.

그림 1. 일반 재식별 예시

Fig. 1. Example of visible and infrared image pair

../../Resources/kiee/KIEE.2026.75.6.1378/fig1.png

2.2 교차 양식 사람 재식별의 난이도

컬러와 적외선 영상 간의 교차 양식 사람 재식별은 영상간의 시각적 차이가 크다 그림 2에 나온 것처럼 영상의 해상도가 높지 않고, 컬러와 적외선 영상의 특성이 매우 다르기 때문에 이의 매칭이 매우 어렵다. 적외선 영상은 시각적으로 그레이 스케일과 비슷해 보이지만, 눈을 포함한 얼굴의 모습이 확연히 다르고, 복장에 대한 밝기 표현 및 영상의 질감도 매우 다르다. 위와 같은 이유로 컬러와 적외선 간의 재식별 수행은 어려운 문제이다.

그림 2. 교차 양식 재식별 예시

Fig. 2. Example of visible and infrared image pair

../../Resources/kiee/KIEE.2026.75.6.1378/fig2.png

3. GAN 기반 혼합 양식 데이터 증식

3.1 교차 양식 재식별에서의 기존 데이터 증식

기존 재식별 기법은 한정적인 데이터를 다양화하기 위해 어파인 변환인 Random Crop, Random Horizontal Flip 등을 사용한 증식이나, 재식별 연구에서 대표적으로 사용되는 임의 일부 삭제 방식인 Random Erasing(RE) 증식 [9] 등을 사용한다. 그림 3에 이들 방식에 대한 예시가 나와 있다. 그러나 이러한 기법들은 단순히 데이터의 다양성을 증가시키지만, 양식 간의 차이를 좁히는데 기여하지는 못하고 있다.

그림 3. 기존 데이터 증식 예시

Fig 3. Examples of existing data augmentation

../../Resources/kiee/KIEE.2026.75.6.1378/fig3.png

3.2 제안된 GAN 기반 데이터 증식

본 논문에서는 적대적 생성 방식인 GAN을 사용하여 컬러에서 적외선, 적외선에서 컬러 이미지를 생성한다. 이 방식은 기존의 동일한 양식의 이미지에서 일부분에 단순한 변형을 가하는 것이 아니라 한 양식의 특징을 최대한 유지하면서 다른 양식으로 변환하는 장점을 지닌다. 제안된 기법에서는 상대 양식의 이미지를 적대적 학습을 통해 생성하기 위해 Cycle GAN [10]을 적용한다. 상대 양식 생성 모델은 그림 4와 같이 컬러 이미지 $x_V$ 를 적외선 양식 이미지 $\hat{I}$로 생성하는 모델 $G_{VI}$와 적외선 이미지 $x_I$를 컬러 양식 이미지 $\hat{V}$으로 생성하는 모델 $G_{IV}$로 구성된다. 학습된 생성 모델은 입력 이미지에 대해서 상대 양식으로 변환된 이미지를 생성한다.

그림 4. 상대 양식 이미지 생성자

Fig 4. Image Generator for opposite modality

../../Resources/kiee/KIEE.2026.75.6.1378/fig4.png

3.3 CutMix 기반 혼합 양식 데이터 증식

3.1절에서 설명한 상대 양식의 영상을 생성하여 증식을 수행하는 것 외에도 교차 양식에 유효한 다양성을 증가시키기 위해서 이미지의 부분들을 서로 다른 양식에서 가져와 교체하는 혼합 양식의 증식을 추가로 수행한다. 이때, 부분 이미지의 교체는 CutMix [11] 방식을 참고하였다.

기존의 CutMix 기반의 데이터 증식은 주로 일반 재식별에서 사용되며, 원본 이미지의 특정 영역을 다른 이미지의 조각으로 대체하여 합성한다. 이를 교차 양식 재식별에 적용한다면 혼합된 양식을 가지는 이미지를 합성할 수 있다. 그러나 이러한 접근은 원본 이미지의 일부 특징과 상대 이미지 특징의 위치 등이 맞지 않아서 오히려 학습에 방해가 될 수 있다. 따라서, 특징은 유지되고 양식만 교체된 이미지를 합성할 필요가 있다. 이를 위해, 원본 이미지의 일부를 특징이 유지되도록 생성된 교차 양식 이미지로 대체하는 GAN 기반 혼합 양식의 데이터 증식 기법을 식 (1)-(3)과 같이 제안한다.

(1)
$CutMix(x_V, \hat{I}) = M \odot x_V + (1 - M) \odot \hat{I}, \\ CutMix(x_I, \hat{V}) = M \odot x_I + (1 - M) \odot \hat{V}$
(2)
$G_{VI}(x_V) = \hat{I}, G_{IV}(x_I) = \hat{V}$
(3)
$M \in \{0, 1\}^{W \times H}$

$x_V$, $x_I$은 각각 컬러, 적외선 양식을 갖는 입력 이미지이고, $\hat{I}$, $\hat{V}$은 각각 입력을 학습된 생성 모델 $G_{VI}$, $G_{IV}$을 통과하여 생성된 상대 양식 이미지이다. $M$은 마스킹 매트릭스로, 이는 두 이미지를 합성할 때의 특정 영역을 나타내며 0 또는 1의 값을 가진다. $\odot$는 element-wise 행렬곱을 의미한다. 제안된 기법을 통해 증식된 이미지는 특징은 유지하면서 혼합된 양식을 갖고, 차별적인 특징 학습의 방해 없이 양식 간의 차이는 줄인다. 그림 5에 혼합 양식 데이터 증식 구조도가 나와 있다.

그림 5. 제안된 혼합 양식의 데이터 증식

Fig 5. Proposed mixed modality based data augmentation

../../Resources/kiee/KIEE.2026.75.6.1378/fig5.png

3.4 손실 함수

손실 함수는 식 (4)와 같이 ID 분류를 위한 Cross Entropy 기반의 Identity Loss [7]와 표현 공간에서의 거리 학습을 위한 Triplet Loss [7]를 결합하여 구성된다. Identity Loss는 각 샘플이 해당 사람의 ID로 식별되는지를 지도하며, Triplet Loss는 동일 ID(사람)의 특징 표현은 서로 가깝게, 서로 다른 사람의 특징 표현은 멀어지도록 제약함으로써 표현 공간에서의 판별력을 향상시킨다. 이를 통해 서로 다른 모달리티에서 획득된 동일 인물의 특징이 더 효과적으로 정렬되도록 유도한다.

(4)
$Loss = L_{ce}^{id} + L_{tri}^{id}$

그림 6. 전체 모델 구성도

Fig 6. Proposed mixed modality based data augmentation

../../Resources/kiee/KIEE.2026.75.6.1378/fig6.png

3.5 전체 모델 구성

교차 양식 사람 재식별을 위한 전체 학습 모델이 그림 6에 나와 있다. 사전 학습된 GAN 모델을 가지고 생성한 이미지에 추가적으로 CutMix 부분 교체를 통해 입력 이미지에 대한 증식을 수행한다. 이때, 각 학습 배치에서 컬러와 적외선 영상을 각각 8개씩 샘플링한다. 이렇게 증식된 이미지들이 공유된 ResNet 백본에 입력되며, 2048 차원의 임베딩 공간으로 매핑된 후, Identity Loss와 Triplet Loss를 적용하여 학습된다.

각 학습 배치에서는 컬러와 적외선 영상을 각각 8개씩 샘플링하며, 양식 간 분포 차이를 완화하기 위해 사전 학습된 GAN 모델 기반 증식과 CutMix 기반 증식을 수행한다. 이후 증식된 샘플들은 공유된 ResNet 백본을 통해 2048 차원의 임베딩 공간으로 매핑되며, Identity Loss와 Triplet Loss를 적용하여 학습한다.

4. 실험 및 결과 분석

4.1 실험 환경

SYSU-MM01 데이터는 컬러 카메라 4대, 적외선 카메라 2대로 촬영되었다. 학습 데이터는 395개 ID에 대한 22,258장의 컬러 이미지와 11,900장의 적외선 이미지로 구성된다. 테스트 데이터는 3,010장 중에 무작위로 선택된 컬러 이미지 301장과 적외선 이미지 3,803장을 사용한다. 해당 실험은 Nvidia RTX 3090 GPU를 사용하여 수행되었다. GAN 모델의 사전 학습에는 100 epoch, 4시간이 소요 되었으며, 백본의 학습에는 200 epoch와 8시간이 소요되었다

4.2 실험 결과

증식 중점의 연구가 적어서, 정확한 기법 간의 비교는 쉽지 않기 때문에 표현방식, 모델 구조 및 손실함수에 대한 연구들을 포함하여 재식별에서 대표적으로 사용되는 Random Erasing (RE) [8]을 중점으로 사용한 연구들과 비교하였다.

표 1은 기존의 대표적 기법과 제안된 기법을 비교한 실험 결과이다. 평가 지표로 R-1(Rank-1)와 mAP(mean Average Precision)를 사용한다. 제안된 기법이 최신 기법 중 MID [12] 대비 성능이 R-1에서 7.53% mAP에서는 5.51%가 향상되었고, FMCNet [16]에 비해서는 R-1에서 1.4% mAP에서는 2.41%가 향상되었다.

표 1. 기존 기법과의 성능 비교

Table 1. Comparison existing methods on SYSU-MM01

Method Rank-1 (%) mAP (%)
MID [12] 60.27 59.40
AGW-R1 [13] 64.87 63.15
SPOT [14] 65.34 62.25
MCLNet [15] 65.4 61.98
FMCNet [16] 66.34 62.51
Ours 67.74 64.91

* 비교 기법들은 모두 데이터 증식으로 Random Erasing [ ] 사용

제안된 기법을 통해 증식된 컬러 및 적외선 영상의 예시는 그림 7에 나와 있다. 상단은 적외선 영상으로부터 생성된 컬러 영상이며, 하단은 컬러로부터 생성된 적외선 영상이다. 증식된 영상은 반대 양식의 부분 정보를 포함함으로써 특징 표현의 정보량이 증가함을 확인할 수 있다. 그림 8은 제안 기법에 RE를 적용한 결과 영상이다. 일부분을 삭제함으로써 생성된 영상에서 특징 변화를 발생시켜 증식 효과를 더 높일 수 있다. 그림 7에 비해서 각 양식의 영상에서 RE에 의해 삭제된 사각형으로 표시된 부분들이 보인다.

표 2는 베이스라인과 제안 기법의 성능 차이 및 Random Erasing의 적용 여부에 대한 ablation study 결과를 보여준다. 여기서 베이스라인은 Random Erasing의 적용 영향을 파악하기 위해서 기본 프레임워크를 사용하였다. 베이스라인의 성능에 비해서 제안된 기법이 Rank-1/mAP에 대해서 각각 14.52%/8.98% 증가하였다. 그리고, Random Erasing을 적용한 경우에도 제안된 기법이 Rank-1/mAP에 대해서 각각 14.52%/8.98% 증가하였음을 보여준다.

그림 7. 생성된 혼합 증식 이미지 예시 - Ours

Fig. 7. Examples of generated mixed-augmentation images - Ours

../../Resources/kiee/KIEE.2026.75.6.1378/fig7.png

그림 8. 생성된 혼합 증식 이미지 예시 - Ours (Random Erasing)

Fig. 8. Examples of generated mixed-augmentation images - Ours (Random Erasing)

../../Resources/kiee/KIEE.2026.75.6.1378/fig8.png

표 2. 제안 기법의 결합 비교

Table 2. Ablation study of the proposed method

Index baseline baseline + RE Ours Ours + RE mAP R-1
1 50.46 54.44
2 57.22 56.05
3 64.98 63.42
4 67.74 64.9

5. 결 론

본 논문에서는 교차 양식 사람 재식별에서 상대적으로 연구가 부족했던 데이터 증식 관점에 초점을 맞추어, GAN 기반 변환과 혼합 양식 정보를 결합한 데이터 증식 기법을 제안하였다. 제안된 방법은 컬러와 적외선 영상 간 분포 차이를 완화하고 데이터 다양성을 향상시켜 보다 강건한 특징 표현 학습을 가능하게 한다. SYSU-MM01 데이터셋을 이용한 실험 결과, 제안된 방법은 기존 기법 대비 우수한 성능을 보였다. 특히 MID 대비 Rank-1 정확도 7.53%, mAP 5.51% 향상을 달성하였으며, FMCNet 대비 Rank-1 1.4%, mAP 2.41% 향상을 확인하였다. 이는 제안된 증식 기법이 교차 양식 간 특징 정렬과 표현력 향상에 효과적으로 기여함을 보여준다. 또한 증식 영상 분석을 통해 반대 양식의 부분 정보를 포함함으로써 특징 표현의 정보량이 증가함을 확인하였다. Random Erasing과의 결합 역시 추가적인 증식 효과를 제공하였다. 향후에는 다양한 교차 양식 환경으로 확장하는 연구가 필요할 것으로 기대된다.

Acknowledgements

This Research was supported by Seokyeong University in 2023.

References

1 
M. Ye, J. Shen, G. Lin, T. Xiang, L. Shao, S. C. Hoi, "Deep Learning for Person Re-Identification: A Survey and Outlook," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 44, no. 6, pp. 2872-2893, 2022. DOI
2 
S. Kim, S. Kang, H. Choi, S. Kim, K. Seo, "Keypoint-Aware Robust Representation for Transformer-Based Re-Identification of Occluded Person," IEEE Signal Processing Letters, vol. 30, pp. 65-69, 2023. DOI
3 
A. Josi, M. Alehdaghi, R. M. Cruz, E. Granger, "Multimodal Data Augmentation for Visual-Infrared Person Re-Identification with Corrupted Data," pp. 32-41, 2023. Google Search
4 
M. Ye, W. Ruan, B. Du, M. Shou, "Channel-Augmented Joint Learning for Visible-Infrared Recognition," pp. 13567-13576, 2021. Google Search
5 
S. Kim, S. Gwon, K. Seo, "Enhancing Diverse Intra-Identity Representation for Visible-Infrared Person Re-Identification," pp. 2513-2522, 2024. Google Search
6 
S. Gwon, S. Kim, K. Seo, "Balanced and Essential Modality-Specific and Modality-Shared Representations for Visible-Infrared Person Re-Identification," IEEE Signal Processing Letters, vol. 31, pp. 491-495, 2024. DOI
7 
A. Wu, W. Zheng, H. Yu, S. Gong, J. Lai, "RGB-Infrared Cross-Modality Person Re-Identification," pp. 5380-5389, 2017. Google Search
8 
W. Chae, S. Gwon, Y. Koo, K. Seo, "Mixed-Modality-Based Data Augmentation for Cross-Modality Person Re-Identification Using GAN," vol. 34, no. 1, pp. 43-44, 2024. Google Search
9 
Z. Zhong, L. Zheng, G. Kang, S. Li, Y. Yang, "Random Erasing Data Augmentation," 2020. Google Search
10 
J. Zhu, T. Park, P. Isola, A. A. Efros, "Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks," pp. 2223-2232, 2017. Google Search
11 
S. Yun, D. Han, S. J. Oh, S. Chun, J. Choe, Y. Yoo, "CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features," pp. 6023-6032, 2019. Google Search
12 
Z. Huang, J. Liu, L. Li, K. Zheng, Z.-J. Zha, "Modality-Adaptive Mixup and Invariant Decomposition for RGB-Infrared Person Re-Identification," vol. 36, pp. 1034-1042, 2022. Google Search
13 
M. Ye, J. Shen, G. Lin, T. Xiang, L. Shao, S. C. Hoi, "Deep Learning for Person Re-Identification: A Survey and Outlook," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 44, no. 6, pp. 2872-2893, 2021. Google Search
14 
C. Chen, M. Ye, M. Qi, J. Wu, J. Jiang, C.-W. Lin, "Structure-Aware Positional Transformer for Visible-Infrared Person Re-Identification," IEEE Transactions on Image Processing, vol. 31, pp. 2352-2364, 2022. DOI
15 
X. Hao, S. Zhao, M. Ye, J. Shen, "Cross-Modality Person Re-Identification via Modality Confusion and Center Aggregation," pp. 16403-16412, 2021. Google Search
16 
Q. Zhang, C. Lai, J. Liu, N. Huang, J. Han, "FMCNet: Feature-Level Modality Compensation for Visible- Infrared Person Re-Identification," Google Search

저자소개

채운 (Woon Chea)
../../Resources/kiee/KIEE.2026.75.6.1378/au1.png

He received BS and MS degrees from Electronics Engineering from Seokyong University, Seoul, Korea, in 2024, 2026. He is currently working as a researcher at ATI. His research interests include deep learning and computer vision.

서기성 (Kisung Seo)
../../Resources/kiee/KIEE.2026.75.6.1378/au2.png

He received the BS, MS, and Ph.D degrees in Electrical Engineering from Yonsei University, Seoul, Korea, in 1986, 1988, and 1993 respectively. He is currently Professor of Electronics Engineering, Seokyeong University. His research interests include deep learning, evolutionary computation, and computer vision.