Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 75, No. 6, p.1383-1389

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 26 Feb. 2026Revised : 07 Apr. 2026Accepted : 15 Apr. 2026

DOI :

10.5370/KIEE.2026.75.6.1383

다중 인스턴스 학습을 활용한 딥러닝 기반 비접촉 모돈 분만 상태 분류 시스템 개발

Development of a Deep Learning-Based Non-contact System for Sow Farrowing Status Classification Using Multiple Instance Learning

원형식 (Hyeong-sik Won) ^*iD 조현종 (Hyun-chong Cho) ^†iD

(Dept. of Data Science, Kangwon National University, Republic of Korea.)

^† Corresponding Author: Dept. of Electronics Engineering and Dept. of Data Science, Kangwon National University, Republic of Korea. E-mail : hyuncho@kangwon.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

Timely detection of farrowing in sows is important for effective farm management and animal welfare. However, existing farrowing monitoring approaches are largely contact-based, which limits their practical applicability in farm environments due to constraints such as cumulative equipment costs and animal stress. To address these limitations, this study developed a deep learning-based non-contact farrowing classification system for sows. The proposed method employed precise region of interest (ROI) cropping based on the Segment Anything Model (SAM) to reduce background interference and consistently include farrowing-related regions. In addition, multiple-instance learning was integrated into a Convolutional Neural Network (CNN)-based classification framework to better aggregate region-wise discriminative cues. Experimental results showed that the proposed method achieved the best overall performance among the compared models, with 85.47% recall and 85.68% F1-score. Compared with the original full-image input, it improved recall by 3.59 percentage points and F1-score by 3.71 percentage points. These results indicate that precise ROI cropping and multiple-instance learning jointly improve farrowing classification performance by reducing background interference and better aggregating region-wise discriminative cues.

Key Words

CNN, Deep Learning, Multiple Instance Learning, Non-contact Farrowing Status Classification, Segment Anything Model

1. 서 론

양돈 산업은 전 세계 축산업에서 중요한 비중을 차지하고 있으며, 식량안보 확보에 기여하는 산업으로 자리 잡고 있다. 특히 국내에서는 2024년 1인당 돼지고기 소비량이 약 30kg으로 보고되었으며, 다른 주요 육류에 비해 소비 수준이 가장 높다^[1]. 이러한 산업 구조에서 돼지 번식은 생산성 및 수익성과 직결되는 핵심 요인이다. 특히 분만 과정은 모돈과 자돈의 건강과 복지 측면에서 중요한 시기이며, 분만 전후의 이상 징후를 조기에 파악하고 신속히 대응하는 것은 자돈 생존율과 사후 관리의 효율을 높이는 데 기여한다. 그러나 국내 양돈 현장에서는 고령화와 노동력 제약으로 분만 전후의 연속 관찰과 신속 대응에 어려움을 겪고 있다. 다음 그림 1은 2015년부터 2023년까지의 양돈 농가 경영주 연령 분포를 나타내며, 2023년에는 60세 이상 경영주 비중이 60%까지 증가했음을 확인할 수 있다^[2]. 노동력 부족에 대응하여 외국인 근로자 활용이 확대되고 있으나 숙련도 차이와 의사소통 제약으로 인해 생산성 향상으로 이어지기 어렵다^[3]. 이를 해결하기 위해 분만 전후 상태를 자동으로 인지하고 이상 징후를 조기에 탐지하기 위한 다양한 접근이 제안되어 왔다. 가속도 센서를 이용한 활동과 자세 변화 분석, 압력 센서와 접촉 센서를 통한 행동 감지 등 다양한 연구가 수행되어 왔으며^[4], 이러한 접근은 공통적으로 접촉 기반 모니터링에 의존한다. 그러나 접촉 기반 방식은 센서 부착과 유지관리로 비용 부담이 발생하고, 개체별 장비 비용이 누적되며, 위생 관리 문제와 개체 스트레스 등 현장 적용에 여러 제약이 따른다. 따라서 본 연구에서는 분만사에서 획득된 모돈 이미지를 활용하여 비분만과 분만을 이진 분류하는 딥러닝 기반 비접촉 분만 여부 분류 시스템을 제안한다. 제안한 방법은 추가 센서 부착 없이 영상만으로 분만 여부를 판별하여 현장 적용성을 높이며, 분만 전후 모니터링을 자동화하여 인력 제약 환경에서 관리 효율 향상을 지원하는 것을 목표로 한다.

그림 1. 연도별 양돈 농가 경영주 연령 분포도

Fig. 1. Age distribution of swine farm household heads by year

2. 관련 연구

모돈 분만 시점의 정확한 파악과 조기 대응을 위해 양돈 분야에서는 다양한 접촉 기반 모니터링이 연구되어 왔다. Lipori 등은 모돈에 웨어러블 센서를 부착해 활동, 열 플럭스, 피부온도 신호를 측정하고 이를 분석하여 분만 개시 시점을 예측하는 시스템을 개발하였다^[5]. Mayrhuber 등은 모돈 귀표 가속도 센서 신호로 분만 전 둥지 짓기 행동의 시작을 탐지하고 해당 행동 신호를 이용해 분만 개시 시점을 예측하는 시스템을 제시하였다^[6]. Oczak 등은 귀표형 3축 가속도 센서로 모돈 활동량을 정량화하고 영상 기반 계측과의 비교를 통해 분만 전후 행동 변화 분석에 활용 가능한 활동 모니터링 시스템을 제시하였다^[7]. 하지만 이러한 접촉 기반 모니터링은 센서 부착과 유지관리에 추가 부담이 수반될 수 있으며 장비 손상에 따른 관리 비용이 증가할 수 있다. 이러한 한계를 보완하기 위해 딥러닝을 기반으로 분만 전후 상태를 자동으로 탐지하거나 시점을 예측하려는 비접촉 접근이 증가하고 있다. Yang 등은 Convolutional Neural Network(CNN) 기반 모돈 검출과 자세 분류를 수행하고, 시간 축에서 자세 전환 구간을 탐지함으로써 분만 전후 관리에 필요한 자세 변화를 자동으로 검출하는 시스템을 제안하였다^[8]. Witte 등은 YOLOv5 객체 검출로 자돈 출현을 포착하고 EfficientNet 기반 모델을 결합하여 분만을 자동 감지하는 파이프라인을 제시하였다^[9]. Wutke 등은 분만사 영상에서 CNN 기반 신생 자돈 검출기에 Noisy Student 학습 전략을 적용하여 제한된 데이터 환경에서도 검출 성능을 향상시키는 방법을 제안하였다^[10].

이처럼 CNN을 활용해 단일 프레임 또는 이미지 단위로 분만 여부를 추정하는 접근이 널리 사용되어 왔다. 그러나 분만과 직접 관련된 시각적 단서는 영상 전체가 아니라 외음부 주변의 제한된 영역에 집중되는 경우가 많고 실제 데이터에서는 해당 영역에 대한 위치 라벨 없이 이미지 단위 라벨만 제공되는 경우가 일반적이다. 이에 본 연구에서는 CNN을 특징 추출기로 활용하고 Multiple Instance Learning(MIL) 기반 집계 구조를 결합하여 이미지 내 여러 지역 특징 중 분만 관련 단서가 존재할 가능성이 높은 영역에 더 큰 가중치를 부여함으로써 분만 여부 분류 성능을 개선하였다.

3. 본 론

본 연구에서는 모돈 이미지로부터 분만과 비분만을 이진 분류하는 딥러닝 기반 비접촉 분만 여부 분류 시스템을 제안한다. 돈사 환경에서는 모돈의 자세 및 위치 변화로 인해 분만 관련 정보가 프레임 중앙에 항상 위치하지 않으므로 Segment Anything Model(SAM) 기반 모돈 분할 결과를 이용해 객체 기준의 ROI를 정밀하게 추출하여 배경 정보의 영향을 최소화하였다. 이후 MIL 기반 결합 방식을 적용하여 패치 인스턴스별 중요도를 학습하여 출력값을 가중합으로 결합함으로써 최종 예측을 산출하였다.

3.1 데이터셋 구성

본 연구에서 사용한 데이터는 대한민국 경상남도 함안군에 위치한 돈사에서 수집되었다. 모돈을 상부에서 관찰할 수 있도록 top view 조건에서 2D 카메라(Deep-eyes)를 설치하였으며, 지면으로부터 2.3m 높이에 고정하여 촬영하였다. 수집된 데이터는 MP4 비디오 형식으로 저장하였으며, 영상에서 10fps 간격으로 프레임을 추출하여 이미지 데이터로 구성하였다. 각 이미지에는 한 마리의 모돈과 여러 마리의 자돈이 포함되며, 촬영 환경 특성상 조도 변화, 가림 현상으로 인해 학습 및 평가에 부적합한 샘플이 발생할 수 있다. 이에 따라 축산 전문가가 이미지 품질과 장면 적합성을 검토하여 활용이 어려운 이상치 샘플을 제외하였으며, 최종적으로 23,203장의 이미지를 사용하였다. 그 후 각 이미지는 분만과 비분만의 두 개의 클래스로 구분하였으며, 학습을 위해 데이터셋을 train, validation, test 세트로 약 6:2:2 비율로 분할하였다. 데이터 분할 과정에서는 모돈 개체 단위로 분할하여 동일한 개체가 서로 다른 세트에 중복 포함되지 않도록 구성하였다. 클래스 간 표본 수 차이는 존재하나 그 정도가 크지 않아, 본 연구에서는 별도의 불균형 처리 없이 학습을 진행하였다. 자세한 데이터셋 구성은 다음 표 1에 나타내었다.

표 1. 모돈 분만 여부별 데이터셋 구성(두수, 이미지)

Table 1. Dataset composition for sow farrowing status classification(heads, images)

Type		Train	Validation	Test	Total
Non-farrowing	Head	1,460	486	488	2,434
Non-farrowing	Image	6,159	2,269	2,058	10,486
Farrowing	Head	1,723	574	575	2,872
Farrowing	Image	7,741	2,468	2,508	12,717

3.2 SAM 기반 모돈 분할을 이용한 ROI 정밀 크롭(cropping)

돈사 영상에서는 카메라 시점, 모돈의 자세 및 방향으로 인해 분만 관련 단서가 프레임 중앙에 항상 위치하지 않는다. 특히 분만 이벤트는 외음부 주변의 국소적 변화로 나타나는 경우가 많아 단순 중앙 크롭만으로는 해당 단서가 누락되거나 배경 정보가 과도하게 포함될 수 있다. 따라서 본 연구에서는 SAM 기반 모돈 분할 결과를 이용해 객체 중심의 ROI를 추출하고 분만 단서가 집중되는 외음부 영역을 포함하도록 정밀 크롭을 적용하였다.

SAM은 객체 및 영역의 분할 마스크를 생성하는 분할 모델이다^[11]. 입력 이미지에서 특징을 추출하는 이미지 인코더와 추출된 특징을 이용해 픽셀 단위 분할 마스크를 예측하는 마스크 디코더로 구성된다. 이미지 인코더는 입력 영상의 공간적 정보를 반영한 고차원 특징 표현을 생성하며 마스크 디코더는 해당 특징으로부터 객체 경계를 추정한다. 이러한 구조를 통해 객체의 형태 정보를 포함하는 분할 마스크를 생성할 수 있다. 이에 따라 입력 이미지에 SAM을 적용하여 모돈 분할 마스크를 생성한다. 이후 모돈으로 분류된 픽셀 좌표의 집합인 $\Omega$으로부터 모돈 객체의 중심점 $c=(c_x, c_y)$을 계산한다. 중심점 좌표인 $(c_x, c_y)$는 $\Omega$에 포함된 픽셀 좌표의 산술 평균으로 식(1)에 나타내었다.

(1)

$c_x = \frac{1}{|\Omega|} \sum_{(x,y) \in \Omega} x, \quad c_y = \frac{1}{|\Omega|} \sum_{(x,y) \in \Omega} y$

계산된 중심점 $c$는 모돈 객체의 전반적인 위치를 나타내므로 ROI를 객체 좌표계 기준으로 정렬하기 위한 기준점으로 활용된다. 그 후 모돈의 외음부 영역이 ROI의 중심에 보다 잘 포함되도록 중심점 $c$의 $x$좌표는 유지하고 $y$좌표는 분할 마스크의 최하단 값으로 설정하여 하부 기준점 $b=(b_x, b_y)$을 산출한다. 이는 다음 식(2)에 나타내었다.

(2)

$b_x = c_x, \quad b_y = \max\{y | (x,y) \in \Omega\}$

이와 같이 정의된 기준점 $b$를 ROI 중심으로 사용하여 모돈이 프레임 내에서 좌우로 이동하거나 자세가 변하더라도 ROI가 모돈 객체를 기준으로 정렬되며 동시에 외음부 영역이 ROI 내에 포함되도록 중심이 보정된다. 이후 ROI의 가로 및 세로 크기는 모든 실험에서 동일한 고정값으로 설정하였으며, 중앙 고정 크롭 방식에서도 동일한 크기를 사용하여 공정하게 비교하였다. 다음 그림 2는 모돈 분할 마스크에서 계산된 중심점 $c$와 하부 기준점 $b$를 이용해 ROI를 정의하는 예시를 나타낸다. 최종적으로 추출된 ROI는 분류 모델 입력 크기에 맞게 크기를 조정하고 정규화한 후 CNN 기반 분류 모델의 입력으로 사용하였다. 모든 ROI 이미지는 384×384로 리사이즈하였으며, 최종 MIL 설정에서는 각 이미지를 4×4 패치로 분할하여 각 패치의 크기가 96×96이 되도록 구성하였다.

그림 2. SAM 기반 분할 마스크로부터 중심점과 하부 기준점을 이용한 ROI 크롭 과정

Fig. 2. SAM-based ROI cropping process using centroid and bottom-center point derived from the segmentation mask

3.3 딥러닝 기반 분류 모델

3.3.1 ConvNeXt

모돈 분만 데이터에서는 모돈 하부에 관찰되는 미세한 형태적 특징과 자돈의 부분 출현과 같은 국소적 정보가 분류에 중요하다. 이에 따라 본 연구에서는 ROI에서 관찰되는 국소적 특징을 학습하기 위해 CNN 기반 ConvNeXt 모델을 채택하였다^[12]. ConvNeXt는 ResNet-50 모델을 기반으로 구조적 설계와 학습 효율 측면의 개선을 통해 성능을 고도화한 이미지 분류 모델이다. 여러 stage와 block으로 구성되어 있으며, stage가 깊어질수록 특징맵의 공간 해상도는 감소하고 채널 수는 증가하도록 설계되었다. 이를 통해 저수준의 윤곽 및 질감 정보부터 고수준의 형태적 특징까지 단계적으로 추출할 수 있으며 분만 여부와 관련된 국소 패턴을 안정적으로 학습할 수 있다. Block 내부에는 depthwise convolution을 사용해 채널별 공간 특징을 효율적으로 추출한다^[13]. 이후 pointwise convolution을 적용하여 중간 단계에서 채널 차원을 확장한 뒤 다시 축소하는 구조를 통해 표현력을 확보하면서도 연산량을 절감한다. 또한 넓은 수용 영역을 확보하기 위해 7×7 커널을 적용하여 더 넓은 공간적 문맥을 포착함으로써 하부 ROI 내에서 미세한 특징을 주변 구조적 정보와 함께 학습할 수 있다. ConvNeXt는 각 stage 간의 block 비율을 Swin Transformer의 설계 원칙에 따라 1:1:3:1로 설정하였다^[14]. Stem 단계에서는 stride 4의 4×4 convolution layer를 통해 다운샘플링을 수행한 뒤 정규화를 적용해 안정적인 초기 특징을 학습하고 이후 stage의 연산 부담을 줄인다. ConvNeXt는 모델 규모에 따라 tiny, small, base, large로 구분된다. 본 연구에서는 실험 환경의 메모리 및 연산 비용을 고려하여 ConvNeXt-Base를 사용하였다.

3.3.2 Multiple Instance Learning 기반 결합 방식

본 연구에서는 ROI 정밀 크롭을 통해 배경 영향을 최소화하고 ConvNeXt를 활용해 국소적 특징을 학습하였다. 그러나 입력을 단일 이미지로 처리할 경우, 서로 다른 영역에서 산출되는 정보가 하나의 예측으로 집계되면서 분류에 유의미한 영역의 출력이 충분히 반영되지 않을 수 있다. 이에 따라 본 연구에서는 입력 이미지를 여러 인스턴스로 구성하고 ConvNeXt로부터 얻은 인스턴스별 출력값을 결합하는 MIL 방식을 적용하였다^[15].

MIL 방식은 하나의 입력에 대해 하나의 라벨만 주어지는 상황에서 입력을 여러 개의 인스턴스로 구성하여 학습하는 방법이다. 즉 개별 인스턴스에는 정답 라벨을 부여하지 않고 입력 전체에 대한 라벨만을 이용해 학습을 수행한다. 본 연구에서는 입력 이미지를 패치 단위 인스턴스로 구성하고 각 인스턴스를 ConvNeXt에 입력하여 인스턴스별 출력값을 계산한 뒤 결합 단계에서 이를 집계하여 최종 예측을 산출하였다. 다음 그림 3은 본 연구에서 적용한 MIL 기반 ConvNeXt 모델 구조를 나타낸다.

그림 3. Multiple Instance Learning 기반 ConvNeXt 모델 구조

Fig. 3. Multiple Instance Learning-based ConvNeXt model architecture

패치 단위 입력을 사용한다는 점에서 Transformer 계열 모델과 유사해 보일 수 있으나 Transformer는 패치 토큰 간 관계를 학습하는 구조인 반면, MIL 결합 방식은 입력 이미지를 여러 개의 패치로 분할한 뒤 각 패치를 ConvNeXt에 입력하여 패치 단위 예측 점수를 산출하고 이를 집계하여 최종 예측을 계산한다^[16]. 따라서 본 연구에서는 패치 간 관계 학습 대신 패치 단위 출력의 결합을 통해 최종 예측을 산출하였다.

인스턴스 예측의 통합 방식으로는 top-k 기반 결합 방식과 attention 기반 결합 방식이 존재한다^[17]. Top-k 기반 결합 방식은 인스턴스 예측 점수 중 상위 k개를 선택한 뒤, 선택된 인스턴스들의 예측을 통합하는 방식이다. 본 연구에서는 k 값을 경험적으로 5로 설정하였다. 이는 중요한 국소 정보를 충분히 반영하면서도 과도한 배경 정보의 유입을 줄이기 위한 선택이며, k 값에 대한 체계적인 민감도 분석은 향후 연구에서 추가로 검증할 필요가 있다. 반면에 attention 기반 결합 방식은 패치별 중요도를 학습하여 가중치를 부여하고 가중합으로 인스턴스 예측을 통합하는 방식이다. 본 연구에서는 두 결합 방식을 모두 적용하여 분류 성능을 비교하였다.

4. 연구 결과

모든 모델 학습과 성능 분석은 Python 3.10.13 환경에서 PyTorch 2.1.2와 CUDA 11.8을 사용하여 수행하였다. 실험은 NVIDIA TITAN RTX GPU와 64GB RAM을 갖춘 시스템에서 진행하였으며 비교의 일관성을 위해 모든 모델에 동일한 학습 설정을 적용하였다. Optimizer는 AdamW를 사용하였고, 배치 크기는 32, 학습률은 1e-4로 설정하였다. 실험 환경 및 학습 설정은 다음 표 2에 나타내었다. 성능 평가는 혼동행렬을 기반으로 TP(True Positive), FP(False Positive), TN(True Negative), FN(False Negative)을 산출하고 precision, recall, F1-score, accuracy의 네 가지 지표를 계산하였다. Precision은 양성으로 예측한 샘플 중 실제 양성의 비율을 의미하며 recall은 실제 양성 샘플을 양성으로 올바르게 검출한 비율을 나타낸다. F1-score는 precision과 recall의 조화평균이며 accuracy는 전체 샘플 중 올바르게 분류한 비율을 의미한다. 분만 분류에서는 실제 분만 상황을 놓치는 오류를 줄이는 것이 중요하므로 recall을 중점적으로 평가하였다. 또한 recall만으로는 오검출에 대한 정보를 충분히 반영하기 어렵고, 두 클래스 간 표본 수 차이가 극심한 수준은 아니지만 일부 존재하므로 accuracy만으로는 모델의 성능 차이를 충분히 반영하기 어려울 수 있다. 따라서 본 연구에서는 precision과 recall을 함께 반영할 수 있는 F1-score를 주요 평가지표로 활용하였다. 자세한 수식은 식(3), (4), (5), (6)에 나타내었다. 또한 평가지표의 신뢰성을 확보하기 위해 동일한 데이터 분할에서 3회 반복 학습을 수행하였으며 모든 성능 지표는 각 반복 실험의 결과를 평균하였다. 표 3과 표 4에서 ±는 각 반복 실험 결과의 표준편차를 의미한다.

(3)

$Precision = \frac{TP}{TP + FP}$

(4)

$Recall = \frac{TP}{TP + FN}$

(5)

$F1-score = 2 \times \frac{Precision \times Recall}{Precision + Recall}$

(6)

$Accuracy = \frac{TP + TN}{TP + FN + FP + TN}$

표 2. 실험 환경 및 학습 설정

Table 2. Experimental setup and training settings

Component	Setting
CPU / GPU	Intel Xeon W-2133 NVIDIA TITAN RTX
Python / PyTorch	3.10.13 / 2.1.2
Batch Size	32
Learning rate	1×10^-4
Optimizer	AdamW

본 연구에서는 입력 구성 방식에 따른 분만 여부 분류 성능을 평가하기 위해 원본 입력, 원본 이미지의 중앙을 일정 크기로 고정 크롭하는 방식, 그리고 SAM 기반 모돈 분할 결과로 객체 중심 ROI를 추출해 크롭하는 방식의 세 가지 설정을 비교하였다. 다음 표 3은 크롭 방식에 따른 성능 지표 결과를 나타낸다. 실험 결과, 중앙 고정 크롭과 SAM 기반 ROI 크롭을 적용한 설정에서 원본 입력 대비 recall과 F1-score가 약 2 퍼센트 포인트 향상되었다. 특히 SAM 기반 ROI 크롭의 recall은 84.57%로 2.69 퍼센트 포인트 향상되었고, F1-score는 84.62%로 2.65 퍼센트 포인트 향상되었다. 이는 SAM으로 모돈 객체를 분할한 뒤 하부 영역이 포함되도록 ROI를 정밀하게 크롭한 것이 성능 향상으로 이어진 것으로 해석된다. 고정 중앙 크롭은 모돈의 위치 및 자세 변화에 따라 하부 영역이 ROI에 불완전하게 포함될 수 있으나 SAM 기반 ROI 크롭은 하부 영역이 보다 안정적으로 포함되도록 한다. 결과적으로 SAM 기반 ROI 크롭은 분만 여부 분류에 유의미한 정보가 일관되게 제공되면서 성능 향상에 기여하였다.

표 3. 크롭 방식에 따른 성능 지표 결과(단위: %)

Table 3. Performance metrics results by cropping method(unit: %)

Method	Precision	Recall	F1-score	Accuracy
Original	82.61 ±0.77	81.88 ±1.09	81.97 ±0.90	82.25 ±0.63
Fixed center crop	84.85 ±1.36	83.95 ±0.37	84.12 ±0.45	84.37 ±0.59
SAM-based ROI crop	84.94 ±1.55	84.57 ±1.03	84.62 ±1.25	84.78 ±1.30

또한, 본 연구에서는 ConvNeXt에 MIL 기반 결합 방식을 적용했을 때 각 모델과 결합 방식에 따른 분만 여부 분류 성능 변화를 비교하였다. 표 4는 SAM 기반 ROI 크롭을 동일하게 적용한 입력에서 Vision Transformer, EfficientNetV2, ConvNeXt 단일 모델의 성능과 MIL 결합 방식인 top-k 기반 결합 및 attention 기반 결합을 적용한 ConvNeXt 모델의 성능 지표를 나타낸다. 공정한 비교를 위해 표 4의 모든 모델은 동일한 SAM 기반 ROI 입력과 동일한 학습 설정에서 학습 및 평가하였다. 또한 본 연구는 이미지 단위 이진 분류를 대상으로 하므로, 객체 탐지 결과와 후속 규칙 기반 판단을 결합하는 YOLO 계열 방법은 비교용 baseline에 포함하지 않았다. 먼저 단일 모델 비교에서 ConvNeXt는 recall 84.57%와 F1-score 84.62%로 단일 backbone 중 가장 높은 성능을 보였다. 이는 ConvNeXt가 다른 단일 모델들에 비해 특징을 보다 효과적으로 학습했음을 보여준다. 이에 따라 MIL 결합 실험에서는 ConvNeXt를 기반 모델로 설정하였다. 이후 MIL 기반 실험에서는 ConvNeXt에 top-k 기반 결합과 attention 기반 결합을 각각 적용하여 결합 방식에 따른 성능을 비교하였다. MIL 결합을 적용한 ConvNeXt 모델은 ConvNeXt 단일 모델 대비 recall과 F1-score에서 향상되는 경향을 보였다. 특히 attention 기반 결합 방식은 모든 비교 모델 중 가장 높은 recall, F1-score, accuracy를 기록하였으며, ConvNeXt 단일 모델 대비 recall은 0.90 퍼센트 포인트, F1-score는 1.06 퍼센트 포인트 향상되었다. 이는 분만 이미지에서 유의미한 단서가 특정 패치에만 강하게 나타나는 경우도 있지만 자돈의 부분 출현, 외음부 주변 형태, 체위 변화 등 분류에 기여하는 정보가 여러 영역에 분산되어 나타날 수 있기 때문이다. Top-k 결합 방식은 일부 인스턴스만을 사용하므로 단서가 분산된 경우 정보가 충분히 반영되지 않을 수 있다. 반면에 attention 기반 결합 방식은 인스턴스별 중요도를 학습하여 여러 영역의 정보를 함께 반영할 수 있어 더 안정적인 성능으로 이어진 것으로 볼 수 있다.

이러한 성능 향상의 통계적 유의성을 검증하기 위해 제안한 모델과 비교 모델 간의 Wilcoxon signed-rank test를 수행하였다. 그 결과, 제안 모델은 비교 모델 대비 통계적으로 유의한 성능 향상을 보였고, p-value는 0.001 미만으로 나타났다. 이러한 통계적으로 유의미한 결과 외에도 FLOPs와 파라미터 수를 계산하여 모델 복잡도를 비교하였다. 표 5는 각 모델의 연산량과 파라미터 수를 비교한 결과를 나타낸다. 실제 FPS는 하드웨어와 구현 조건의 영향을 크게 받으므로, 본 연구에서는 하드웨어 독립적인 복잡도 지표로 FLOPs와 파라미터 수를 보고하였다. 비교 모델 중 EfficientNetV2 모델이 가장 낮은 연산량과 파라미터 수를 보였으며, Vision Transformer와 ConvNeXt 모델도 비교적 유사한 결과를 나타냈다. 본 연구에서 MIL 기반 결합 방식을 적용한 ConvNeXt 모델은 추가 모듈로 인해 FLOPs와 파라미터 수가 증가하였으나, 그와 함께 recall과 F1-score의 개선이 확인되었다. 따라서 제안 방법의 이점은 성능 향상과 계산 복잡도 증가 사이의 상충 관계를 함께 고려하여 해석할 필요가 있다.

표 4. MIL 결합 방식에 따른 모델 성능 지표 결과(단위: %)

Table 4. Performance metrics of the models according to the MIL aggregation method (unit: %)

Method	Precision	Recall	F1-score	Accuracy
Vision Transformer	81.53 ±1.00	81.76 ±0.97	81.60 ±1.10	81.58 ±1.14
EfficientNetV2	82.57 ±1.17	81.68 ±0.91	81.87 ±0.89	82.19 ±0.87
ConvNeXt	84.94 ±1.55	84.57 ±1.03	84.62 ±1.25	84.78 ±1.30
ConvNeXt +MIL(Top-5)	85.80 ±0.78	85.12 ±1.09	85.14 ±0.85	85.35 ±1.56
ConvNeXt +MIL(Attention)	86.47 ±1.30	85.47 ±1.16	85.68 ±0.86	85.95 ±1.61

표 5. 각 모델의 연산량 및 파라미터 수 비교 결과

Table 5. Comparison of computational cost and parameter counts across models

Method	FLOPs	Parameters
Vision Transformer	33.72G	85.64M
EfficientNetV2	30.65G	52.45M
ConvNeXt	30.70G	87.51M
ConvNeXt+MIL(Top-5)	45.96G	98.07M
ConvNeXt+MIL(Attention)	45.95G	97.54M

패치 분할 수에 따라 MIL 기반 ConvNeXt 모델의 성능이 어떻게 달라지는지 확인하기 위해 3×3, 4×4, 5×5 patches 조건에서 비교 실험을 수행하였으며, 그 결과를 표 6에 제시하였다. 실험 결과, 4×4 patches 설정이 가장 우수한 성능을 나타내었다. 반면 3×3 patches 설정에서는 패치 수가 적어 국소적인 특징 정보를 충분히 반영하기 어려웠고, 5×5 patches 설정에서는 패치가 지나치게 세분화되어 각 패치에 포함되는 정보량이 감소함에 따라 전체적인 문맥 정보를 효과적으로 활용하지 못한 것으로 보인다. 이러한 결과는 MIL 구조에서 패치 분할 수가 국소 정보와 전체 문맥 정보 간의 균형에 영향을 미치며, 본 연구에서는 4×4 patches 설정이 가장 적절함을 보여준다.

표 6. 패치 분할 수에 따른 MIL 기반 ConvNeXt 모델의 성능 결과(단위: %)

Table 6. Performance metrics of the MIL-based ConvNeXt model according to the number of patch divisions (unit: %)

Method	Precision	Recall	F1-score	Accuracy
3×3 patches	86.00 ±1.19	85.02 ±1.21	85.04 ±1.81	85.35 ±1.55
4×4 patches	86.47 ±1.30	85.47 ±1.16	85.68 ±0.86	85.95 ±1.61
5×5 patches	85.34 ±1.86	84.82 ±1.88	84.96 ±1.80	85.16 ±1.70

5. 결 론

본 연구에서는 모돈 이미지로부터 분만 여부를 분류하는 딥러닝 기반 비접촉 분만 여부 분류 시스템을 제안하였다. 이를 위해 돈사 환경에서 모돈의 위치 및 자세 변화로 인해 분만 관련 정보가 프레임 내 일정 위치에 고정되지 않는 문제를 고려하여 SAM 기반 모돈 분할 결과를 이용한 ROI 정밀 크롭을 적용하였다. 또한 단일 CNN 모델을 적용할 경우, 영역별 판별 정보를 충분히 반영하는 데 한계가 있어 MIL 기반 결합 방식을 적용하였다. 실험 결과, 제안한 방법은 비교한 모델 중 가장 높은 성능으로 recall 85.47%와 F1-score 85.68%를 달성하였으며, 이는 원본 입력 대비 각각 3.59 퍼센트 포인트와 3.71 퍼센트 포인트 향상된 결과이다. 이러한 결과는 ROI 정밀 크롭을 통해 배경 정보의 영향을 최소화하고 MIL 기반 결합 방식을 통해 영역별 판별 정보를 종합적으로 반영함으로써 성능 향상에 기여했음을 보여준다.

하지만 본 연구는 단일 돈사 환경에서 수집된 데이터를 기반으로 수행되었으므로 다양한 사육 환경 및 촬영 조건에 대한 일반화 성능 검증에는 한계가 있다. 향후 연구에서는 다양한 돈사 환경에서 수집된 데이터를 활용하여 일반화 성능을 검증하고, 보다 경량이거나 최신의 backbone 모델을 추가로 평가하여 실제 적용 가능성을 더욱 면밀히 분석할 계획이다. 또한 분만 여부에 대한 판별을 넘어, 분만 과정에서 나타나는 주요 행동들을 세분화된 클래스로 구성하고 이를 기반으로 이상 징후를 조기에 식별할 수 있도록 연구를 확장할 계획이다. 더 나아가 실제 현장 적용을 고려한 경량화 및 추론 속도 개선 연구를 통해 실시간 모니터링 시스템으로의 확장 가능성을 검토하고자 한다.

Acknowledgements

This research was supported by the Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (No. 2022R1I1A3053872); in part by the National Research Foundation of Korea (NRF) grant funded by the Korea government (MSIT) (RS-2023-00242528) and was supported by Korea Institute of Planning and Evaluation for Technology in Food, Agriculture and Forestry(IPET) and Korea Smart Farm R&D Foundation(KosFarm) through Smart Farm Innovation Technology Development Program, funded by Ministry of Agriculture, Food and Rural Affairs(MAFRA) and Ministry of Science and ICT(MSIT), Rural Development Administration(RDA) (RS-2025-02315218).

References

Korea Rural Economic Institute (KREI), "Agricultural Outlook 2025 Report," 2025.

Statistics Korea, "Farm Households by Age of Farm Household Head(Census of Agriculture, Forestry and Fisheries)," 2023.

Livestock Environmental Management Institute, "Comparison of the Proportion of Foreign Workers on Farms by Livestock Species," 2023.

I. Traulsen, Art. no. 170, "Using Acceleration Data to Automatically Detect the Onset of Farrowing in Sows," Sensors, vol. 18, no. 1, 2018.

C. Lipori, B. F. A. Laurenssen, I. Reimert, N. M. Soede, A. Youssef, "A Wearable Software Sensor for Parturition Onset Prediction in Sows," pp. 1315-1323, 2024.

E. Mayrhuber, K. Maschat, D. Brunner, S. M. Winkler, M. Oczak, Art. no. 104381, "Improved and interpretable accelerometer-based farrowing prediction," Biosystems Engineering, vol. 263, 2026.

M. Oczak, F. Bayer, S. Vetter, K. Maschat, J. Baumgartner, Art. no. 106517, "Comparison of the automated monitoring of the sow activity in farrowing pens using video and accelerometer data," Computers and Electronics in Agriculture, vol. 192, 2022.

X. Yang, C. Zheng, C. Zou, H. Gan, S. Li, S. Huang, Y. Xue, Art. no. 106139, "A CNN-based posture change detection for lactating sow in untrimmed depth videos," Computers and Electronics in Agriculture, vol. 185, 2021.

J. H. Witte, J. Gerberding, C. Lensches, I. Traulsen, "Using Deep Learning for automated birth detection during farrowing," pp. 141-154, 2022.

M. Wutke, C. Lensches, U. Hartmann, I. Traulsen, "Towards automatic farrowing monitoring-A Noisy Student approach for improving detection performance of newborn piglets," PLOS ONE, vol. 19, no. 10, 2024.

A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo, P. Dollár, R. Girshick, "Segment Anything," pp. 4015-4026, 2023.

Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, S. Xie, "A ConvNet for the 2020s," pp. 11976-11986, 2022.

F. Chollet, "Xception: Deep learning with depthwise separable convolutions," pp. 1251-1258, 2017.

Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, B. Guo, "Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows," pp. 10012-10022, 2021.

M. Ilse, J. Tomczak, M. Welling, "Attention-based Deep Multiple Instance Learning," pp. 2127-2136, 2018.

A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, N. Houlsby, "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," 2021.

D. J. Araújo, "Key Patches Are All You Need: A Multiple Instance Learning Framework for Robust Medical Diagnosis," 2024.

저자소개

원형식 (Hyeong-sik Won)

Hyeong-sik Won received the B.S. degree in Electronic Engineering from Kangwon National University and the M.S. degree from the Department of Data Science, Kangwon National University.

조현종 (Hyun-chong Cho)

Hyun-chong Cho received his M.S. and Ph.D. degrees in electrical and computer engineering from the University of Florida, USA, in 2009. During 2010–2011, he was a Research Fellow at the University of Michigan, Ann Arbor, USA. From 2012 to 2013, he was a Chief Research Engineer at LG Electronics, South Korea. He is currently a Professor at the Department of Electronics Engineering, the Department of Data Science, and Interdisciplinary Graduate Program for BIT Medical, Kangwon National University, South Korea.

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

Development of a Deep Learning-Based Non-contact System for Sow Farrowing Status Classification Using Multiple Instance Learning

Abstract

Key Words

1. 서 론

2. 관련 연구

3. 본 론

3.1 데이터셋 구성

3.2 SAM 기반 모돈 분할을 이용한 ROI 정밀 크롭(cropping)

(1)

(2)

3.3 딥러닝 기반 분류 모델

3.3.1 ConvNeXt

3.3.2 Multiple Instance Learning 기반 결합 방식

4. 연구 결과

(3)

(4)

(5)

(6)

5. 결 론

Acknowledgements

References

저자소개

원형식 (Hyeong-sik Won)

조현종 (Hyun-chong Cho)

Article Information (continued)

Key Words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

Development of a Deep Learning-Based Non-contact System for Sow Farrowing Status Classification Using Multiple Instance Learning

Abstract

Key Words

1. 서 론

2. 관련 연구

3. 본 론

3.1 데이터셋 구성

3.2 SAM 기반 모돈 분할을 이용한 ROI 정밀 크롭(cropping)

(1)

(2)

3.3 딥러닝 기반 분류 모델

3.3.1 ConvNeXt

3.3.2 Multiple Instance Learning 기반 결합 방식

4. 연구 결과

(3)

(4)

(5)

(6)

5. 결 론

Acknowledgements

References

저자소개

원형식 (Hyeong-sik Won)

조현종 (Hyun-chong Cho)

Article Information (continued)

Key Words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers