1. Introduction
실생활과 산업 전반에서 획득된 여러 데이터의 특성간 비선형적 패턴 인식 문제는 여러 방법론적 접근을 통해 발전되어왔다. 그중, 회귀 (Regression)
문제에서 신경망 (Neural Network)을 활용한 모델이 성능면에서 주목을 받았으며, 특히 다층 퍼셉트론 (Multi Layer Perceptron;
MLP) 신경망은 강인성과 확장성이 검증된 방법으로 인식 되었으며, 널리 사용되어져왔다. 최근에는 CNN (Convolutional Neural Network;
CNN) 같은 Deep Learning 기반 신경망의 발전으로인해 파라미터 공유와 깊은 학습을 통한 성능의 비약을 이루었다 [1]. 그러나, 이러한 방법론은 표현력의 확보를 위해 네트워크 층을 더 깊고 크게 확장하는 경향이 있으며, 이에 따라 연산량과 학습시간 증가 및 최적화
난이도 또한 커질 수 있다는 한계가 존재한다 [2]
[3].
방사형 기저 함수 신경망 (Radial Basis function Neural Network; RBFNN)은 이러한 단점을 보완할 수 있는 방법론으로,
지역화를 통한 전역 근사 능력 및 일반화와 빠른 수렴성이라는 이점이 있다 [4]. 그러나, RBFNN 모델 또한 구조면에서 한계점이 존재한다 [5]. 앞서 소개한 두 방법 (MLP, CNN)의 경우, 학습 단계에서 출력값의 오류 정보를 역전파 (Back propagation)하여 모든 파라미터에
반영하는 반복적인 업데이트가 모델 전체에 걸쳐 이루어진다. 반면, 일반적인 RBFNN 의 경우, 지역의 할당과 가중치 최적화가 순차적으로 이루어지며,
지역 및 가중치 정보가 오류를 반영하여 반복적으로 업데이트되지 않는다. 이러한 구조는 지역화 과정이 오류 감소를 지향하며 최적화 되는 지에 대한 근거를
제공하지 못하며, 이에 따라 데이터에 따른 성능의 편차가 존재한다.
이러한 RBFNN의 구조적 단점을 보완 하고자, 본 연구는 오류정보 기반 반복 정제형 RBFNN인 IRRBFNN (Iterative Refined
RBFNN; IRRBFNN) 모델을 제안하며, 이를 통해 전역 근사 능력 및 다양한 데이터에 대한 일반화 성능을 향상시키고자 하였다. IRRBFNN의
구조적 특징은 다음과 같다. 1) 오류 감소 추종 지역화를 위한 클러스터링 알고리즘 WFCM (Weighted Fuzzy C-Means)을 제안하였다.
2) 고오류 지역 탐색 및 클러스터 분할 기법을 적용한 동적 증분 구조를 제안하였으며, $PBMF$ 지수를 포함한 수락 조건의 도입으로 개선 여부
판단 및 구조의 적합성을 판단하였다 [6]. 3) WLSE (Weighted Least Square Estimation)를 제안하여 오류 정보를 반영한 연결 가중치 계수 최적화를 진행하였다.
본 논문은 다음 구조로 진행된다. 2장에서는 IRRBFNN의 구조와 설계의 전반적인 내용을 설명하며, 3장에서는 설계된 모델의 알고리즘 및 동작 순서에
대해 다룬다. 4장에서는 타 모델과의 일반화 성능 비교 및 통계적 검증을 통해 성능적 차별성을 확립하며 실제 응용 분야 데이터를 사용한 모델의 검증을
실시한다. 5장에서는 결론을 도출한다.
2. IRRBFNN 구조 및 내부 설계 구성
IRRBFNN (Iterative Refined Radial Basis Function Neural Network) 모델은 전통적인 방사형 기저함수
신경 회로망의 확장된 형태로서, 예측값과 실제값의 차이를 오류 정보로 활용하여 모델을 반복적으로 정제 및 최적화에 적용한다.
모델의 설계 구성은 입력 공간 지역화 ($\phi_j$, Localization) 단계 및 연결 가중치 $f_j(x)$ 의 최적화 단계, 그리고 지역
소속도와 연결 가중치의 결합을 통한 추론값 $\hat{y}_i$ 도출 단계로 구분할 수 있으며, 전체적인 구성도는 그림 1과 같다.
그림 1. IRRBFNN 전체 구성도 : (a) 오류 반영 모델 최적화 과정; (b) 오류 반영 및 분할 모델 최적화 과정.
Fig. 1. Overall architecture of IRRBFNN : (a) optimization process of the error-aware
model ; (b) optimization process of the error-aware with cluster splitting.
제안된 모델은 초기 추론을 진행한 후, 추론 결과의 오류 정보를 이용하여 모델을 정제한다. 이 과정에서, 추론값과 실제값의 차이를 정규화하여 지역화
및 연결 가중치 파라미터 최적화 단계에서 사용한다. 그러나, 단순히 오류 정보만 반영하여 지역화를 하는것은 성능 개선에 한계가 있을 수 있으며, 이에
따라 고오류 지역 탐지 및 분할을 통한 깊은 학습 방법을 제안한다. 그림 1(a) 는 오류 반영 모델 (Error-aware model) 로서, 오류 정보를 각 샘플에 재가중 (Reweighting) 하는 방식의 최적화 방법이다.
그림 1(b) 는 오류 정보 분할 모델 (Error-aware model with cluster splitting) 로서, 오류 정보 반영 및 고오류 지역 탐지를
통한 분할을 적용한 최적화 방법이다.
초기 추론 (Initial optimization stage) 시에는 그림 1(a) 를 적용하며, 이때는 오류 정보가 없기에 데이터간 거리와 분산 정보만을 사용하여 최적화를 진행한다. 그리고 반복 동작시 (Iterative optimization
stage), 초기 추론에 대한 오류 정보를 가중치화하여 Error-aware model의 최적화를 진행한다 (그림 1(a)). 이후, 고오류 지역을 탐지 및 분할여부 판단을 기반으로 증분 클러스터링을 통한 최적화를 진행한다 (그림 1(b)).
위 과정은 반복 적용되어, 모델이 오류를 최소화 하는 방향으로 지역화 및 파라미터의 최적화가 이루어지도록 한다.
2.1 Radial Basis function Neural Network
RBFNN (Radial Basis function Neural Network)은 입력 공간의 지역적 최적화를 통해 전역적 함수를 근사하는 함수 보간
기반 신경망이다 [4]. c개로 지역화된 방사형 기저 함수 (이하, RBF)를 $\Phi = \{\phi_1, \phi_2, \phi_3, \cdots, \phi_c\}$
로 정의하고, 각 RBF마다의 연결 가중치를 $f_j(x)$라 할 때, 출력값은 식 (1)을 통해 정의된다.
즉, RBFNN 성능의 핵심은, $\phi_j$ 의 정의와 $f_j(x)$의 최적화이며, 이에 대한 성능적 최적화 연구가 다수 존재하였다. 일반적인
RBFNN의 경우, $\phi_j$ 를 가우시안 (Gaussian) 형태의 방사형 함수로 정의하여 사용하는 경우가 많다 [7]. 그러나 Fuzzy C-Means (FCM) 알고리즘을 통하여 분할된 클러스터 정보를 RBF로 사용하여 특정 문제에서 준수한 성능을 보인 연구 또한
다수 존재한다 [4].
이에 본 연구에서는, 오류 가중치 $w_i$ 를 활용하여 확장된 FCM 알고리즘을 사용한 지역화 및 분할 전략을 통해 각 클러스터의 중심, 개수를
포함한 모델 전체를 반복적으로 정제하여 모델의 표현력 및 추론 성능을 개선하고자 하였다.
이때, 오류 가중치 $w_i$ 는 출력값과 실제값간의 차이 정보를 하이퍼볼릭 탄젠트 함수 ($Tanh$) 로 정규화 한 가중치로서, 식 (2) 를 통해 계산된다.
추론값 $\hat{y}_i$과 실제값 $y_i$ 간 차이인 $e_i$의 절대값을 정규화한 가중치 $w_i$는 $\beta$로 데이터로의 반영 정도를
조절하여 모델 전체 최적화 과정에 사용되며, 반복적으로 모델의 성능을 개선하는 핵심 요소로 작용된다.
2.2 WFCM 을 통한 지역 정의 및 오류 가중치 기반 클러스터링 방법
Fuzzy C-Means (FCM) 알고리즘은 비지도 학습 기반 클러스터링 방법으로, 각 데이터가 복수의 클러스터에 부분적으로 소속되는 유연한 데이터
분할을 수행한다 [8]. 이는 입력 공간 내 데이터에 거리와 분포 기반의 의미를 추가적으로 부여함으로써 표현력을 확보하는 수단으로 사용되었다. FCM 알고리즘의 핵심은
각 클러스터 중심 및 소속도의 최적화이며 반복적인 계산을 통해 점진적으로 이루어진다. 이는 기본적으로 데이터의 분포 특성에 의존하여, 클러스터의 구조를
형성하게 된다.
본 논문에서는 확장된 FCM의 방법인 WFCM을 사용하여 RBF 영역을 정의하였다. 이는 추론 결과에 따른 데이터별 오류값에 대한 정보를 가중치화하여
각 데이터에 반영 후 군집화하는 방법으로, 이 과정에서 데이터의 분산 정보뿐 아니라 오류 정보가 반영된다. 유한개의 입력 벡터 집합 $X = \{x^1,
x^2, x^3 \cdots x^d\} \subset \mathbb{R}^{N \times d}$와 임의의 클러스터 중심 벡터 집합 $V = \{v^1,
v^2, v^3 \cdots v^c\} \subset \mathbb{R}^c$이 존재할때, WFCM의 목적 함수는 식 (3)과 같다 [8]
[9].
c 는 클러스터의 개수, N은 데이터의 개수를 의미한다. $u_{ji}^m$ 는 $i^{th}$ 데이터가 $j^{th}$ 클러스터에 소속되는 정도를
의미하며, 이를 소속도라 한다. m (m>1) 은 퍼지화 계수로서, 해당 계수가 커질수록 각 데이터가 여러 클러스터에 편만히 소속된다. $d_{ji}^2$
는 $i^{th}$ 데이터 $\mathbf{x}_i$와 $j^{th}$ 클러스터의 중심 벡터 $\mathbf{v}_j$ 간의 거리를 의미하며, 해당
식은 (4) 와 같다.
위 식에서, $||.||$ 는 유클리드 거리를 의미하며, 소속도 $u_{ji}^m$, 클러스터 중심벡터 $\mathbf{v}_j$ 는 식 (5)-(6) 를 통해 계산된다.
가중치 $w_i$ 는 1로 초기화하여 초기 클러스터 최적화는 FCM과 동일하게 수행하도록 한다. 이후 추론 결과가 도출된 후에는 오류 정보의 가중치화
및 데이터에 반영하여 오류 정보를 반영한 클러스터링 알고리즘으로 동작한다.
2.3 오류 정보 기반 지역 분할 방법
RBFNN의 성능 향상을 위해 본 연구에서 주목한 점은, 클러스터 개수 c 이다. 이 파라미터는 입력 공간내에 분할된 지역 개수를 결정하며, 성능에
직접적인 영향을 미치는 핵심 파라미터이다. 많은 연구에서는 c를 고정된 하이퍼파라미터로서 학습 이전에 사전 결정하였으며, 데이터의 분산에 적합한 RBF
개수를 선정하기 위해 별도의 최적화 알고리즘을 사용하였다. 그러나, 이러한 접근은 RBF의 개수에 따른 성능 변화를 통한 간접적인 선정 방법이며,
각 데이터 형태에 적합하다는 충분한 근거를 제시하지 않는다.
이 논문에서는, 모델의 반복적인 훈련 과정속에 클러스터 형태의 정량적 평가 및 분할을 통한 RBF 개수의 최적화 과정을 제시한다. 특히, 고오류 지역
($w_i$가 높은 지역)의 탐지 및 분할을 통한 RBF 증분의 합리적 방법을 제시하였다.
분할 대상이 되는 클러스터는 최적화된 클러스터별 반경 및 가중 오류 SSE (Sum of Square Estimation) 를 반영한 값 $Score_j$
통해 선정되며, 해당 식은 식 (7)과 같다.
$r_j$ 은 각 클러스터의 내부 오류 정보를 포함한 반경을 의미하며 식 (8)로 정의한다.
식 (9)의 $SSE_j^{(err)}$는 오류 정보의 제곱합 (Sum of square estimation)으로서, 각 클러스터에 포함된 데이터의 오류 정보이다.
$\gamma$ 는 하이퍼파라미터로 $Score_j$ 결과에 대해 클러스터 반경 $r_j$과 $SSE_j^{(err)}$의 반영 정도를 조절한다.
이를 통해, 클러스터의 반경이 크고 오차 정보를 많이 함유한 클러스터가 분할 대상이 된다.
$Score_j$가 최대인 클러스터 $j^*$ 는 분할 대상 클러스터이며, 이후 해당 클러스터의 분할을 위해, 클러스터 내부에 가중치가 큰 고오류
지역을 코어로 지정한 후, 코어를 기준으로 클러스터를 분할한다. 코어 집합 $\Gamma$의 지정 및 코어 데이터별 가중치 정규화 과정은 식 (10)-(12)을 통해 이루어진다.
$b_i$를 통해 $j^*$ 클러스터 내부 데이터중 고오류 영역을 면밀하게 설정할 수 있으며, 이때 하이퍼파라미터 $p\%$ 를 조절하여 고오류 데이터의
범위를 지정할 수 있다. $u_{j^*i}$는 $u_{min}$ 이상인 경우만 해당하도록 설정하여, 클러스터 중심 위주의 코어 설정으로 인해 분할
시의 클러스터 품질을 확보하고자 하였으며, $u_{min}$ 은 0.5로 고정하였다.
$\Gamma$가 지정된 후, 식 (13)을 통해 평균과 공분산을 활용한 주성분 계산 및 분할 축을 선정한다.
위 식에 따라 주성분은 $Ce_1 = \lambda_1 e_1$ 의 계산을 통해 가중 분산이 최대화되는 응집 방향 고유벡터 $e_1$에 대한 고윳값
$\lambda_1$으로 정의된다. 분할 오프셋 $\delta$ 은 코어의 주분산을 반영하여 $\delta = \sigma_\delta \sqrt{\lambda_1}$로
두고, 클러스터 중심의 분할은 $v_+ = \bar{x} + \delta e_1, v_- = \bar{x} - \delta e_1$ 로서 $v_+$은
기존 $j^*$ 클러스터로, $v_-$는 새로운 클러스터의 중심으로 설정한다. 이때, $\sigma_\delta$ 는 분할 오프셋에 대한 스케일 하이퍼
파라미터로서 표준 편차의 몇 배만큼 중심을 이동할지를 결정한다. 위 과정을 통해 코어의 주응집 축으로의 분할이 유도된다.
위 분할 과정은 남용과 잡음 추종을 방지하기 위해, 최종적인 수락 조건에 의해 통제된다. 수락 조건은 3가지로 이루어져 있으며, 아래 식 (14)-(16)을 통해 표현된다.
조건 1의 $PBMF_w$ 는 클러스터링의 분리도와 응집도를 동시에 반영하는 지표로서 [6], 본 논문에서는 클러스터링 품질 판단 및 에러정보와의 융합을 통한 클러스터 분할과정의 근거로서 사용되었다.
식 (17)의 $E_0 = \sum_i ||\mathbf{x}_i - \bar{\mathbf{x}}||^2$은 각 데이터의 전역적 분산값을 의미하며, $D_K
= \max_{j \neq k} ||\mathbf{v}_j - \mathbf{v}_k||$는 각 클러스터간의 거리를 의미한다. 분할 전, 후 지표의
변화를 통해 각 클러스터의 분리 및 응집도를 정량적으로 평가하며, 만일 분할된 클러스터의 품질 지표가 저조할 경우에 분할을 허용하지 않는다.
조건 2는 분할 후의 성능 지표 (Performance Index; RMSE) 성능 비교를 의미하며, 분할 후에 추론 성능이 떨어질 경우를 방지한다.
조건 3은 분할 대상인 코어의 $SSE_j^{(err)}$의 오차 감소 여부를 의미하며, 오류 밀집 지역이 클러스터의 분할로 인해 실질적인 개선이
있었는지를 확인한다.
위 조건들의 중요도는 하이퍼파라미터 $\tau_{PBMF}, \tau_{PI}, \tau_{SSE}$를 조절함으로써 결정되며, 조건을 전부 수락한
경우에만 분할을 허용한다.
2.4 연결 가중치 파라미터 최적화 및 예측 성능의 평가
위 과정을 통해 RBF 영역이 최적화 되면, 각 RBF와 출력층간의 연결 가중치 $f_j(x)$가 정의된다. 이때, $f_j(x)$는 각 RBF 내의
데이터 분산 표현력을 확보하기 위해 단순한 상수 뿐 아니라 표 1 에 명시된 다항 형태의 가중치를 사용하였다 [10]
[11].
표 1. 다항 형태의 가중치 함수
Table 1. Types of polynomial weight functions
|
Function type
|
Consequent part/function
|
Constant
(CO)
|
$f_j(\mathbf{x}) = a_{j0}, (\mathbf{x} \in \mathbb{R}^N)$
|
Linear
(LI)
|
$f_j(\mathbf{x}) = a_{j0} + \sum_{i=1}^N a_{ji}x_i, (\mathbf{x} \in \mathbb{R}^N)$
|
Quadratic
(QD)
|
$f_j(\mathbf{x}) = a_{j0} + \sum_{i=1}^N a_{ji}x_i + \sum_{i=1}^N \sum_{s=1}^N a_{ji+s}x_i
x_s, (\mathbf{x} \in \mathbb{R}^N)$
|
Modified
Quadratic
(MQ)
|
$f_j(\mathbf{x}) = a_{j0} + \sum_{i=1}^N a_{ji}x_i + \sum_{s=1}^N a_{ji+s}x_s^2, (\mathbf{x}
\in \mathbb{R}^N)$
|
해당 가중치의 계수를 $a_i$라 할때, WLSE (Weighted LSE)를 활용하여, 예측 오차 정보를 손실 함수에 반영한 형태의 계수 최적화를
진행하였다. c개의 RBF에 대해 정의되는 손실 함수는 식 (18)와 같다 [4].
$\xi_j = \begin{bmatrix} w_1 u_{j1} & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0
& \cdots & w_N u_{jN} \end{bmatrix} \in \mathbb{R}^{N \times N}$일때, 위 식을 행렬 형태로 표현하면
식 (19) 와 같다.
$\xi_j$ 는 클러스터 j에 대한 데이터별 오류 정보 가중치를 대각 성분으로 가지는 행렬이다. 가중치 계수 $a_i$는 위 손실 함수를 최소화
함으로써 최적화되며, 식 (20) 와 같이 계산된다.
WLSE를 통한 연결 가중치의 계수 최적화는 기존 LSE 방식보다 정밀하며 추론 중심적인 계수 추정이 가능하게 한다.
위 과정을 통해 최적화된 $f_j(x)$는 식 (1)에서 정의된 바와 같이 RBF 소속 정보 $\phi_j$ 와 결합하여 최종 예측값 $\hat{y}_i$를 도출한다. 이후, 예측 성능은 RMSE (Root
Mean Square Error) 를 통해 평가되며, 이는 식 (21)를 통해 표현된다.
표 2. 제안 모델의 하이퍼파라미터
Table 2. Hyperparameters of the proposed model
|
Index
|
Meaning
|
Value
|
|
c
|
초기 클러스터 개수
|
2, 4, 7
|
|
m
|
퍼지화 계수
|
1.2, 1.5, 2.0
|
Polynomial
type
|
다항 가중치 계수
형태
|
CO, LI, QD, MQ
|
|
$\beta$
|
오류 정보 반영
스케일
|
0.5 1.0 1.5
|
|
$\gamma$
|
$Score_j$ 내부 정보
반영 정도
|
0.3, 0.5, 0.7
|
|
$p$
|
고오류 데이터 범위
스케일
|
0.1 0.2 0.3
|
|
$\sigma_\delta$
|
분할 오프셋 스케일
|
0.5 1.0 0.5
|
|
$\tau_{PBMF}$
|
분할 수락조건 PBMF
지수 스케일
|
0, 0.1, 0.3
|
|
$\tau_{PI}$
|
분할 수락조건 PI
지수 스케일
|
0, 0.1, 0.3
|
|
$\tau_{SSE}$
|
분할 수락조건 SSE
지수 스케일
|
0, 0.1, 0.3
|
3. IRRBFNN의 알고리즘 설계 및 동작
본 논문에서 제안하는 IRRBFNN은 반복적 정제를 통한 오류 감소 추종 회귀 모델이다. 따라서 2장에서 소개한 방법론을 기반으로 반복적인 모델 구조
정제 및 가중치 최적화 과정이 이루어진다. 모델의 전반적인 흐름은 그림 2 에 표현된 순서도에 따르며, 초기 성능 확보 및 오류값 계산과 분할 작업 및 평가를 통한 일련의 정제 과정을 반복적으로 수행한다.
모델의 초기 구성은 사전 정의된 하이퍼파라미터를 통해 이루어지며, 표 2에 종류 및 조절 값이 표기되어있다. 하이퍼파라미터의 선택을 통해 다양한 조건에서 모델의 성능을 평가하고 최적의 조합을 도출하였으며, 해당 값들의
선택은 다수의 실험을 통한 체계적인 시행착오 (trial and error) 과정을 통해 결정되었다.
그림 2. 제안 모델의 동작 알고리즘 순서도.
Fig. 2. Flowchart of the proposed algorithm.
모델의 초기 파라미터 설정 후, WFCM를 통한 RBF 영역의 최적화 과정 및 WLSE를 통한 후반부 다항 가중치 파라미터의 계수 최적화가 순차적으로
이루어진다. 이때, $w_i$ 는 1로 초기화하여 데이터간 거리 및 분산 정보만을 활용한다. 이를 통해 도출된 예측값과 실제값의 오류 차이 계산 후,
정규화 작업을 거쳐 데이터별 오류 정보를 포함한 $w_i$를 도출한다. 이후 $w_i$를 각 데이터에 반영하여 다시 영역 및 계수 최적화를 통한 추론값을
도출한다. 이때, 이후 진행될 분할 평가를 위해 $PBMF_w$ 지수를 계산하여 클러스터의 질적 평가 정보를 확보한다. 이를 통해 도출된 모델은 오류
반영 모델 (Error-aware model) 로서 데이터별 오류 정보만을 반영하여 최적화 된 것으로, $Model_t^{(err)}$ 라고 칭한다.
여기서 $t$ 는 전체 모델의 반복 차수에 대한 인덱스이다.
이후, 분할 대상 클러스터 선정 및 평가 과정을 통해 최종 모델 선정 과정이 이루어진다. 이를 위해, $r_j$, $SSE_j^{(err)}$, $Score_j$
의 계산을 통해 분할 대상 클러스터 $j^*$ 를 선정 후 클러스터 $j^*$ 내에서의 $b_i$, $\eta_i^{(core)}$ 계산을 통해 오류
밀집 코어를 탐지한다. 이후, 밀집 코어 분할은 $\delta$의 계산을 통해 분할 대상 클러스터의 최대 분산 축을 기준으로 이루어진다.
이후, 분할된 클러스터 정보를 포함하여 RBF 영역 중심 및 가중치를 최적화 후 추론값을 도출한 오류 정보 분할 모델 (Error-aware model
with cluster splitting) 을 최적화하며, 해당 모델을 $Model_t^{(err+split)}$ 이라 칭한다. 분할 적용 모델의
적합성은 세 개의 수락 조건을 통해 평가되며, 이를 통해 해당 차수에서 오류 반영 모델 $Model_t^{(err)}$ 과 비교하여 나은 클러스터
분할 및 성능을 보유하고 있는지를 정량적으로 검증한다. 수락 조건을 만족할 경우, $Model_t^{(err)}$ 보다 개선된 것이며, 이는 오류
코어 탐지 및 분할 과정이 모델 개선에 직접적으로 관여함을 의미한다. 반면 수락 조건을 만족하지 못하는 경우, 오히려 분할 과정이 성능 및 기타 지표를
저하시킨 경우이므로 분할을 적용하지 않고 오류 정보만을 반영한 $Model_t^{(err)}$ 모델을 선정한다.
위 구조 정제 및 분할을 통한 모델 최적화 과정은 오류 정보를 최소화 하는 방향으로 반복적으로 진행된다. 추가적으로, 본 논문에서는 위 과정에 early
stopping 기법을 도입하여 반복적인 정제 과정에서 성능이 저하되거나, 성능의 개선의 여지가 없음에도 지속적인 동작으로 인해 불필요한 계산 손실이
일어나는 것을 방지하였다 [12].
4. IRRBFNN 모델의 정량적 평가
본 연구에서 제안한 알고리즘은 다수의 다변량 데이터를 통해 일반화 성능을 검증하였다. 이를 위해, 다수의 UCI 벤치마크 데이터를 사용하여 타 모델과의
일반화 성능을 비교하였으며, 이때 통계적인 기법을 적용한 신뢰도 높은 분석을 진행하였다. 또한, 실제 (Real world) 환경에서 획득된 데이터를
활용하여, 해당 데이터에 특화된 모델과의 성능 비교를 진행하였으며, 이를 통해 설계된 모델의 객관적인 성능을 평가하였다.
4.1 벤치마크 데이터를 활용한 일반화 성능 검증
모델의 일반화 성능을 평가 및 검증하기 위해 사용된 머신러닝 (Machine learning) 벤치마크 데이터는 UCI 데이터 저장소를 통해 획득하였다
(https://archive.ics.uci.edu/). 이는 일반적으로 머신러닝 학습 모델의 일반화 성능 검증을 위한 보편적인 데이터로서 많은 연구에
인용되었다.
표 3는 제안 모델과 타 모델의 비교를 위해 사용된 데이터 및 특성을 의미한다. 데이터 간 규모의 차이에 따른 편향 등을 방지하기 위해 모델 훈련 및 평가에
10-fold cross validation 기법을 적용하였다 [13].
표 3. 일반화 성능 평가용 데이터셋의 특성
Table 3. Characteristics of the datasets used for generalization performance evaluation
|
Data (Numbers)
|
특성 변수 개수
|
데이터 개수
|
|
MPG (1)
|
7
|
392
|
|
Housing (2)
|
13
|
506
|
|
NOx (3)
|
5
|
260
|
|
MIS (4)
|
10
|
390
|
|
Concrete (5)
|
8
|
1030
|
|
Yacht (6)
|
6
|
308
|
|
CPU (7)
|
6
|
209
|
|
Forestfires (8)
|
12
|
517
|
|
Airfoil (9)
|
5
|
1503
|
|
Servo (10)
|
4
|
167
|
|
Wine quality (11)
|
11
|
1599
|
|
Plastic (12)
|
2
|
1650
|
|
Friedman (13)
|
5
|
1200
|
|
Abalone (14)
|
8
|
4177
|
|
Wizmir (15)
|
9
|
1461
|
|
Wankara (16)
|
9
|
321
|
표 4. 성능 비교를 위한 SOTA 회귀 모델
Table 4. State-of-the-art(SOTA) regression models used for performance comparison
|
Index
|
Model
|
|
Model 1
|
TabNet [14]
|
|
Model 2
|
MAMBULAR [15]
|
|
Model 3
|
RVFL [16]
|
|
Model 4
|
XANFIS [17]
|
표 4은 제안 모델과의 성능 비교를 위해 선택된 SOTA (State-of-the-art) 회귀 모델이다. Model 1, 2는 Deep learning
기반 모델이고, Model 3 은 Randomized neural network 계열의 모델이며, Model 4는 Adaptive neuro-fuzzy
추론 기반의 모델이다. 위 모델들은 높은 성능과 범용성 측에서 다수의 영역에 적용 및 인용되는 모델로서, 제안 모델 성능을 비교 및 평가하기에 적절하다.
표 5는 각 데이터셋에 대해 10-fold cross validation을 수행한 후, 각 fold의 훈련 데이터 (Train)로 모델을 학습하고 평가
데이터 (Test)에서 계산된 RMSE를 기준으로 제안 모델과 SOTA 모델의 성능을 비교한 결과이다. 이때 제안 모델의 결과는 표 2에 제시된 하이퍼파라미터 탐색 범위 내에서 각 데이터별로 가장 우수한 성능을 보인 설정을 적용하여 도출하였다. 이러한 정량적 비교와 더불어, 제안
모델의 학습 과정에서 나타나는 성능 변화와 구조 적응 과정을 구체적으로 분석하기 위해 NOx 데이터에 대한 반복학습 결과를 그림 3에 제시하였다. 그림 3(a) 는 20회 반복 동안의 훈련 데이터에 대한 RMSE와 평가 데이터에 대한 RMSE 변화를 나타내며, 반복이 진행됨에 따라 오차가 점진적으로 감소하고
일정 시점 이후 안정화되는 경향을 보여준다. 또한 분할이 수행되는 시점마다 성능이 단계적으로 개선되는 양상이 확인되는데, 이는 제안 모델의 증분 분할
메커니즘이 예측 성능 향상에 실질적으로 기여함을 의미한다. 그림 3(b)는 동일한 반복 과정에서 분할 조건에 따라 변화하는 Cluster 개수를 나타낸 것으로, 분할 발생 시점과 RMSE 감소 구간이 대응됨을 통해 구조적
분할의 유효성을 확인할 수 있다. 특히 약 10회 반복 이후에는 RMSE와 Cluster 개수가 모두 안정화되어 추가적인 분할이 발생하지 않으며,
이를 통해 제안 모델이 데이터 구조에 적응적으로 클러스터를 형성한 뒤 안정적으로 수렴함을 확인할 수 있다.
그림 3. NOx 데이터에 대한 반복 학습 과정에서의 성능 변화 및 클러스터 분할 과정 : (a)반복 학습에 따른 학습 및 평가 RMSE 변화, (b)반복
학습에 따른 클러스터 수 변화.
Fig. 3. Performance variation and cluster splitting process during iterative learning
on the NOx dataset : (a) Changes in training and testing RMSE during iterative learning;
(b) Changes in the number of clusters during iterative learning.
표 5. SOTA 모델 및 제안 모델간 성능 비교.
Table 5. Performance comparison between SOTA models and the proposed model.
|
Data
|
Model 1
|
Model 2
|
Model 3
|
Model 4
|
Ours
|
|
(1)
|
0.512
±0.08
|
0.477
±0.07
|
0.583
±0.03
|
1.041
±0.24
|
2.548
±0.57
|
|
(2)
|
3.741
±0.98
|
5.519
±1.46
|
4.275
±0.82
|
11.04
±3.05
|
3.231
±0.67
|
|
(3)
|
2.175
±0.50
|
32.48
±3.51
|
3.592
±0.52
|
12.70
±5.78
|
0.421
±0.11
|
|
(4)
|
1.053
±0.29
|
1.031
±0.36
|
1.026
±0.18
|
2.131
±0.65
|
1.020
±0.31
|
|
(5)
|
6.336
±1.05
|
5.700
±1.60
|
9.242
±0.87
|
36.84
±3.28
|
6.372
±0.42
|
|
(6)
|
2.049
±0.99
|
3.609
±1.03
|
8.300
±1.43
|
8.317
±4.39
|
4.130
±0.59
|
|
(7)
|
62.92
±38.5
|
147.2
±87.3
|
54.71
±25.8
|
144.9
±133
|
45.62
±19.2
|
|
(8)
|
75.59
±54.1
|
45.31
±44.1
|
48.13
±41.4
|
48.98
±44.0
|
42.94
±49.8
|
|
(9)
|
2.822
±0.29
|
3.274
±0.23
|
4.440
±0.31
|
80.39
±43.3
|
3.510
±0.23
|
|
(10)
|
0.477
±0.33
|
0.546
±0.22
|
0.898
±0.33
|
1.351
±0.65
|
0.550
±0.19
|
|
(11)
|
0.638
±0.03
|
0.623
±0.04
|
0.646
±0.04
|
2.480
±0.30
|
0.632
±0.02
|
|
(12)
|
1.578
±0.10
|
1.510
±0.08
|
1.513
±0.08
|
2.200
±0.32
|
1.490
±0.11
|
|
(13)
|
1.298
±0.10
|
1.350
±0.09
|
2.453
±0.32
|
5.793
±1.21
|
1.249
±0.08
|
|
(14)
|
2.118
±0.11
|
2.136
±0.12
|
2.142
±0.10
|
3.369
±0.56
|
2.105
±0.12
|
|
(15)
|
1.741
±0.22
|
1.427
±0.05
|
1.258
±0.16
|
6.049
±1.88
|
1.131
±0.10
|
|
(16)
|
1.938
±0.32
|
14.94
±0.87
|
1.783
±0.27
|
33.34
±11.4
|
1.240
±0.22
|
Average
Rank
|
2.560
|
2.680
|
3.180
|
4.750
|
1.810
|
Rank
difference
|
0.750
|
0.870
|
1.370
|
2.970
|
-
|
성능 비교시, 제안 모델은 16개의 벤치마크 데이터중 10개의 데이터에서 우수한 성능을 보였으며, 평균 순위 또한 1.810으로 비교 모델들 중 가장
낮게 나타났다. 이는 제안 모델이 개별 데이터셋에 대한 성능 뿐 아니라 전체 벤치마크 환경에서도 전반적으로 우수한 일반화 성능을 보임을 의미한다.
또한 모델간 순위 차이 (Rank difference) 역시 제안 모델이 대부분의 비교 모델 대비 우세함을 보여주며, 이러한 경향은 그림 4를 통해 시각적으로 비교 가능하다.
그림 4. 각 모델의 평균 순위 및 제안 모델과의 순위 차이
Fig. 4. Average ranks and rank differences between the proposed model and comparison
models
그러나, 이러한 성능 기준 순위 비교 만으로 제안 모델의 객관적인 수준을 판단하기 어렵다. 따라서, 본 논문에서는 Friedman, Bonferroni-Dunn
통계적 검정 기법을 적용하여 모델간의 성능적 차이의 유의성을 검증하였으며, 이를 통해 성능의 차이 유무 판단의 신뢰성을 확보하고자 하였다 [18].
Friedman 검정은 비모수적 통계 기법으로서, 여러 알고리즘의 성능 순위를 통해 전체적으로 유의미한 차이의 존재여부를 판단하는 통계 기법이다.
이 검정은 카이제곱 통계량 $\chi_F^2$ 에 기반하며, 해당 통계량의 계산은 아래 식(22)을 따른다 [18].
N=16은 비교 데이터셋의 수이고 k는 비교된 모델수로 5이다. $R_l$은 각 모델의 평균 순위이며 $\bar{R}$은 평균 순위의 평균값이다.
결과적으로 표 5의 결과에 대한 $\chi_F^2$ 값은 30.76 이며, 식 (23)에 따라 도출되는 $F_F$ 값은 13.88 이다.
이 통계량은 자유도 $((k-1),(k-1)(N-1)) = (4,60)$ 일때의 F-분포표를 따르므로, 유의수준 $\alpha=0.1$ 일때의 임계값
$F_{critical}$ 은 2.04가 된다. 도출된 통계량 $F_F$ 값이 임계값을 상회하므로 귀무가설이 기각되며, 이것은 모든 모델이 동일한
성능을 가지지 않는다는 것을 의미한다.
Bonferroni-Dunn 검정은 각 비교군의 성능적 차이를 확인하는 다중 비교 기법이며, 임계 차이 (Critical difference;CD)및
z 통계량 값의 비교를 통한 검증이 이루어진다. CD 의 계산은 식 (24)와 같으며, 이때 유의수준 $\alpha=0.1$일때, $q_\alpha$ 값은 2.241이다 [18].
위 식을 통해 도출된 CD 값은 1.25 이며, 해당 값과 순위 차이값을 비교하여 제안 모델과의 성능적 차이의 유의성을 판단할 수 있다. 또한, z
통계량의 도출은 식 (25)를 통해 이루어진다.
위 식의 계산 결과값의 도출에 따른 유의성 검증의 결과는 표 6과 같다.
표 6. Bonferroni-Dunn 검정 결과.
Table 6. Bonferroni-Dunn test results.
|
비교 모델
|
z 통계량
|
가설 검증
|
|
Model 1
|
1.34
|
$H_0$ 수락 (accepted)
|
|
Model 2
|
1.55
|
$H_0$ 수락 (accepted)
|
|
Model 3
|
2.45
|
$H_0$ 기각 (rejected)
|
|
Model 4
|
5.25
|
$H_0$ 기각 (rejected)
|
그림 4에서 RVFL 및 XANFIS 모델은 순위 차이값이 CD 값을 상회하며, 동시에 z 통계량이 $q_\alpha$를 상회하여 귀무가설이 기각된다. 이는
곧 제안 모델과의 성능적 차이가 존재함이 통계적으로 검증됨을 의미한다. 반면 TabNet과 MAMBULAR 모델의 경우, 순위 차이값이 CD 값보다
낮으며, 동시에 z 통계량이 $q_\alpha$보다 낮으므로 귀무가설이 수락되며, 제안 모델과의 성능적 차이가 크지 않음을 의미한다.
4.3 실제 데이터 적용 및 성능 비교
본 논문에서는 IRRBFNN의 일반화 성능 및 산업 응용 가능성을 검증하기 위해 취득된 실제 데이터를 활용한 실험을 진행하였다. 이때 사용된 데이터는
시멘트 압축강도 (Cement Compressive Strength; CCS) 특성 데이터이다 [19].
CCS는 시멘트의 품질과 기계적 성능을 평가하는 중요 지표이며, 이를 측정 및 분석하기 위한 많은 연구가 선행되어왔다. 그러나, 다수의 분석 방법은
다양한 외부 요인 및 실험적 오차에 취약하다는 공통된 한계점이 존재했다. 이에 대해, $\mu CT$ (미세 구조 컴퓨터 단층 촬영 기법) 스캐너를
활용한 이미지 특성 분석과 Machine Learning 모델을 적용한 강도 예측 방법이 제안되었으며, 그 결과로 실험 오차의 감소 및 예측 정확도
향상 효과를 보인 연구들이 선행되었다. 이에 본 논문에서는, IRRBFNN 모델을 동일한 강도 예측 분야에 적용하여 성능을 검증하였으며, 이를 통해
해당 분야 적용 가능 여부를 판단하고자 하였다 [20].
이를 위해, 4종의 시멘트 페이스트 시료군을 정해진 비율로 혼합하여 제조된 시멘트 시료로부터 추출된 $\mu CT$ 이미지 특성 및 압축 강도 데이터를
활용하였다.
데이터의 추출 과정은 그림 5에 명시된 대로 순차적인 단계를 통해 진행되며, 특성 및 강도 추출 과정은 다음과 같다. 먼저, 시료 제조 후 $\mu CT$ 를 통한 촬영을 통해
고 해상도 3D 이미지를 생성한다. 이후, 촬영된 볼륨에서 큐빅 단위의 분석 영역을 설정하여 이미지 데이터셋을 구축한다. 이때, 압축 강도는 각 시료에서
추출된 분석 시편 6개를 9개 시점에서 측정한 후 평균값으로 산출하였다 [20]-[22].
그림 5. $\mu CT$ 스캔을 통한 3차원 미세구조 이미지 획득 및 특징 추출 과정.
Fig. 5. Process of 3D microstructural image acquisition, preprocessing, and feature
extraction using $\mu CT$ scanning.
수집된 이미지 데이터셋은 Gray Level Histogram (GLH) 와 Gray Level Co-occurrence Matrices (GLCM)
전처리 기법을 통해 주요 텍스처 및 공간 분포 특성을 정량화 했으며, 이를 통해 총 56개의 특성 변수 산출하였다. 최종적으로 데이터셋은 4종 시료군
각 900개씩, 총 3600개의 샘플이 확보되었다 [20]-[22].
표 7. CCS 데이터셋에 대한 RMSE 성능 비교.
Table 7. RMSE comparison on the CCS dataset.
|
Data
|
FRNNs
[20]
|
LFPFC
[21]
|
PFPNN
[22]
|
IRRBFNN
|
|
CCS
|
2.3832
±$none$※
|
2.2880
±0.088
|
2.2436
±0.2903
|
2.1902
±0.071
|
※ 해당 논문에 분산값 표기되지 않음
표 7은 CCS 데이터에서 입력 특성을 이용한 압축강도 예측에 대한 회귀모델의 일반화 성능을 RMSE 기준으로 비교한 결과이다. 비교에 사용된 FRNNs,
LFPFC 기반 모델, PFPNN은 모두 각 선행연구에서 다양한 경쟁 회귀모델과의 비교를 통해 성능이 검증된 기준모델들이다.
이들 비교 모델의 주요 특성을 간략히 정리하면 다음과 같다. 먼저, FRNNs (Fuzzy-rule-based neural network)는 결정/상관
계수 기반 입력변수 선택, FCM-σ 기반 은닉층, L2 정규화를 결합한 모델로서, 고차원 회귀문제에서의 일반화 성능 향상을 위해 기존 RBFNN
에 적용 및 개선한 모델이다 [20].
또한, LFPFC 기반 모델은 linear function prototype- driven fuzzy clustering을 도입하여 기존 Fuzzy
클러스터 기반 모델 및 RBFNN 모델 구조를 개선한 모델로, 보조층 도입을 포함하는 구조를 통해 출력공간 정보를 간접적으로 반영한다. 또한 다양한
회귀모델과의 비교 및 Friedman test를 통해 경쟁력이 검증되었다 [21].
PFPNN은 GRU structure, FCNS 전략, Fuzzy polynomial neuron, 2-norm regularization을 결합한
PNN 계열의 Progressive 회귀모델로서, 다양한 데이터셋과 동일 응용 데이터에서 우수한 성능이 보고되었다 [22].
특히 이들 모델은 동일한 CCS 데이터 또는 동일 응용 맥락의 Cement hydration 데이터에서 우수한 성능이 보고된 바 있으므로, 표 7의 비교가 단순한 수치 비교를 넘어 제안 모델의 실질적 경쟁력을 평가하는데 의미가 있다고 할 수 있다.
위 기준모델들과의 비교에서 IRRBFNN은 2.1902의 RMSE를 기록하였으며, FRNNs (2.3832), LFPFC 기반 모델 (2.2880),
PFPNN (2.2436)보다 모두 우수한 성능을 보였다. 이는 제안 모델이 동일 데이터셋에서 기존 클러스터 기반 회귀모델 및 PNN 계열 확장모델보다
더 우수한 예측 정확도와 일반화 능력을 가짐을 의미하며, 시멘트 압축강도 예측과 같은 실제 산업 응용 회귀문제에 대한 높은 적용 가능성을 시사한다.