김광현
(Gwang-Hyeon Kim)
1iD
오하령
(Ha-Ryoung Oh)
1iD
성영락
(Young-Rak Seong)
†iD
-
(Dept. of Electronics Engineering, Kookmin University, Korea)
Copyright © The Korea Institute for Structural Maintenance and Inspection
Key words
Transformer, Time-Series Forecasting, Power Consumption, MLP, Depthwise Separable Convolution
1. 서 론
세계적으로 전력 사용량이 증가함에 따라 전력의 공급과 소비의 균형을 맞추기 위해 전력 사용량을 예측하기 위한 연구가 진행되고 있다. 전력 사용량
예측에서는 과거 및 현재의 사용 정보, 다양한 외적 요인 등을 고려하여 미래의 전력 사용량을 예측한다. 정확한 전력 사용량 예측은 전력 공급 계획을
수립하고 공급 정책을 결정하는 과정에서 다양하게 활용되어 전력 시스템의 안정성과 효율성을 향상하는 데 중요한 역할을 한다[1-2].
지난 수십 년 동안 전력 사용량 예측의 성능을 향상하기 위해 다양한 연구들이 이루어졌다[3-4]. 그 중 대표적인 방법으로 시계열 분석, 회귀 분석, 기계 학습이 있다. 시계열 분석 방법은 과거의 전력 사용량을 분석하여 시간에 따른 전력 사용량의
복잡한 시계열 패턴을 파악하고, 이를 통해 미래의 전력 사용량을 예측하는 방법이다. 대표적으로 ARIMA(Autoregressive Integrated
Moving Average), 이동평균법, 지수평활법 등이 있다. 회귀 분석 방법은 전력 사용량에 영향을 주는 외적 요인들을 분석하여, 전력 사용량과
외적 요인 간의 인과관계를 통해 전력 사용량을 예측하는 방법이다. 전력 사용량의 경우, 기온과 습도 등의 기상 요인들과 요일, 계절, 인구 변화 등의
사회적 요인들이 주로 사용된다. 그러나 시계열 분석과 회귀 분석 방법은 비정상성(non-stationarity)을 가진 데이터 예측 시에는 정확도가
떨어지는 한계점이 있다. 마지막으로 기계 학습 방법은 다양한 알고리즘과 딥러닝을 활용하여 전력 사용량의 시계열 패턴을 학습하고 복잡한 관계를 모델링하여
미래의 전력 사용량을 예측하는 방법이다[5-7]. 대표적으로 인공신경망 구조 기반의 순환 신경망(Recurrent Neural Network, RNN), 합성곱 신경망(Convolutional
Neural Network, CNN)이 있다. 순환 신경망과 합성곱 신경망은 전력 사용량과 외적 요인들 간의 복합적인 관계와 전력 사용량의 비정상성을
효과적으로 학습한다. 그러나 순환 신경망은 기울기 소실(Gradient Vanishing), 순차처리, 장기 의존성(Long-Term Dependency)
등의 문제점을 가지고 있으며, 합성곱 신경망 또한 장기 의존성 문제와 입출력 길이가 하나의 값으로 고정되는 등의 문제점을 가지고 있어서 전력 사용량
예측 성능을 향상하는 데에 한계가 있다.
최근 자연어 처리 분야에서 사용되기 위해 고안된 트랜스포머(Transformer)[8]는 기존 인공신경망 모델들의 한계점을 효과적으로 보완하여 시계열 예측 분야에서 높은 성능을 보인다. 트랜스포머는 인코더-디코더 구조로 구성된다. 인코더는
입력 데이터의 정보를 추출하는 역할을 하고, 디코더는 인코더로부터 추출된 정보를 토대로 결과를 예측하는 역할을 한다. 또한, 어텐션(attention)
기법을 사용하여, 입력 데이터 전체를 한꺼번에 고려할 수 있어서, 인공신경망 모델의 대표적인 문제점인 장기 의존성 문제를 효과적으로 해결한다. 그러나
트랜스포머 또한 시계열 예측에서 몇 가지 한계점을 가지고 있다. 대표적으로, 어텐션 기법은 입력 데이터 전체를 한 번에 고려하기 때문에 전력 사용량
데이터의 시간의 흐름을 고려하지 못한다. 또한, 인코더와 디코더의 복잡한 구조로 인해 학습 및 추론 과정에서 상당한 계산 자원을 필요로 한다.
본 논문에서는 기존 인공신경망 및 트랜스포머의 한계점을 보완하고 전력 사용량의 예측 성능을 높이기 위한 트랜스포머 기반의 새로운 모델 구조를 제안한다.
제안된 모델은 기존 트랜스포머의 인코더-디코더 구조에서, 디코더를 MLP(Multi-Layer Perceptron)[9]로 대체한 인코더-MLP 구조를 가진다. 또한, 인코더 층의 서브 층인 순방향(Feed Forward) 신경망 층을 깊이별 분리 합성곱(Depthwise
Separable Convolution)[10] 층으로 대체한다. 제안된 모델은 이러한 구조적 특성을 반영하여 EMformer라 명명한다. EMformer는 검증을 위해 국내 유통ㆍ물류 시설의
전력 사용량 데이터를 사용하여 기존 시계열 예측 모델들과 성능을 비교한다.
본 논문의 구성은 다음과 같다. 2장에서는 EMformer의 설명에 앞서, 기존 전력 사용량 예측을 위해 사용되었던 시계열 예측 모델들을 소개한다.
3장에서는 EMformer의 구조를 부분별로 기술하며, 4장에서는 유통ㆍ물류 시설의 전력 사용량 데이터셋을 사용하여 기존 시계열 예측 모델들과 성능을
비교한다. 마지막으로 5장은 결론으로 끝을 맺는다.
2. 관련 연구
전력 사용량 예측 연구는 대표적으로 시계열 분석, 회귀 분석, 기계 학습이 있다. 시계열 분석 방법의 대표적인 회귀 모델인 ARIMA는 데이터의 자기
상관성을 이용하여 목표를 예측한다. 그러나 시계열 분석 및 회귀 분석과 같은 전통적인 분석 방법은 정상성(stationarity)을 가지고 있는 데이터의
경우 높은 정확도를 보이지만 계절성, 추세 등의 비정상성을 가지고 있는 데이터는 정확도가 매우 낮아지는 한계가 있다.
이러한 한계점을 보완하기 위해 다양한 기계 학습 모델이 제안되었다. 대표적으로 RNN, CNN, DNN(Deep Neural Network) 등의
인공신경망 기반 모델들이 주로 연구되었다. 예를 들어, Tokgöz et al.[11]은 대표적인 시계열 예측 모델인 RNN을 사용하여 터키의 전력 사용량을 예측하였다. Caicedo-Vivas et al.[12]은 RNN의 변형 모델인 LSTM(Long Short-Term Memory)을 사용하여 콜롬비아 그리드의 전력 부하를 예측하였다. Jurado et
al.[13]은 기존 비전 분야에서 주로 사용되었던 2차원 CNN을 1차원으로 변형한 전력 사용량 예측 모델을 제안하였다. Wang et al.[14]은 CNN과 LSTM을 결합한 앙상블(Ensemble) 모델을 사용하여 전력 사용량을 예측하였다. Im et al.[15]은 기상 조건에 따라 RNN 계열의 LSTM과 GRU(Gated Recurrent Unit)를 조합한 다중 모델 기법을 활용하여 전력 사용량을 예측하였다.
해당 모델들은 인공신경망을 기반으로 입력 데이터의 정상성뿐 아니라 비정상성 또한 효과적으로 학습하며 우수한 성능을 보인다. 그러나 해당 모델들은 여러
가지 한계점을 가지고 있다. RNN, LSTM과 같은 순환 신경망 모델의 경우, 순차 구조로 되어 병렬 연산이 불가능하여 학습 속도가 느리다. 또한,
긴 길이의 데이터를 예측할 때 장기 의존성 문제로 인해 예측 정확도가 떨어진다. CNN의 경우, 필터를 사용한 합성곱 연산으로 인해 필터의 크기에
따라 학습할 수 있는 주기의 길이가 제한되며 순환 신경망과 같이 장기 의존성 문제를 가지고 있다.
최근 자연어 처리 분야에서 주로 사용되었던 트랜스포머가 시계열 예측 분야에서 기존 인공신경망 기반 모델들의 한계점을 효과적으로 보완하며 우수한 성능을
보이고 있다. 그림 1은 트랜스포머의 구조이다. 트랜스포머는 어텐션 기법을 활용하여 입력 데이터의 모든 시점에서 다른 모든 시점과의 관계를 학습한다. 이는 병렬 연산을
가능하게 하여 학습 속도를 향상시키고, 장기 의존성 문제를 효과적으로 해결하며 우수한 성능을 보였다. 예를 들어, Chan et al.[16]에서는 트랜스포머를 기반으로 희소 어텐션(sparse attention) 기법을 사용하여 스마트 미터의 전력 사용량을 예측하였다. Kim et al.[17]은 합성곱 신경망으로 구성된 트랜스포머를 제안하였다. 이처럼 트랜스포머는 기존 시계열 예측 모델들의 한계를 극복하고, 다양한 형태로 조합이 가능하다.
그러나 트랜스포머는 입력 데이터의 시간의 흐름을 고려하지 못할 수 있고, 복잡한 구조로 인해 계산 시에 많은 자원을 필요로 한다는 단점이 있다.
그림 1. 트랜스포머 구조
Fig. 1. Transformer Structure
한편 기존 기계 학습 방법들은 랜덤 포레스트, 라쏘(Lasso), XGBoost 등 다양한 변수 선택 방법을 통해 목표 변수와 영향도가 높은 변수만을
사용하는 것이 모델의 성능을 높인다는 연구 결과가 있다[18-19]. 그러나 영향도가 낮은 변수 또한 중요한 정보를 포함할 수 있고, 해당 변수를 제거하는 것이 반드시 모델의 성능을 높임을 의미하지 않을 수 있다.
본 논문에서는 실험을 통해 해당 내용을 검증하고자 한다.
3. 모델 구조
본 장에서는 전력 사용량 예측 정확도를 높이기 위한 EMformer 모델 구조를 제안한다. EMformer는 전통적인 트랜스포머의 인코더-디코더 구조에서,
디코더를 MLP로 대체한 인코더-MLP 구조를 가진다. 또한, 인코더의 순방향 신경망 층을 깊이별 분리 합성곱 층으로 대체하여, 다중 헤드 어텐션
층과 깊이별 분리 합성곱 층으로 구성한다. 그림 2는 EMformer 모델의 구조를 보여준다.
그림 2. EMformer 구조
Fig. 2. EMformer Structure
3.1 위치 인코딩
트랜스포머에서 입력 데이터는 위치 인코딩 기법을 거쳐서 인코더 층으로 전달된다. 위치 인코딩은 어떤 특정한 방식으로 순서 정보를 담고 있는 위치 벡터를
생성하고, 이것을 입력 데이터에 더하여 순서 정보를 주입하는 것이다. 본 논문에서는 Vaswani et al.[8]에서 도입되었던 정현파(sinusoidal) 위치 인코딩 방법을 사용하여 입력 데이터에 순서 정보를 주입한다. 정현파 위치 인코딩은 사인 및 코사인
함수를 사용하여 각 위치에 대해 고유한 값을 생성하며, 다음과 같은 공식을 통해 계산된다.
여기서 pos는 입력 데이터의 위치, i는 차원의 인덱스, d는 모델의 차원을 나타낸다. 이 방법은 각 위치의 값들이 일정한 주기를 가지도록 하여
순차적 정보를 학습할 수 있도록 한다.
3.2 다중 헤드 어텐션
3.1절에서 설명한 방식으로 위치 인코딩된 입력 데이터가 인코더 층으로 전달되면, 인코더의 헤드 어텐션 층에서는 어텐션 기법을 사용하여 정보를 추출한다.
어텐션 기법은 각 시점의 정보가 다른 시점의 정보들과의 상호작용을 통해 시계열 패턴을 추출할 수 있도록 하는 기법이다. 다중 헤드 어텐션 층은 입력
데이터에 다수의 어텐션 헤드를 병렬로 적용함으로써, 다양한 시계열 패턴을 추출할 수 있다. 각 어텐션 헤드는 서로 다른 쿼리(query), 키(key),
값(value) 벡터를 사용하여 입력 데이터의 정보를 다양한 관점에서 추출한다. 쿼리, 키, 값 벡터는 입력 데이터를 표현하는 세 가지 벡터로, 다음과
같이 생성된다.
WiQ, WiK, WiV는 가중치 벡터를 나타내며, 입력 데이터 X에 세 가지 가중치 벡터를 사용하여 쿼리, 키, 값 벡터를 생성한다. 생성된 쿼리,
키, 값 벡터는 어텐션 기법을 통해 정보를 추출한다. 본 논문에서는 다양한 어텐션 기법 중 스케일된 내적 어텐션(scaled dot-product
attention) 기법을 사용한다. 스케일된 내적 어텐션 기법은 단순한 벡터 연산으로 구성되어 병렬 처리에 최적화되어 있다. 또한, 다른 어텐션
기법들의 경우 입력 데이터의 길이에 따라 성능을 보장할 수 없으나, 이 어텐션 기법은 입력 데이터의 길이와 관계없이 일관된 성능을 보장한다. 스케일된
내적 어텐션은 먼저 쿼리, 키 벡터 간 내적을 계산하고, 이를 차원 수의 제곱근으로 나눈 뒤 소프트맥스를 적용하여 가중치를 얻는다. 마지막으로 이
가중치를 값 벡터에 곱하여 최종 어텐션 출력을 생성한다. 스케일된 내적 어텐션은 아래의 공식으로 나타낸다.
각 헤드에서 생성된 어텐션 출력들은 하나의 벡터로 결합되고, 가중치 벡터를 사용하여 최종 출력을 생성한다. 이 과정은 아래의 공식으로 나타낸다.
여기서 headi는 각 어텐션 헤드의 출력을 나타내며, Wo는 최종 결합된 벡터에 적용되는 가중치 행렬이다. 이러한 구조는 입력 데이터의 다양한 패턴과
복잡한 관계를 보다 효과적으로 학습하며, 전역적인 정보 추출할 수 있다. 그림 3은 다중 헤드 어텐션의 구조를 보여준다.
그림 3. 다중 헤드 어텐션 구조
Fig. 3. Structure of Multi-Head Attention
3.3 깊이별 분리 합성곱
다중 헤드 어텐션 층에서 추출된 다양한 시계열 정보는 깊이별 분리 합성곱 층에서 더욱 정교하게 처리한다. 깊이별 분리 합성곱은 주로 컴퓨터 비전 분야에서
많이 사용되는 합성곱의 한 종류로, 깊이별 합성곱(depthwise convolution)과 점별 합성곱(pointwise convolution)으로
구성된다. 일반적인 합성곱 연산과 달리, 깊이별 분리 합성곱은 깊이별 합성곱과 점별 합성곱을 통해 채널 연산과 공간 연산을 분리하여 동작한다. 이를
통해 시계열 데이터의 공간적 및 시간적 특징을 추출하는 데 유리하며, 지역적인 정보 추출을 강조하여 더욱 세밀한 특징 추출이 가능하다. 따라서 본
논문에서는 기존 순뱡향 신경망이 아닌 깊이별 분리 합성곱을 사용하였다. 먼저, 깊이별 분리 합성곱은 각 채널에 대해 독립적으로 합성곱 연산을 수행하여
정보를 분석하고, 이로 인해 지역적인 정보를 강조한다. 여기서 각 채널은 입력 데이터의 시점을 의미한다. 이어서 점별 합성곱은 채널 간의 상호작용을
통해 깊이별 합성에서 추출된 정보와 함께 전체적인 정보를 통합하여 추출된 시계열 정보를 더욱 명확히 할 수 있다. 그림 4는 깊이별 분리 합성곱의 구조를 보여준다.
그림 4. 깊이별 분리 합성곱 구조
Fig. 4. Structure of Depthwise Separable Convolution
또한, 깊이별 분리 합성곱은 일반적인 합성곱과 비교하여 채널 연산과 공간 연산을 분리하여 처리함으로써 매개변수의 수와 계산량을 크게 줄일 수 있다.
이는 모델의 학습 속도 및 추론 속도를 높이고, 모델을 경량화함으로써 자원이 제한된 환경에서도 사용할 수 있도록 한다.
3.4 MLP
EMformer는 인코더에서 추출된 정보를 MLP를 통해 최종 결과를 예측한다. MLP는 연산량과 파라미터 수를 줄여 모델의 학습 및 추론 속도를
향상시키며, 구조가 비교적 단순하여 모델의 복잡성을 줄이고 과적합의 위험을 낮춰 안정적인 성능을 유지할 수 있다. 본 논문에서는 이러한 이유로 기존
트랜스포머의 디코더 구조를 MLP로 대체하였다.
위의 (6)과 (7)은 기존 트랜스포머의 디코더와 MLP의 FLOPs(floating point operations) 수식을 나타내며, FLOPs는 부동소수점 연산량을
의미하며, 딥러닝에서 모델의 연산량을 나타내는 지표로 사용된다. 식 (6)에서 N은 층(layer) 수, Ld와 Le는 트랜스포머의 인코더와 디코더의 입력 길이, dm과 dff는 모델 차원과 순방향 신경망의 차원을 나타낸다.
또한, 식 (7)에서 N은 동일하게 층 수를 나타내고, d(n)in과 d(n)out은 n번째 층의 입력과 출력 차원을 나타낸다. 여기서 Ld와 Le는 수십에서 수백,
또는 수천에 이르는 매우 가변적인 크기를 가지고 있으며, dm, dff, d(n)in, d(n)out은 일반적으로 128, 256, 512 등 고정된
값을 가진다. 이를 통해 MLP는 디코더와 비교하여 일반적으로 연산량이 적으며, L의 크기가 커짐에 따라 MLP의 연산 효율성은 높아진다.
인코더에서 추출된 정보는 MLP를 통해 최종 결과를 예측한다. MLP는 연산량과 파라미터 수가 적어 모델의 학습 및 추론 속도를 향상할 수 있다.
또한, 비교적 단순한 구조로 인해 모델의 복잡성을 줄여, 과적합의 위험을 줄이며 안정적인 성능을 유지할 수 있도록 도울 수 있다. 따라서 본 논문에서는
기존 트랜스포머의 디코더 구조를 MLP로 대체하였다. MLP는 고전적인 인공신경망의 한 종류로, 입력층, 출력층과 여러 개의 은닉층으로 구성된 기본적인
구조의 신경망이다. 그림 5는 MLP의 구조를 보여준다. MLP의 각 층은 다수의 뉴런으로 구성되어 있으며, 각 뉴런은 이전 층의 모든 뉴런과 연결되어 있다. 입력층은 모델이
처리할 데이터를 입력받는 층으로, 입력 데이터의 특성 수와 동일한 뉴런 수를 가진다. 출력층은 결과를 예측하는 층으로 예측하려는 목표 변수의 수에
따라 출력층의 뉴런 수가 달라진다. 은닉층은 입력층과 출력층 사이에 위치하며, 시그모이드(Sigmoid), ReLU(Rectified Linear
Unit)과 같은 비선형 함수를 사용하여 입력 데이터의 비선형 패턴을 모델링한다.
그림 5. MLP 구조
Fig. 5. MLP Structure
4. 실 험
본 장에서는 EMformer의 성능을 평가한다. 이를 위해 Im et al.[15]에서 다루었던 유통ㆍ물류 시설의 전력 사용량 데이터셋을 사용하여 기존 시계열 예측 모델들과의 성능 비교를 통해 EMformer 모델의 성능을 평가하였다.
J. Li et al.[20] 연구에서는, 영향도가 낮은 변수는 학습 시에는 오히려 노이즈로 작용하여 모델의 성능을 낮출 수 있는 것으로 보고하였다. 그래서 그 이후, 많은 연구에서는
데이터셋에서 영향도가 낮은 변수를 제거하여 모델의 성능을 높였다[18-19]. 하지만 제안된 EMformer 모델은 어텐션 기법을 통해 각 변수의 상호작용을 효과적으로 학습할 수 있고, 각 변수의 중요도가 동적으로 조절되기
때문에, 표면적으로 영향도가 낮은 변수도 학습에 도움을 줄 수 있을 것으로 판단되었다. 따라서 본 논문에서는 피어슨 상관계수(Pearson correlation
coefficient) 방법을 사용하여, 각 변수가 전력 사용량에 미치는 영향도를 분석한 다음, 영향도가 낮은 변수를 제거한 데이터셋과 모든 변수를
포함한 데이터셋을 이용하여 비교 실험하였다.
4.1 데이터셋
본 논문에서는 EMformer의 성능 평가를 위한 사례 연구로서 경기도 부천시 유통ㆍ물류 시설의 전력 사용량 데이터셋을 사용한다. 해당 데이터셋은
2016년 1월 1일부터 2018년 12월 31일까지 3년간의 데이터를 포함하고 있으며, 1일 간격으로 기록되어 있다. 그림 6에서 볼 수 있듯이 전력 사용량 데이터는 특정일에 매우 낮은 값을 보인다. 여기서 특정일은 유통ㆍ물류 시설의 휴점일을 나타낸다. 본 논문에서는 해당
특징을 효과적으로 학습할 수 있도록 휴점 여부에 대한 더미(dummy) 변수를 포함하였고, 주기적 패턴과 계절적 변동성을 반영하기 위해 요일과 계절을
나타내는 더미 변수를 포함하였다. 또한, 전력 사용량에 영향을 미칠 수 있는 주요 요인으로서 기상 변수를 고려하여 온도, 습도, 강수량, 풍속 등
다양한 기상 변수들을 포함하였다. 해당 변수들은 기상청으로부터 수집하였으며, 총 10개의 기상 변수를 포함하였다. 표 1은 전력 사용량을 예측하기 위해 사용한 변수들을 보여준다.
수집한 데이터셋은 모델의 학습과 검증을 위해 8:2로 분할한다. 이 중 80%는 모델의 학습에 사용되며, 나머지 20%는 모델의 성능 평가를 위해
사용된다.
그림 6. 2016년 전력 사용량 흐름
Fig. 6. Flow of Electricity Energy in 2016
표 1 데이터셋의 변수 구성
Table 1 Composition of Dataset Variables
종류
|
변수명
|
예측 변수
|
전력 사용량
|
기상 변수
|
평균기온, 최저기온, 최고기온, 일 강수량, 최대순간풍속, 최대 풍속, 평균 풍속, 평균 상대습도, 합계 일사, 일 최심적설
|
더미 변수
|
휴점 여부, 요일, 계절
|
4.2 상관관계 분석
변수의 영향도를 분석하는 방법으로 랜덤 포레스트, XGBoost, 피어슨 상관계수 등이 제안되어 있다. 본 논문에서는 이 중에서 피어슨 상관계수 방법을
통해 전력 사용량과 기상 변수 간 상관계수를 추출하고, 전력 사용량과 상관계수가 낮은 변수를 선정하였다.
피어슨 상관계수는 -1~1의 값으로 산정되며, 상관계수가 양수일 때는 양의 선형관계를, 음수일 때는 음의 선형관계를 지니고 있음을 의미한다. 또한,
1에 가까울수록 강력한 선형관계를, 0에 가까울수록 미비한 선형관계를 의미한다.
그림 7은 전력 사용량 및 기상 변수 간 상관계수를 산출한 표이며, 전력 사용량과 기상 변수 간 상관계수에서 일 최심적설 변수가 0.06으로 극히 낮은 계수를
보인다. 따라서 본 논문에서는 일 최심적설 변수를 제거한 데이터셋과, 원래의 모든 변수가 포함된 데이터셋 등 두 가지 데이터셋으로 실험을 진행한다.
그림 7. 피어슨 상관계수 표
Fig. 7. Table of Pearson Correlation Coefficient
4.3 실험 환경
딥러닝 모델의 경우 하이퍼 파라미터의 설정에 따라 매우 큰 성능의 차이를 보인다. 본 논문에서는 하이퍼 파라미터를 다양하게 설정하고 실험하여 가장
우수한 하이퍼 파라미터를 선정하였다. EMformer의 하이퍼 파라미터는 표 2와 같다.
표 2 하이퍼 파라미터 설정값
Table 2 Hyperparameter Settings
하이퍼 파라미터
|
설정값
|
Number of Encoder Layers
|
4
|
Number of Heads
|
4
|
Model Dimension
|
256
|
Optimizer
|
Adam
|
Learning Rate
|
0.0001
|
Batch Size
|
256
|
Epochs
|
2000
|
Loss Function
|
MSE
|
4.4 평가지표
평가지표는 기존 시계열 예측 연구에서 주로 사용되는 MAPE(Mean Absolute Percentage Error)와 RMSE(Root Mean
Squared Error)로 한다. MAPE는 실제값과 예측값 사이의 백분율 오차를 평균하여 나타내는 지표로, 상대적 오차를 측정한다. RMSE는
실제값과 예측값 사이의 오차를 제곱한 값의 제곱근을 나타내는 지표로, 절대적 오차를 측정한다. MAPE와 RMSE의 수식은 (8)과 (9)로 나타낸다.
위 식에서 은 테스트 데이터의 총 길이, 는 i 시점에서의 실제값을, $\hat{Y_{i}}$는 i 시점에서의 예측값을 의미한다.
4.5 실험 결과
본 장에서는 EMformer의 성능을 평가하기 위해 기존 시계열 예측 모델들과 비교 실험을 진행한다. EMformer는 앞서 언급한 대로 표 2의 하이퍼 파라미터 설정값으로 설정하고 수집한 데이터셋을 사용하여 예측한다. 예측 길이는 1일로 하여 단일 시점 예측을 수행한다. 비교 모델은 LSTM,
CNN과 같은 인공신경망 모델, CNN-LSTM의 앙상블 모델, 다중 조건 모델[15], 트랜스포머, 합성곱으로 구성된 트랜스포머[17] 모델로 선정하였다.
표 3 비교 결과
Table 3 Comparison results
모델
|
모든 변수 포함
|
MAPE
|
RMSE
|
LSTM
|
8.15
|
11.19
|
GRU
|
7.8
|
10.9
|
CNN
|
7.6
|
11.08
|
CNN-LSTM
|
5.79
|
10.2
|
Conditional Multi Model
|
5.54
|
9.8
|
Transformer
|
4.9
|
9.14
|
Convolutional Transformer
|
4.65
|
8.92
|
EMformer
|
3.47
|
7.75
|
모델
|
일 최심적설 변수 제거
|
MAPE
|
RMSE
|
LSTM
|
7.6
|
10.92
|
GRU
|
7.3
|
10.79
|
CNN
|
6.85
|
10.2
|
CNN-LSTM
|
5.6
|
9.72
|
Conditional Multi Model
|
5.46
|
9.69
|
Transformer
|
5.3
|
9.54
|
Convolutional Transformer
|
4.65
|
8.92
|
EMformer
|
3.67
|
8.08
|
그림 8. 예측 결과
Fig. 8. Prediction Result
표 3은 두 데이터셋에 대한 EMformer 및 비교 모델들의 MAPE, RMSE 결과이다. 트랜스포머 기반 모델은 인공신경망 기반 모델과 비교하여 MAPE와
RMSE 측면에서 모두 우수한 성능을 보이는 것을 확인할 수 있다. 또한, EMformer 모델은 모든 변수가 포함된 데이터셋에서는 MAPE 3.47로
최대 약 57.34%, RMSE 7.75로 최대 30.75% 개선되었으며, 일 최심적설 변수가 제거된 데이터셋에서는 MAPE 3.67로 최대 51.71%,
RMSE 8.08로 최대 약 26.02%가 개선되었다. 그림 8은 인공 신경망 모델인 CNN-LSTM과 트랜스포머, EMformer의 예측 결과를 일부 보여준다. EMformer는 다른 두 모델과 비교하여 전력
사용량 데이터의 흐름을 정교하게 추적하며 가장 우수한 성능을 보이는 것을 확인할 수 있다.
한편, 모든 변수가 포함된 데이터셋과 일 최심적설 변수를 제거한 데이터셋에서 각 모델의 성능을 보면, 인공신경망 기반 모델은 일 최심적설 변수를 제거한
데이터셋에서 좀 더 높은 정확도를 보였던 것에 비하여, EMformer를 포함한 트랜스포머 기반 모델은 모든 변수가 포함된 데이터셋에서 좀 더 높은
정확도를 보이는 것을 확인할 수 있다. 인공신경망 기반 모델은 각 변수를 고정된 가중치로 처리하며, 각 변수의 중요도를 동적으로 조절하지 않는다.
이로 인해 일 최심적설 변수는 학습 시 노이즈로 작용하여 예측 성능이 저하될 수 있다. 반면, 트랜스포머 기반 모델은 어텐션 기법을 통해 각 변수의
중요도를 동적으로 조정하고, 변수 간 상호작용을 효과적으로 학습하며 일 최심적설 변수의 정보를 추출할 수 있는 것으로 판단된다. 따라서 영향도가 낮은
변수가 미치는 영향은, 모델의 구조적 특징과 학습 메커니즘의 차이에 따라 달라짐을 알 수 있다.
5. 결 론
본 논문에서는 정확한 전력 사용량 예측을 위해 기존 시계열 예측 모델들의 한계점을 보완할 수 있는 트랜스포머 기반의 EMformer 모델을 제안한다.
EMformer는 기존 트랜스포머의 인코더-디코더 구조에서 인코더 층을 그대로 사용하고, 복잡한 구조의 디코더 층을 고전적인 인공신경망 모델인 MLP로
대체하여 모델을 경량화하였다. 또한, 인코더 층의 서브 층인 순방향 신경망 층을 깊이별 분리 합성곱 층으로 대체하여 정보 추출 능력을 강화한다.
EMformer는 유통ㆍ물류 시설의 전력 사용량 데이터셋을 사용하여 기존 시계열 예측 모델들과 비교 실험을 수행한다. 평가지표로는 시계열 예측에서
주로 사용되는 MAPE와 RMSE를 사용한다. 실험 결과, EMformer는 비교 모델들보다 우수한 성능을 보였다. 이러한 결과는 EMformer가
어텐션 기법을 활용해 인공신경망 비교 모델들이 가지고 있는 장기 의존성 문제를 효과적으로 해결하고, 인코더 내의 깊이별 분리 합성곱 층을 사용하여
강화된 정보 추출 능력이 주요 요인으로 작용한 것으로 판단된다.
또한, 전력 사용량 데이터셋을 영향도가 낮은 변수를 제거한 데이터셋과 모든 변수가 포함된 데이터셋으로 나누어 비교 실험하여 해당 변수의 영향을 확인하였다.
실험 결과, 변수 선택 기법을 통해 영향도가 낮은 변수를 제거하는 것이 모델의 성능 향상에 있어 필수적이지 않음을 확인할 수 있었다.
향후 연구에서는 다양한 산업 분야의 시계열 데이터셋에 대한 적용을 탐구하고, 본 논문에서 수행한 단일 시점 예측 외 다중 시점 예측을 수행하며 일반화
성능을 강화하는 방향으로 연구할 예정이다.
References
R. V. Klyuev, I. D. Morgoev, A. D. Morgoeva, O. A. Gavrina, N. V. Martyushev, E. A.
Efremenkov, and Q. Mengxu, “Methods of forecasting electric energy consumption: A
literature review,” Energies, vol. 15, no. 23, pp. 8919, 2022.
M. Jacob, C. Neves, and D. V. Greetham, “Forecasting and assessing risk of individual
electricity peaks,” Springer Nature, 2020.
A. Gupta, M. Chawla, and N. Tiwari, “Electricity Power Consumption Forecasting Techniques:
A survey,” Proceedings of the International Conference on Innovative Computing & Communication
(ICICC), 2022.
G. Mahalakshmi, S. Sridevi, and S. Rajaram, “A survey on forecasting of time series
data,” 2016 IEEE International Conference on Computing Technologies and Intelligent
Data Engineering (ICCTIDE), pp. 1-8, 2016.
K. Benidis, S. S. Rangapuram, V. Flunkert, Y. Wang, D. Maddix, and C. Turkmen, “Deep
Learning for Time Series Forecasting,” ACM Computing Suveys, vol. 55(6), no. 121,
pp. 1-36, 2022.
Z. Shen, Y. Zang, J. Lu, J. Xu, and G. Xiao, “A novel time series forecasting model
with deep learning,” Neurocomputing, vol. 396, pp. 302-313, 2020.
B. Lim, and S. Zohern, “Time-series forecasting with deep learning: a survey,” Philosophical
Transactions of the Royal Society A, vol. 379, no. 2194, pp. 20200209, 2021.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser,
and I. Polosukhin, “Attention is all you need,” Advances in neural information processing
systems, vol 30, 2017.
T. Zhang, Y. Zhang, W. Cao, J. Bian, X. Yi, S. Zheng, and J. Li, “Less is more: Fast
multivariate time series forecasting with light sampling-oriented mlp structures,”
arXiv preprint arXiv:2207.01186, 2022.
F. Chollet, “Xception: Deep Learing with Depthwise Separable Convolutions,” Proceedings
of the IEEE conference on computer vision and pattern recognition, pp. 1251-1258,
2017.
A. Tokgöz, and G. Ünal, “A RNN based time series approach for forecasting turkish
electricity load,” 2018 IEEE 26th Signal processing and communication applications
conference (SIU), pp. 1-4, 2018.
J. S. Caicedo-Vivas, and W. Alfonso-Morales, “Short-Term Load Forecasting Using an
LSTM Neural Network for a Grid Operator,” Energies, vol. 16, no. 23, pp. 7878, 2023.
M. Jurado, M. Samper, and R. Rosés, “An improved encoder-decoder-based CNN model for
probabilistic short-term load and PV forecasting,” Electric Power Systems Research,
vol. 217, pp. 109153, 2023.
D. Wang, J. Gan, J. Mao, F. Chen, and L. Yu, “Forecasting power demand in China with
a CNN-LSTM model including multimodal information,” Energy, vol. 263, pp. 126012,
2023.
J. H. Im, Y. R. Seong, and H. R. Oh, “A Method of Multi-model Machine Learning for
Electrical Energy Prediction Accuracy Improvement,” The transactions of The Korean
Institute of Electrical Engineers, vol. 71, no. 6, pp. 876-883, 2022.
J. W. Chan, and C. K. Yeo, “A Transformer based approach to electricity load forecasting,”
The Electricity Journal, vol. 37, no. 2, pp. 107370, 2024.
D. K. Kim, and K. S. Kim, “A Convolutional Transformer Model for Multivariate Time
Series Prediction,” IEEE Access, vol. 10, pp. 101319-101329, 2022.
A. González-Vidal, F. Jiménez, A. F. Gómez-Skarmeta, “A methodology for energy multivariate
time series forecasting in smart buildings based on feature selection,” Energy and
Buildings, vol. 196, pp. 71-82, 2019.
H. H. Htun, M. Biehl, and N. Petkov, “Survey of feature selection and extraction techniques
for stock market prediction,” Financial Innovation, vol. 9, no. 1, pp. 26, 2023.
J. Li, K. Cheng, S. Wang, F. Morstatter, R. P. Trevino, J. Tang, and H. Liu, “Feature
Selection: A Data Perspective,” ACM computing surveys (CSUR), vol. 50(6), no. 94,
pp. 1-45, 2017.
저자소개
Kim received a B.S. degree in Physics from Kookmin University and an M.S. degree in
Electrical Engineering from Kookmin University. His current research interests are
in the areas of discrete event system modeling and simulation, embedded systems and
machine learning.
Oh received a B.S. degree in Electrical Engineering from Seoul National University,
Seoul, Korea, in 1983 and M.S. and Ph.D. degrees in Electrical Engineering from Korea
Advanced Institute of Science and Technology, Daejeon, Korea, in 1988 and 1992, respectively.
Since 1992, he has been a professor with Kookmin University, Seoul. His current research
interests include RFID systems, wireless sensor networks, machine learning and embedded
systems.
Seong received a B.S. degree in Electrical Engineering from Hanyang University, Seoul,
Korea, in 1989 and M.S. and Ph.D. degrees in Electrical Engineering from Korea Advanced
Institute of Science and Technology, Daejeon, Korea, in 1991 and 1995, respectively.
Since 1996, he has been a professor with Kookmin University, Seoul. His current research
interests include RFID systems, wireless sensor networks, machine learning and embedded
systems.