조세빈
(Sebin Cho)
1iD
허진
(Jin Hur)
†iD
-
(Dept. of Climate and Energy Systems Engineering, Ewha Womans University, Republic
of Korea.)
Copyright © The Korea Institute for Structural Maintenance and Inspection
Key words
Wind Power Forecasting, Universial Kriging, Elevation Correction, Reanalysis Data, XGBoost, Forecast Correction
1. 서 론
기후변화 대응 및 탄소중립(Net-Zero, Carbon Neutrality) 목표를 달성하기 위해 전 세계적으로 재생에너지를 중심으로 에너지 전환
및 지속 가능한 자원 개발이 진행되고 있다. 재생에너지 발전원 중에서도 풍력 및 태양광발전은 다른 에너지 자원에 비해서 가파른 성장세를 보이고 있으며,
향후 대규모 설비가 전력 시스템에 연계되어 운영될 것으로 예상된다. 국제에너지기구(IEA)는 2050년까지 탄소중립을 달성하기 위해 전 세계적으로
약 8,000GW 이상의 풍력 설비용량이 필요하다고 보고하며, 이는 현재 약 850GW에서 9배 이상 증가한 규모이다[1]. 세계풍력에너지협회(GWEC) 또한 2030년까지 전 세계 풍력발전의 누적 설치 용량이 약 3,000GW 이상 필요하다고 제시하며, 단기적으로도
상당한 규모의 증설이 필요함을 강조하고 있다[2]. 국내에서도 10차 전력수급기본계획에 따른 풍력설비 보급 목표는 2030년까지 19.3GW, 2036년까지 34.1GW로 설정되어 있으며, 이는
2022년 기준 누적 설치량 1.8GW 대비 각각 약 10.7배와 18.9배 증가해야 달성할 수 있는 목표이다. 또한, 기존 태양광 중심에서 태양광과
풍력의 균형 있는 보급을 위해 태양광 및 풍력 설비용량을 2021년 기준 87:13에서 2036년 60:40으로 조정하고자 한다[3].
그러나 풍력발전은 비주기적인 바람 조건으로 인해 변동성 및 간헐성이 큰 특성이 있어 대규모 풍력발전 계통 연계 시 신뢰도 유지에 어려움을 초래할 수
있다. 이러한 변동성은 초단기적으로는 전력 계통 주파수 안정성에 영향을 주며 단기적으로는 전력 계통 내 수요-공급 측면에서의 전력공급 계획 수립 및
정비계획에 영향을 미친다. 기존의 전력계통은 화력발전과 같은 동기 발전기가 주를 이루고 있어 신뢰도 유지에 큰 문제가 없었으나, 최근 풍력발전의 설비용량이
증가하면서 재생에너지 연계 시스템에서의 관성 및 신뢰도 유지가 해결 과제로 떠오르고 있다[4].
이러한 문제를 해결하기 위해서는 정확한 발전량 예측이 필수적이다. 계통 운영자는 전체 발전량을 기반으로 전력 수급을 조정하므로, 개별 발전기뿐만 아니라
단지 전체의 출력 변동을 효율적이고 정확하게 예측하고 관리하는 것이 중요하다. 풍력 발전량의 정확한 예측을 위해서는 발전기가 설치된 위치에서의 기상정보가
가장 중요하나, 구축비 및 유지보수비 등 비용 문제를 비롯한 데이터 소유권, 보안 및 기술적 제약 문제로 계통 운영자의 데이터 취득에 한계가 존재한다.
본 연구는 실제 운영 환경에서의 제약을 고려하여 발전단지 대표 지점 인근의 기상정보를 바탕으로 목표 지점의 기상정보를 추정하고, 이를 기반으로 고도화된
풍력발전 출력예측 모델을 개발 및 검증하였다. 모델 학습 과정에서는 기상 관측 데이터를 활용하여 부족한 정보로부터 목표 지점의 신뢰성 높은 데이터를
생성하기 위해, 관측지점 간 고도 차이를 반영한 공간보간 기법을 적용하였다. 또한, 재분석 자료를 추가로 사용함으로써 관측자료의 한계를 보완하여 입력
데이터의 정확도를 개선하고자 하였다. 이러한 기상 DB를 바탕으로 XGBoost 기계학습 모델을 활용한 하루 전 풍력발전 출력예측 모형을 개발하고,
제주도 A 풍력발전단지의 데이터를 기반으로 실증하였다. 제주지역은 전력시장 제도 개선에 따라 하루 전 및 실시간 입찰 시장을 운영 중이나, 실시간
예측을 위한 예보 데이터의 지속적 업데이트에 현실적 제약이 존재하므로, 본 연구는 하루 전 예측 기반 발전량 예측 모델 개발에 초점을 두었다. 모델
검증 시 예측 모형의 실질적인 성능을 평가하기 위하여 기상청의 단기예보 자료를 활용하고, 발전단지 대표지점에 최적화된 예보를 생산하기 위해 예보값에
기계학습 기반 보정을 추가적으로 수행하였다.
XGBoost 알고리즘은 풍력발전 출력예측에 있어 우수한 성능을 보이는 것으로 여러 선행연구에서 보고되고 있다. XGBoost는 기상 변수의 복잡한
비선형 관계를 효과적으로 모델링할 수 있는 앙상블 학습 기반 머신러닝 모델로, 데이터에 대한 예측 정확도가 높고 빠른 학습이 가능하다는 장점이 있다
[5]. 특히 XGBoost는 과적합 방지, 결측치 자동 처리, 특성 중요도 제공 등의 기능을 제공하여 풍력발전 예측 모델링에 적합하다
[6-8].
본 연구의 방법론은 제한된 데이터 환경에서도 발전단지 전체의 출력 변동성을 효율적으로 예측할 수 있도록 설계되었으며, 계통 운영 측면에서 풍력 발전량의
변동성과 불확실성을 효과적으로 관리할 수 있는 기반을 마련하는 데 기여할 수 있다. 본 연구에서 제안한 XGBoost 기반 예측 모형은 기존의 예측
방식 대비 높은 정확도를 보이므로, 전력계통의 운영 리스크를 감소시키고 예측 오차로 인한 계통 불안정을 완화할 수 있다. 또한, 제안된 방법론은 향후
실시간 전력시장 운영 및 재생에너지 입찰제도 도입에 대비한 기술적 기반을 제공하며, 단기 예측의 정확도 개선을 통해 전력 수급의 불균형을 완화하고
발전사업자의 임밸런스 패널티를 줄여 전력 시스템의 경제성을 제고할 수 있다. 이는 전력 계통의 유연성을 향상시키고 재생에너지의 계통 연계를 원활하게
함으로써 탄소중립 및 에너지 전환 목표 달성에 기여할 것으로 기대된다.
2. 크리깅 기법을 이용한 풍력발전 예측 시스템 개발
본 연구에서는 제주지역 풍력발전 단지 A의 전기적 출력 실증 데이터(1시간 단위의 발전단지 총 발전량)를 기반으로 풍력단지 발전량 예측 시스템을 개발하였다.
기상 데이터를 구축하는 과정에서 발전단지 인근 기상 관측 데이터를 활용하여 관측되지 않은 특정지점에서의 더 상세한 정보를 추정하기 위해 고도 변화를
반영한 크리깅을 수행하였다. 또한, 재분석 자료를 추가적인 입력 데이터로 활용함으로써 예측 시스템 입력 데이터 품질을 개선하여 출력예측 정확도 및
신뢰성을 제고하고자 하였다.
2.1 풍력발전단지 대표지점 선정
풍력발전단지 내 여러 발전기의 위치정보를 바탕으로 발전단지의 대표지점을 선정하기 위해 각 터빈의 위치를 풍력터빈 용량에 따라 가중 평균하였다. 그림 1은 풍력발전단지의 대표지점을 선정하는 과정을 간략하게 도식화한 것이다. 기상 관측 및 예보 데이터는 특정 지점에서 취득되며, 발전단지 내 모든 터빈
위치에서의 기상 조건을 개별적으로 얻는 것이 현실적으로 어려울 수 있다. 따라서 발전단지 대표지점을 설정하고, 해당 지점에서의 기상 데이터를 바탕으로
발전단지 출력예측을 수행하고자 하였다. 터빈의 용량에 따라 가중치를 부여함으로써 실제 발전량에 대한 기여도를 고려한 대표지점을 선정하여 공간분석 기법
수행 시 계산 효율성을 개선하였다.
그림 1. 터빈 용량에 고려한 풍력발전단지 대표지점 선정
Fig. 1. Illustration of Representative Point Selection Process for the Wind Farm
2.2 풍력발전단지 기상 DB 구축
풍력발전단지 대표지점의 기상 DB 생성을 위해 대상 지점 인근의 자동기상관측장비(Automatic Weather Station, AWS) 4곳과 종관기상관측장비(Automated
Synoptic Observing System, ASOS) 38곳에서 2021년 4월부터 2022년 3월까지의 기상정보를 수집하였다. 이때, 유효
공간적 상관거리 분석을 위해 대표지점에서 하버사인 거리 기준 50km 내외의 데이터를 사용하였으며, 인근에 있는 지상 관측장비 지점 중 풍속 및 풍향
데이터가 누락된 지점을 제외하고 데이터베이스를 구축하였다. 표 1은 풍력단지 예측을 위해 사용된 기상 관측소의 위치, 고도 정보를 나타낸다.
기상관측자료 보간에 따른 추정치의 한계를 보완하기 위해 본 연구에서는 대표 지점을 기준으로 하버사인 거리 약 50km 내외의 재분석 데이터를 추가로
사용하였다. 그림 2는 본 연구에서 풍력발전단지의 대표 지점을 기준으로 사용한 기상관측 자료 및 재분석 자료의 위치를 나타낸 것이며, 대표지점으로부터의 하버사인 거리에
따라 다른 색상으로 표현하였다. 빨간색으로 표현된 음영 면적은 향후 크리깅 수행 시 가장 상관성이 높은 공간적 유효거리 영역을 의미한다.
표 1 풍력발전단지 예측을 위해 사용된 기상관측자료
Table 1 Meteorological stations within 50km of the representative point for wind farm
prediction
Category
|
Station
|
Latitude
(°)
|
Longitude
(°)
|
Elevation
(m)
|
ASOS
|
고산
|
33.2938
|
126.1628
|
71.39
|
ASOS
|
서귀포
|
33.2462
|
126.5653
|
51.86
|
ASOS
|
성산
|
33.3868
|
126.8802
|
20.34
|
ASOS
|
제주
|
33.5141
|
126.5297
|
20.79
|
AWS
|
가파도
|
33.1733
|
126.2683
|
4.25
|
⋮
|
⋮
|
⋮
|
⋮
|
⋮
|
AWS
|
강정
|
33.2606
|
126.4895
|
141.84
|
AWS
|
구좌
|
33.5199
|
126.8777
|
17.18
|
AWS
|
대정
|
33.241
|
126.2263
|
2.63
|
AWS
|
대흘
|
33.5008
|
126.6495
|
144.41
|
⋮
|
⋮
|
⋮
|
⋮
|
⋮
|
AWS
|
한남
|
33.3314
|
126.6785
|
244.29
|
AWS
|
한라산남벽
|
33.3524
|
126.533
|
1576.00
|
AWS
|
한라
생태숲
|
33.4302
|
126.5978
|
588.19
|
AWS
|
한림
|
33.3927
|
126.2581
|
38.79
|
그림 2. 재분석 및 기상관측 자료 위치
Fig. 2. Locations of Reanalysis and Meteorological Observation Data based on Wind
Farm Representative Point
사용된 데이터는 2021년 4월부터 2022년 3월까지의 ERA5 및 ERA5-Land 재분석 자료와 ECMWF의 고해상도 예보자료(IFS)를 기반으로
한다. ERA5는 ECMWF에서 제공하는 5세대 대기 재분석 자료로, 31km의 수평 해상도와 137개의 연직 층을 포함하고 있으며, ERA5-Land는
ERA5의 육지 성분을 9km 해상도로 상세화된 자료이다. 두 자료 모두 ECMWF의 통합 예보 시스템(IFS)을 기반으로 생성되어, 역학적 일관성을
유지하면서도 세부적인 지상 정보를 제공한다[9].
본 연구에서는 기상자료의 효율적 처리와 높은 정확도 확보를 위해 오픈 소스 플랫폼에서 제공하는 통합 재분석 자료를 활용하였다. 연구에 사용된 데이터는
ERA5(25km 해상도) 및 ERA5-Land(11km 해상도) 재분석 자료와 ECMWF IFS(9km 해상도) 고해상도 예보자료를 결합한 것으로,
원본 데이터의 직접 처리에 따른 시간과 자원 소모를 최소화하면서도 높은 정확도를 유지할 수 있다. 특히 ECMWF IFS는 9km의 높은 해상도를
사용하여 복잡한 지형의 세부적인 기상 정보를 제공하며 전 세계적으로 높은 수준의 기상예측 모델로 평가받고 있어, 단일 ERA5 및 ERA5-Land
자료를 사용하는 경우보다 풍력발전단지 출력예측에 더욱 적합할 수 있다.
본 연구에서는 ERA5 및 ERA5-Land 원본 데이터와 오픈 소스 플랫폼을 통해 제공되는 통합 자료의 정확도를 검증한 후, 풍력발전 단지 출력예측의
신뢰성을 높이기 위해 ECMWF IFS 자료를 활용한 통합 재분석 자료를 사용하였다. 해당 자료는 다양한 압력 수준에서의 풍속 및 풍향 정보를 제공하며,
특히 지상 10m 및 100m 풍속 데이터를 포함하여 풍력발전 출력예측에 유용한 기상정보를 제공한다.
2.3 크리깅(Kriging) 기법
범용적으로 사용되는 공간 내삽 방법 중 하나로, 관측하지 않은 특정지점에서의 값을 추정하기 위해 주변의 값들을 선형조합하여 예측하는 방법이다. 추정
시 실측값과의 거리뿐만 아니라 이웃한 값과의 상관성을 고려한다. 크리깅에서 공간적 상호관계는 일정한 이격 거리만큼 떨어진 자료들의 이질성을 나타내는
베리오그램을 통해 규정되는데, $n$개의 자료를 가지는 자료계열 $\left\{Z(x_{i}),\: i=1,\: ...,\: N\right\}$가
존재한다고 할 때, 해당 자료의 경험적 베리오그램(semi-variogram)은 식 (1)과 같이 이격거리 $d$만큼 떨어진 자료와의 편차 제곱의 평균으로 나타낸다.
여기서 $N(d)$는 이격 거리 $d$만큼 떨어진 자료의 개수를 나타낸다. 베리오그램 함수에서 $d$는 이방성(anisotropy)를 가정할 경우
방향과 거리 모두를 포함하는 벡터가 되며, 등방성(isotropy)를 가정할 경우 거리만을 의미한다. 또한, $\sigma^{2}$은 자료의 분산,
$Cov(d)$는 이격 거리 $d$만큼 떨어진 자료의 공분산을 의미한다. 베리오그램은 거리 $d$만큼 이격된 두 자료들간의 차이를 제곱한 것의 기대값이며,
거리가 가까운 자료들이 유사한 경향을 보이므로 베리오그램은 자료의 거리가 가까울수록 작고 멀어질수록 크다. 이러한 성질의 베리오그램은 이격 거리에
따른 자료들의 관계를 분석하여 분석 영역의 공간적 자료분포 구조를 파악한 후 미계측구간의 자료값을 추정하는데 활용된다[10].
2.4 기상관측자료의 공간보간
풍속은 고도에 따라 증가하는 특징을 가지고 있으므로 크리깅을 수행할 때 고도 차이를 고려하는 것이 중요하다. 따라서 본 연구는 풍속 관측지점의 고도
차이를 고려하여 3차원 공간에서 일반 크리깅(Universal Kriging)을 수행하였다.
일반 크리깅은 가중치 계산 시 공간적으로 변화하거나 특정한 경향을 갖는 평균을 제거하지 않고 가중치를 계산하는 기법으로 데이터의 공간적 분포 특성을
더 잘 반영할 수 있다는 장점이 있다[11]. 특히 3차원 일반 크리깅은 위도와 경도 외에 고도에 따른 풍속의 변동성을 고려하여 고도에 따른 풍속 변화를 보다 정밀하게 모델링할 수 있다. 또한,
3차원 베리오그램을 사용하여 모든 공간적 방향에서의 데이터 변동성을 종합적으로 모델링함으로써, 지형적 복잡성 및 고도 차이가 큰 지역에서도 풍속의
공간적 분포를 더욱 정확하게 추정할 수 있다.
그러나 기상 조건 및 대기 상태, 지형의 복잡성 등에 따라 고도를 고려한 풍속 보간이 항상 정확도 개선으로 이어지는 것은 아니다. 따라서 본 연구에서는
고도를 고려하지 않은 일반 크리깅도 함께 수행하여 결과를 비교 및 분석하였다. 계절별로 동일한 크리깅 방법을 적용하되 고도 고려 여부에 따라 보간
성능을 평가한 결과, 계절에 따라 크리깅 결과가 상이하게 나타났다. 여름과 가을의 경우, 고도를 반영한 3차원 공간 데이터 기반의 일반 크리깅이 풍속
데이터와 풍력 발전량 간 상관성을 높이는 데 효과적이었다(그림 3). 반면, 겨울과 봄에는 고도를 고려하지 않은 일반 크리깅이 더 높은 상관성을 보였다. 이는 겨울과 봄철 대기가 상대적으로 안정되어 고도의 영향이
적은 반면, 여름과 가을철에는 대기 혼합이 활발해져 고도에 따른 풍속 변동이 더 크게 나타났기 때문으로 판단된다. 이러한 분석을 바탕으로 본 연구에서는
계절별로 상이한 대기 특성을 반영하여, 고도 고려 여부를 다르게 적용한 크리깅 기법을 선택함으로써 예측 정확도를 개선하고자 하였다.
그림 3. 고도 보정 여부에 따른 크리깅 풍속과 풍력 발전량 간 계절별 상관성 비교
Fig. 3. Impact of Altitude Correction on the Correlation between Kriged Wind Speed
and Wind Power Generation
크리깅 시 유효 공간적 상관거리를 결정하기 위한 민감도 분석을 함께 수행하였다. 풍력발전단지 대표지점을 중심으로 하버사인 거리 기준 30km, 40km,
50km 범위 내의 기상관측 지점 데이터를 활용하여 크리깅을 수행하고, 보간된 풍속 데이터와 실제 발전량 간 상관계수를 계산하여 풍속 추정의 정확도
변화를 평가하였다. 분석 결과, 30km 내외의 기상 관측 지점을 사용할 때 가장 높은 상관성이 나타났으므로 30km 이내의 기상관측 지점 데이터를
사용하여 일반 크리깅을 수행한 결과를 예측 모형의 학습 데이터로 활용하였다.
2.5 재분석자료의 공간 보간
재분석 자료를 기반으로 공간보간한 데이터를 추가 활용하여 기상관측지점 데이터의 한계를 보완하고 신뢰도 높은 학습 데이터를 구축하고자 하였다. 기상관측지점
데이터는 높은 시간 해상도 및 정확도를 가지나 공간적 분포가 제한적일 수 있어 크리깅 시 보간 결과의 정확도가 저하될 수 있다. 또한, 관측지점의
결측치 및 이상치는 크리깅 과정에서 데이터 연속성을 저해하여 예측 신뢰도를 낮출 수 있다. 반면, 재분석 자료는 균일한 격자 형태로 결측치나 이상치
없이 제공되므로 광범위한 공간적 커버리지를 가진 일관된 데이터셋을 제공하여 기상관측지점 데이터의 한계를 보완할 수 있다.
본 연구에 사용된 재분석 자료는 ERA5 및 ERA5-Land 재분석 자료와 ECMWF IFS 예보자료를 통합한 데이터로, 풍속 데이터로는 지상 10m
및 100m 고도의 풍속 정보가 제공된다. 풍속 데이터를 풍력발전기 허브 높이에 맞게 추정하기 위해 멱법칙(power law)을 사용하여 고도를 보정하였다.
식 (2)에서 $V_{z}$, $V_{h}$는 지상에서부터의 높이 $z$ 및 $h$에서의 풍속이며, $\alpha$는 멱지수를 나타낸다. $\alpha$는
지표면의 거칠기 정도에 따라 결정되며 지형의 특성에 따라 달라질 수 있다[12]. 그러나 본 연구에서는 지표면 거칠기에 대한 세부 정보가 부족하여, 표준적으로 사용되는 $\alpha =1/7$의 값을 일관적으로 적용하였다.
고도 보정을 통해 추정된 데이터를 바탕으로 풍력발전단지 대표지점에 맞게 일반 크리깅을 수행한 결과, 공간 보간된 재분석 값과 풍력발전량 간 계절별
상관관계는 그림 4와 같다. 기상관측자료와 비교해보면, 봄과 가을철에는 재분석 자료로부터 공간 보간된 추정값이 기상관측자료 추정값보다 풍력발전량과의 상관성이 더 높게
나타났다. 해당 계절에는 대규모 기상 패턴의 영향이 상대적으로 크므로 재분석 자료가 이러한 대기 흐름을 더 잘 반영했을 가능성이 있다. 반면, 여름철에는
공간보간된 기상관측자료 추정값이 재분석자료보다 상대적으로 높은 상관성을 보였다. 이는 여름철의 대기 불안정성과 국지적인 기상 변화(예: 강한 대류
현상 등)로 인해 국지적 특성이 강하게 나타나는 상황에서 인근 관측지점에서 취득한 기상정보가 더 유의미하게 작용했을 가능성이 있음을 시사한다.
그림 4. 공간보간된 기상관측 및 재분석 자료와 풍력 발전량 간 계절별 상관관계 분석
Fig. 4. Seasonal Correlation Analysis between Wind Power Generation and Meteorological
Observation/Reanalysis Data using Universial Kriging
3. XGBoost 기반 풍력발전 출력예측 모형 개발 및 제주 풍력발전단지 대상 사례검증
3.1 XGBoost(eXtreme Gradient Boosting)
XGBoost는 그레디언트 부스팅 기법을 활용한 알고리즘으로, 오차(잔차)를 줄이기 위해 이전 모델의 결과를 개선하는 방식으로 학습한다. XGBoost는
단순히 잔차에만 의존하는 것이 아니라, Similarity Score 및 Gain 등의 추가적인 요소를 시사한다.
트리 기반 알고리즘에서 가장 중요한 부분은 최적의 분할 지점을 찾는 것이므로, XGBoost는 Similarity Score를 활용하여 Gain을
찾는다. 다양한 임계값을 시험하며 가장 높은 Gain을 제공하는 분할 지점을 찾는 탐욕 알고리즘(Greedy Algorithm)으로, 모든 가능한
분할 지점을 살펴봄으로써 최적의 분할 지점을 찾는다. 하지만 이는 많은 시간이 소요되므로, XGBoost는 데이터의 양자화된 지점(Quatiles)을
기반으로 분할 후보를 선정한다. 이때, Similarity Score는 잔차 제곱의 평균으로 계산되며, 식 (3)과 같다. 분모에 있는 $\lambda$는 규제 파라미터이며, 파라미터의 값이 크면 클수록 모델의 복잡도가 줄어들어 과적합을 방지할 수 있다. 또한,
트리에서 각 분할 지점에서의 Gain은 식 (4)와 같이 해당 지점의 왼쪽 및 오른쪽 노드의 Similarity Score 합에서 기본 노드의 Similarity Score를 뺀 값으로 정의된다.
이 과정에서 $\gamma$라는 추가적인 규제 파라미터를 설정할 수 있으며, 이 파라미터는 Gain에서 빼는 값으로 사용된다. 만약 Gain에서 $\gamma$값을
뺀 결과가 음수가 되면, 해당 분할 지점에서 가지치기(분할 중단)가 이루어지게 되어 모델의 복잡성을 조절하고 과적합을 방지할 수 있다.
식 (5)은 XGBoost에서 트리의 분할 효율성을 평가하는데 사용되는 지표로, 트리가 데이터를 얼마나 잘 분리하고 있는지를 나타내며 XGBoost는 이 값을
최소화 하는 방향으로 트리를 구축한다. 이 과정은 손실 함수($l$)와 함께 규제항($ohm$)을 감소시키는 것을 목표로 하여, 모델의 과적합을 방지하고
성능을 향상시키는데 중요한 역할을 한다. 손실함수는 전체 데이터 포인트에 대한 예측값과 실제값의 차이를 모두 합산하여 계산되며, 모델이 실제 데이터에
얼마나 잘 맞는지를 평가하는 데 중요한 역할을 한다. 또한, 규제항은 트리 모델의 복잡성을 조절한다. 트리가 너무 커지는 것을 방지하고, 결과적으로
모델의 과적합을 방지하는 데 중요한 기능을 한다. 이때, $T$는 트리의 말단 노드를 의미하며, $\gamma$는 가지치기를 통해 모델의 복잡도를
줄이는 역할을 한다. 또한, $\lambda$는 규제 파라미터로 작용하여 트리의 과도한 성장을 억제한다.
XGBoost는 희소 데이터 상황에서도 우수한 성능을 발휘한다. 이는 첫 번째 양자화 지점에서 선정된 후보 값을 루트 노드의 예측값으로 사용함으로써,
결측치가 있는 데이터의 잔차를 효과적으로 계산할 수 있기 때문이다. XGBoost는 데이터를 결측치가 있는 부분과 없는 부분으로 구분하여 처리한다.
먼저 결측치가 없는 데이터에 대한 잔차를 계산하고, 이를 바탕으로 결측치가 있는 데이터 부분의 잔차를 왼쪽 노드와 오른쪽 노드에 각각 추가하여 Gain을
계산한다. 이후 두 노드의 Gain 값을 비교하여 더 높은 Gain 값을 가진 분할 지점을 선택한다[13].
3.2 XGBoost 기반 풍력발전 출력예측 모형
본 연구에서는 XGBoost 기계학습 모델을 활용하여 풍력발전 출력예측 모형을 개발하였다. 그림 5는 XGBoost 기반 풍력발전 출력예측 시스템 개요를 보여준다. 본 연구에서는 풍력발전단지 대표지점에 대해 구축된 기상 DB를 바탕으로 2021년
4월부터 2022년 3월까지의 데이터를 사용하여 하루 전 발전량 예측을 수행하였다. 국내 전력시장 제도 개편 방향을 고려하여, 하루 전 입찰 시장의
예측 시간 프레임에 맞춰 전일 오전 10시까지의 기상 데이터를 바탕으로 24구간에 대한 1시간 간격 풍력발전량 예측을 수행하였다. 예측 모형 성능
검증을 위해 기상청의 단기예보 데이터를 활용하였으며, 매월 마지막 1주를 검증 데이터로 설정하여 월별 예측 오차를 확인하였다.
그림 5. XGBoost 기반 풍력발전 출력예측 시스템 개요
Fig. 5. Development of XGBoost-based Wind Power Generation Forecasting System
3.2.1 학습 데이터
모델 학습을 위한 풍력발전단지 대표지점의 기상 DB를 구축하기 위해 대표 지점으로부터 하버사인 거리 30km 내외의 지점에서 취득된 인근 4개의 AWS
및 38개의 ASOS 지점에서 수집된 기상 데이터를 활용하여 일반 크리깅을 수행하였으며, 보간된 풍속을 기반으로 학습 데이터를 구축하였다. 또한,
기상관측자료의 한계를 보완하기 위해 재분석 자료를 활용하고, 표준적인 멱지수를 사용한 고도 보정 및 일반 크리깅을 통한 공간 보간을 수행하였다. 크리깅된
기상 관측자료 및 재분석 자료는 XGBoost 모델의 학습 데이터로 사용되었으며, 각각의 계절별로 학습 데이터의 성능을 평가하여 앙상블 기법에 따른
발전단지 대표지점에 최적화된 학습 데이터가 구축되었다. 모델은 앙상블 기법에 따른 가중 평균 풍속, 공간보간된 기상관측풍속 및 재분석 풍속과 평균
풍력 발전량간의 관계를 효과적으로 학습하였다.
3.2.2 검증 데이터
예측 모형의 성능을 검증하기 위하여 테스트 과정에서는 기상청의 단기예보 자료를 활용하여, 풍력발전단지 대표 지점과 하버사인 거리가 가까운 격자 지점
4곳의 기상정보를 사용하였다. 예측 포인트의 위치가 동네 예보의 격자 지점과 일치하지 않으므로 격자 지점 4곳에 대한 일반 크리깅을 수행하여 기상
예보값을 추정하였다. 이후 예보 오차를 최소화하여 정확도를 높이고 풍력발전단지 대표 관측지점에 최적화된 예보를 생산하기 위해 추정된 예보값에 기계학습
기반 보정을 수행하였다. 보정 모형은 기상관측자료 및 재분석 자료의 앙상블 풍속값과 예보값 간 관계를 학습하여, 예보값에 대한 보정을 출력하였으며
이에 대한 보정 오차는 표 2와 같다.
표 2 XGBoost 모델 기반 풍속 예보 보정 오차
Table 2 Wind Speed Forecast Error Correction Using XGBoost
Date
|
Error Metric
|
Before Correction
|
After Correction
|
2021-04
|
MAE(m/s)
|
3.66
|
2.12
|
|
RMSE(m/s)
|
4.13
|
2.54
|
2021-05
|
MAE(m/s)
|
3.54
|
1.80
|
|
RMSE(m/s)
|
4.15
|
2.06
|
2021-06
|
MAE(m/s)
|
2.59
|
1.23
|
|
RMSE(m/s)
|
2.86
|
1.44
|
2021-07
|
MAE(m/s)
|
1.06
|
1.66
|
|
RMSE(m/s)
|
1.26
|
2.30
|
2021-08
|
MAE(m/s)
|
1.16
|
1.44
|
|
RMSE(m/s)
|
1.56
|
1.66
|
2021-09
|
MAE(m/s)
|
0.85
|
0.61
|
|
RMSE(m/s)
|
1.06
|
0.74
|
2021-10
|
MAE(m/s)
|
1.01
|
0.83
|
|
RMSE(m/s)
|
1.24
|
1.03
|
2021-11
|
MAE(m/s)
|
0.89
|
0.93
|
|
RMSE(m/s)
|
1.19
|
1.25
|
2021-12
|
MAE(m/s)
|
2.59
|
2.18
|
|
RMSE(m/s)
|
2.96
|
2.59
|
2022-01
|
MAE(m/s)
|
1.77
|
1.10
|
|
RMSE(m/s)
|
1.99
|
1.32
|
2022-02
|
MAE(m/s)
|
1.83
|
1.09
|
|
RMSE(m/s)
|
2.12
|
1.29
|
2022-03
|
MAE(m/s)
|
2.00
|
1.54
|
|
RMSE(m/s)
|
2.45
|
1.94
|
3.3 출력예측 결과
예측 모형을 바탕으로 테스트 구간에 대한 예측을 수행한 결과는 표 3과 같다. 예측 오차는 NMAE, MAE, RMSE의 3가지 오차지표에 기반하여 작성하였다. 표 3에서는 학습 시 공간 보간 및 고도 보정을 수행한 경우(Adjusted)와, 이를 수행하지 않고 인근 관측소 1곳의 풍속 데이터를 사용하여 발전량을
예측한 결과(Unadjusted)를 비교하였다. 이때, 예보 데이터는 풍력발전단지 대표지점 인근 4곳의 공간 보간 및 고도 보정된 데이터를 동일하게
사용하였으며, 인근 관측소 1곳의 관측 데이터를 바탕으로 동일한 방식으로 기계학습 기반 예보 보정을 적용하였다 인근 관측소 1곳의 풍속 데이터를 사용한
경우에 비해 낮은 MAE, NMAE, RMSE 값을 나타내는 것으로 보아, 본 연구에서 제안된 풍력발전단지 출력예측 시스템이 효과적임을 확인할 수
있다.
표 3 XGBoost 예측 모형 기반 풍력발전 출력예측 결과
Table 3 Wind Power Output Prediction Results based on XGBoost Model
Date
|
Case
|
MAE
|
NMAE
|
RMSE
|
2021-04
|
Unadjusted
|
9.59
|
15.33
|
10.55
|
|
Adjusted
|
8.31
|
13.85
|
9.40
|
2021-05
|
Unadjusted
|
9.52
|
15.20
|
10.62
|
|
Adjusted
|
8.33
|
13.88
|
9.50
|
2021-06
|
Unadjusted
|
4.94
|
7.58
|
5.99
|
|
Adjusted
|
3.33
|
5.55
|
4.28
|
2021-07
|
Unadjusted
|
8.46
|
13.44
|
9.35
|
|
Adjusted
|
7.17
|
11.95
|
8.03
|
2021-08
|
Unadjusted
|
11.34
|
18.86
|
12.73
|
|
Adjusted
|
11.00
|
18.33
|
12.40
|
2021-09
|
Unadjusted
|
5.73
|
8.89
|
6.55
|
|
Adjusted
|
4.59
|
7.65
|
5.44
|
2021-10
|
Unadjusted
|
6.23
|
9.71
|
7.37
|
|
Adjusted
|
5.03
|
8.38
|
6.27
|
2021-11
|
Unadjusted
|
9.52
|
15.86
|
10.69
|
|
Adjusted
|
10.22
|
17.03
|
11.34
|
2021-12
|
Unadjusted
|
15.43
|
25.72
|
16.83
|
|
Adjusted
|
10.95
|
18.25
|
9.43
|
2022-01
|
Unadjusted
|
7.37
|
12.29
|
9.10
|
|
Adjusted
|
5.83
|
9.72
|
7.06
|
2022-02
|
Unadjusted
|
10.47
|
17.45
|
12.47
|
|
Adjusted
|
7.17
|
11.95
|
9.34
|
2022-03
|
Unadjusted
|
10.36
|
17.27
|
12.63
|
|
Adjusted
|
9.03
|
15.05
|
11.03
|
표 4는 표 3에서 제시된 월별 예측 오차 중 2021년 9월에 대한 일별 오차를 나타낸 것이다.
표 4 XGBoost 기반 풍력발전 출력예측 모형의 일별 예측 오차
Table 4 Daily Forecast Error of Wind Power Output based XGBoost Prediction Model
Error Metrics
|
09/
24
|
09/
25
|
09/
26
|
09/
27
|
09/
28
|
09/
29
|
09/
30
|
Avg
|
NMAE
(%)
|
8.83
|
11.50
|
13.53
|
6.96
|
5.10
|
3.28
|
4.38
|
7.65
|
MAE
(MW)
|
5.30
|
6.90
|
8.12
|
4.18
|
3.04
|
1.97
|
2.63
|
4.59
|
RMSE
(%)
|
6.31
|
8,22
|
9.46
|
4.86
|
3.70
|
2.35
|
3.16
|
5.44
|
4. 결 론
본 연구는 제주도 A 풍력발전단지의 발전량 예측을 위해 XGBoost와 공간보간 기법(크리깅)을 결합한 예측 모형을 개발하고 검증하였다. 발전단지
주변의 기상 관측 데이터와 재분석 자료를 활용하여 대표 지점에서의 풍속 데이터를 추정하였으며, 재분석 자료를 추가적으로 사용하여 관측자료의 한계를
보완하였다. 계절에 따른 고도 보정 및 기상자료 간 가중치에 차이를 두어 학습 데이터를 구축하고, 예보 데이터에 기계학습 기반의 보정을 수행하여 예측
모형의 성능을 개선하고자 하였다. 개발된 예측 모형은 발전단지의 총 발전량을 효율적으로 예측할 수 있으며, 이를 통해 발전단지의 출력 변동성을 예측하여
계통 운영의 안정성을 확보할 수 있을 것으로 기대된다.
본 연구에서 사용된 기상정보 및 풍력발전 데이터는 제한적으로 확보된 자료이므로, 정확한 기상정보 및 발전량을 예측하는 데 있어 한계가 존재한다. 향후
연구에서는 다양한 기상 자료를 취득 및 분석하고, 데이터 품질을 보완하여 예측 성능을 더욱 개선하고자 한다. 향후에는 국지예보모델(LDAPS)을 활용하여
공간 및 시간 내삽 기법을 통해 고해상도 기상 예보 정보를 예측 모델에 반영함으로써 예측 성능을 고도화하고자 한다. 또한 여러 예보 모델을 조합하여
예보 정확도를 높일 수 있는 최적화 방안을 모색하고자 한다. 또한, 재분석 자료를 계절 및 모델별로 분석하고, 재분석 자료와 다양한 기상 예보 모델
간 최적 조합을 탐색하여 예측 성능을 개선하고자 한다.
Acknowledgements
이 논문은 2018년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(2018R1A6A1A08025520 ) & 본 연구는
한국전력공사 2024년도 착수 사외공모 기초연구(No. R24XO01-1)의 지원을 받아 수행한 연구 과제입니다.
References
International Energy Agency (IEA), Net Zero by 2050: A Roadmap for the Global Energy
Sector, IEA Publications, pp. 117~118, 2021.

J. Lee and F. Zhao, Global Wind Report 2024, Global Wind Energy Council (GWEC), pp.
18, 2024.

Ministry of Trade, Industry and Energy (MOTIE), The 10th Basic Plan of Long-Term Electricity
Supply and Demand (2022~2036), pp. 51~88, 2023.

N. Mlilo, J. Brown and T. Ahfock, “Impact of intermittent renewable energy generation
penetration on the power system networks - A review,” Technology and Economics of
Smart Grids and Sustainable Energy, vol. 6, no. 1, pp. 25, 2021. DOI:10.1007/s40866-021-00123-w

Y. Lee, H. Kim, D. Lee, C. Lee and D. Lee, “Validation of Forecasting Performance
of Two-Stage Probabilistic Solar Irradiation and Solar Power Forecasting Algorithm
using XGBoost,” The transactions of The Korean Institute of Electrical Engineers,
vol. 68, no. 12, pp. 1704-1710, 2019. DOI:10.5370/KIEE.2019.68.12.1704

S. H. Choi and J. Hur, “Optimized-XGBoost Learner Based Bagging Model for Photovoltaic
Power Forecasting,” The transactions of The Korean Institute of Electrical Engineers,
vol. 69, no. 7, pp. 978-984, 2020. DOI:10.5370/KIEE.2020.69.7.978

A. Alkesaiberi, F. Harrou and Y. Sun, “Efficient Wind Power Prediction Using Machine
Learning Methods: A Comparative Study,” Energies, vol. 15, no. 7, pp. 2327, 2022.
DOI:10.5370/KIEE.2020.69.7.978

A. Ahmadi, M. Nabipour, B. Mohammadi-Ivatloo, A. M. Amani, S. Rho and M. J. Piran,
“Long-Term Wind Power Forecasting Using Tree-Based Learning Algorithms,” IEEE Access,
vol. 8, pp. 151511-151522, 2020. DOI:10.1109/ACCESS.2020.3017442

J. Muñoz-Sabater, E. Dutra, A. Agustí-Panareda, C. Albergel, G. Arduini, G. Balsamo,
S. Boussetta, M. Choulga, S. Harrigan, H. Hersbach, B. Martens, D. G. Miralles, M.
Piles, N. J. Rodríguez-Fernández, E. Zsoter, C. Buontempo and J. -N. Thépaut, “ERA5-Land:
A State-of-the-Art Global Reanalysis Dataset for Land Applications,” Earth System
Science Data, vol. 13, no. 9, pp. 4349–4383, 2021. DOI:10.5194/essd-13-4349-2021

S. H. Hwang and D. H. Ham, “Evaluation of Spatial Downscaling Methods for Enhancement
of Spatial Precipitation Estimation,” Journal of the Korean Society of Hazard Mitigation,
vol. 13, no. 4, pp. 149-163, 2013. DOI:10.9798/KOSHAM.2013.13.4.149

Y. Choy, J. Baek, D. H. Jeon, S. H. Park, S. Choi, Y. Kim and J. Hur, “Development
of Prediction Model for Renewable Energy Environmental Variables Based on Kriging
Techniques,” KEPCO Journal on Electric Power and Energy, vol. 5, no. 3, pp. 223-228,
2019. DOI:10.18770/KEPCO.2019.05.03.223.

J. Oh, D. H. Ham, Y. Lee and G. Kim, “Short-term Load Forecasting Using XGBoost and
the Analysis of Hyperparameters,” The transactions of The Korean Institute of Electrical
Engineers, vol. 68, no. 9, pp. 1073-1078, 2019. DOI:10.5370/KIEE.2019.68.9.1073

S. K. Lee and S. J. Yoo, “Predicting Real Estate Fractional Investment Prices with
the XGBOOST Model : Centered on the Kasa TE Logistics Center,” GRI REVIEW, vol. 26,
no. 1, pp.1-22, 2024. DOI:10.23286/gri.2024.26.1.001

저자소개
She received the B.S. degree in Climate and Energy Systems Engineering from Ewha
Womans University, South Korea, 2024. She is currently a graduate student at
the Department of Climate and Energy Systems Engineering, Ewha Womans University.
Her research interests include short-term wind power forecasting and cascading
failure modeling.
He received his B.S. and M.S. degrees in Electrical Engineering from Korea
University, Seoul, Korea, in 1997 and 1999, respectively, and his Ph.D. degree
in Electrical and Computer Engineering from the University of Texas at Austin in
2012. He is currently an Professor with the Department of Climate and Energy
Systems Engineering at Ewha Womans University. His research interests are in
all areas related to integrating high-level renewable energy into electric power
systems.