박성호
(SungHo Park)
1iD
김혜진
(HyeJin Kim)
1iD
문주영
(JooYoung Moon)
1iD
성시민
(Simin Sung)
1iD
김재인
(JaeIn Kim)
†iD
-
(KEPCO Research Institute, Data Science Lab, Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Geo-spatial Grid System, Grid-connected capacity forecasting, Renewable Energy Market Potential
1. 서 론
대한민국 정부는 '21년 국가의무감축량(NDC, Nationally Determined Contributions)을 추가 상향 조정하여 신재생에너지
발전비중이 증가하고(21%→30%), '30년까지 태양광 발전 설비용량은 68GW까지 증가될 전망이며 이를 수용하는데 있어 재생에너지(이하 재생e)
발전소와 전력설비 간 건설기간 차이(3~5년)에 의한 접속지연 장기화는 불가피한 이슈사항이 될 것으로 예상된다. 또한 재생e 발전에 대한 수요가 가속화됨에
따라 송·배전 전력시스템 분야는 새로운 용량을 전력망에 연결하는 과정에서 재생e 발전소 입지는 어디가 적합한지, 미래의 재생e 전력계통 연계량은 어느
정도가 될지, 신규 변전소의 추가 건립 시기 등을 예측하여 설비계획을 수립하는 등의 선제적 대응이 필요하다.
본 연구에서는 '21년 산업자원부의 전력계통 혁신방안의 ‘先 전력망, 後 발전'의 패러다임 전환을 가속화하기 위해 데이터·AI 기반의 재생e 공간격자체계
시스템 및 연계량 예측 모델 개발을 통하여 전력설비 보강의 최적 시기·위치·규모를 검토하고자 한다. 구축한 재생e 공간격자체계는 그림 1과 같은 순서로 개발되었으며, 연구개발에 사용된 주요 원본데이터는 재생e 관련 공공데이터, 한국전력공사의 전력설비데이터, 한국에너지기술연구원의 시장잠재량데이터이다.
재생e 공간격자체계 시스템과 연계량 예측 알고리즘은 (1) 태양광 발전소 건설에 영향을 미치는 공공 및 전력데이터들을 단일 표준 격자로 표준화하여
통합 및 시각화 제공, (2) 미래에 건설될 재생e 발전소의 위치와 용량을 예측 목적을 가지고 있다.
그림. 1. 연구개발 순서도
Fig. 1. Research and development flowchart
이러한 시스템은 정부의 재생e 관련 정책 수립과 전력 회사의 설비보강 및 경제적 의사 결정 시, 데이터 기반 종합기능(재생e 발전소 입지 점수 등)을
제시함으로써 객관적이고 정량적인 방법론을 제공할 수 있을 것으로 기대한다.
본 논문의 구성은 다음과 같다. 본문의 2장에서 기초 DB로 사용될 재생e 공간격자체계의 구성내용을 설명하였으며, 3장에서는 SARIMA(Seasonal
Auto-Regressive Integrated Moving Average), LSTM(Long Short-Term Memory), CNN(Convolution
Neural Network)을 시퀀스 모델링에 적합하도록 유연성을 증가시킨 TCN(Temporal Convolutional Network) 모델을
활용한 전국·지역별 재생e 연계량 예측 알고리즘 개발 내용 및 검증내용에 대해서 서술한다. 또한 개발된 연계량 예측 모델을 이용한 신규 변전소의 필요
시점을 파악하는 활용방안 및 시각화 내용을 4장에서 서술한다.
2. 재생e 공간격자체계 구축
여러 가지 형태의 데이터 중 단순 텍스트 기반의 자료는 융·복합적인 분석이 어려워 단편적인 사실에 그칠 수가 있고 지역간 인구, 토지 이용, 주거
분포 등의 현황 및 변화 양상을 확인하기에 어려움이 있다. 반면 지리 공간 데이터(geo-spatial data)와 접목하여 분석하고 지도에 시각화하면
국토 이용 변화 양상의 직관적인 분석이 가능하고 의사결정이 필요한 업무에 효율적으로 활용될 수 있다. 따라서 본 연구에서는 재생e와 연관된 공공 및
전력데이터, 정형 데이터(structured data) 및 비정형데이터(unstructured data) 등 다양한 형태의 자료를 GIS 기반의 “재생e
공간격자체계”로 통합하여 정보 제공 및 활용도를 증대하였다. 또한 최근 다양한 분야에서 빅데이터 및 인공지능 그리고 지리 정보 시스템(GIS, Geographic
Information System)의 결합을 통한 연구가 활발히 이루어지고 있다. GIS를 활용한 연구로는 우버(Uber)와 같은 승차 공유 서비스를
위한 단기 승객 수요 예측(1), 지역별 COVID-19 감염 위험성 예측(2), 기온 예측(3)등이 있다. 이 연구들은 GIS 데이터를 바탕으로 LSTM(1,3). Gaussian Process Regression(2), CNN(1,3) 등의 딥러닝(deep learning) 모델들을 이용하여 목적에 맞는 예측 알고리즘을 생성하고 활용하였다. 이처럼 지리 공간 데이터는 공간 데이터(spatial
data)와 속성 데이터(attribute data)로 구성되어있다는 점에서 다른 정보 시스템(Information System)과 구분할 수 있으며,
여러 딥러닝 알고리즘과의 결합을 통하여 다양한 분야에 활용될 수 있다.
2.1 표준 격자 체계
기존 행정 경계 단위의 통계 데이터는 지역 간의 상이한 경계로 데이터의 융합에 어려움이 있고, 실생활 패턴(행정 경계를 넘어서는 생활 활동) 분석의
어려움과 계속적인 행정 경계의 변화로 시계열 분석의 어려움이 있었다. 반면 격자 단위의 통계 데이터는 소지역 단위의 분석이 가능하고, 통일된 공간
단위의 크기 및 형태로 데이터의 융합 및 비교 분석이 용이하여 행정 경계에 구속받지 않고 시계열 분석이 가능하다는 장점이 있다. 표 1은 국토지리 정보원에서 서비스하는 통계 구역 단위를 나타내며, 킬로미터가 커버하는 행정 경계의 기준을 알 수 있다. 행정안전부는 2014년 그림 2와 같이 피라미드 구조의 격자 체계를 도입했으며 100km, 10km, 1km, 100m, 10m 단위의 격자를 생산하였다. 국토지리 정보원에서는
조금 더 세밀한 정보 반영을 위해 2017년 그림 3과 같이 기존 격자를 기반으로 500m, 250m, 50m 단위의 신규 격자를 도입한다. 본 연구에서는 행정경계 상 시·군·구의 통계를 보는데 적합한
1km 격자와 리의 통계를 보는데 적합한 100m 단위의 격자를 활용하여 재생e 공간격자체계를 구성하였다.
표 1. 국토정보 맵의 서비스 통계 구역 단위
Table 1. Units of geo-spatial grid by administrative boundary
격자
|
100km
|
10km
|
1km
|
500m
|
250m
|
100m
|
법정경계
|
시도
|
시군구
|
읍면동
|
리
|
그림. 2. 피라미드 구조의 격자 체계 (국토교통부 국토지리정보원)
Fig. 2. Pyramidal geo-spatial grid system
그림. 3. 신규 격자 도입 방안 (국토교통부 국토지리정보원)
Fig. 3. Method of new grid generation
2.2 GIS 격자 통계 서비스
국내 지리 정보를 기반으로 격자 통계를 서비스하는 곳은 통계청과 국토지리 정보원, 두 기관이 있다. 첫째로 통계청은 행정 경계를 기준으로 다양한 주제에
맞게 통계 정보를 지도상에 시각화하는 SGIS 플러스(Statistical Geographic Information Service Plus)를 운영해왔다.
최근 표준 격자의 필요성이 확대되면서 2022년 6월부터 지역별 인구 및 사업체 등의 분포와 변화를 비교 분석하는데 유용한 격자 통계 데이터를 개방하기
시작했다. 둘째로 국토지리 정보원은 지도를 기반으로 인구, 건물, 토지 등 180개의 국토 지표를 조사 관리하고 정책 자료로 활용할 수 있도록 국토정보
플랫폼을 운영하고 있다. 국토정보 맵은 다양한 지도 자료와 시각화 서비스를 제공하는 쉽고 편리한 대국민 개방 서비스이다. 그림 4와 같이 지도를 기반으로 수치지도, 항공사진, 정사영상, 국가기준점, 통계 정보 등을 검색하거나 온라인 다운로드 서비스를 제공한다. 본 연구에 사용된
원천 표준격자 또한 국토정보 플랫폼을 통하여 제공받아 활용하였다.
그림. 4. 국토교통부 국토지리정보원 국토정보지도 플랫폼 예시
Fig. 4. Grid unit population statistics example
2.3 재생e 공간격자체계 구성 데이터
본 연구에서는 행정안전부에서 시행한 국가지점번호 제도를 통해 생성된 전국의 1km 및 100m 해상도의 '표준 격자'를 활용하여 전국/지역별로 산개해
있는 (공시)지가, 도로인접성정보, 표고(고도지형), 일사량(수평면/경사면), 토지환경정보, 경사도, 경사향과 같은 재생e 발전소 입지와 연관이 있는
공공데이터, 시장잠재량 및 한국전력공사의 계통 현황 정보 등을 통합한 "재생e 공간격자체계를" 완성하는 것을 목표로 한다. 재생e 공간격자체계는 표 2와 같이 공공데이터 및 한국전력공사의 데이터를 포함하며, 공간격자체계 구축을 위해 그림 5와 같은 전국 및 지역별(15개의 시·도)로 구분된 표준 격자를 구성하고, 각각 출처가 다른 데이터의 좌표계 일치화 작업 후 그림 6과 같이 (변환 가능 데이터의 경우) 래스터(raster) 파일 생성 및 표준 격자와 비교, 대조, 연산 작업을 통해 격자(grid)마다 데이터를
기록함으로써 공간격자를 생성하였다. 그림 7은 광주광역시를 대상으로 한 100m 공간격자 시각화 예시이다.
“재생e 공간격자체계”는 행정안전부의 국가지점번호 격자 체계를 사용하여 기존 격자 통계자료와 이질감 없이 활용이 가능하며, 전력데이터에 특화된 공간격자
체계를 구축함으로써 공공데이터와 접목하여 다양한 분석이 가능하고, 신규 변전소의 최적 입지 선정, 계통 계획 등과 같은 전력 정책 의사 결정 과정에
도움을 줄 수 있다. 또한 격자체계로의 데이터 전처리 및 병합을 통하여 각 데이터들은 모두 행렬(matrix)형태로 연산 가능한 상태로 저장되어,
향후 다양한 목적에 맞게 활용될 수 있다.
표 2. 재생e 공간격자체계 구성 데이터
Table 2. Renewable energy geo-spatial grid data list
항목
|
출처
|
최종저장형식
|
1km, 100m 표준격자
|
공공데이터포털
|
Vector(*SHP)
|
지가(개별 및 공시)
|
Raster(TIF)
Vector(SHP)
|
토지정보
(도로인접성, 용도)
|
경사도, 경사향
|
공공데이터포털
|
Raster(TIF)
Vector(SHP)
|
일사량자원지도
|
기상청
|
시장잠재량
|
한국에너지기술연구원
|
Vector(SHP)
|
재생e기설치용량
|
한국전력공사
|
잔여잠재량
|
-
|
전력설비정보
(송전선로, 배전선로, 변전소)
|
한국전력공사
|
*SHP: ESRI shapefile format
※ 시장잠재량: 정책 이행 및 영향, 투자자 반응, 다른 에너지원 대비 경쟁률, 투자대비회수율 등 상기 모든 요소가 복합된 시장에 보급될 수 있는
에너지 총량
※ 잔여잠재량: 시장잠재량과 재생e기설치용량(한국전력공사 계통에 연계 신청된 재생e 발전소의 용량)과의 차이, 미래의 설치 가능 재생e 발전소 잠재량
그림. 5. 1km & 100m 해상도 표준격자
Fig. 5. 1km & 100m resolution standard grid
그림. 6. 일사량(수평면) 공간격자 생성 과정 예시
Fig. 6. Process of geo-spatial grid generation example
그림. 7. 재생e 공간격자체계: 광주시 100m 해상도 시각화 예시
Fig. 7. Spatial grid system for renewable energy example
3. 재생e 연계량 예측 알고리즘 개발
재생e 연계량 예측 알고리즘은 그림 8과 같이 용량 한계점 및 시장잠재량 데이터를 활용하여 전력망의 재생e 연계량 포화
그림. 8. 변전소 용량 한계점을 이용한 망 포화 시기 예측
Fig. 8. Forecasting power-grid saturation point using by substation's capacity threshold
(수렴) 시점을 예측하고, 시장잠재량에 근거한 설비 포화시기를 예측하여 신규변전소의 필요 시점 정보를 제공할 수 있다. 이를 통해 2050 탄소중립
정부정책에 따른 재생e 발전 비중을 늘리기 위한 설비계획 수립과 이를 통한 선제적 전력망 인프라 구축에 활용가능하다. 본 연구에서는 신규 변전소의
평균 건설기간이 5~6년임을 고려하여 단기(24개월, 2년), 중기(72개월, 6년)에 대한 예측 모델을 구성하였다.
3.1 데이터 수집 및 전처리
연계량 예측 모델 제작을 위해 본 연구에서는 1MW 이하 소규모 태양광 발전소 정보(2004년 12월부터 2022년 2월까지 약 75만 건의 접수현황데이터)를
수집하였다. 해당 데이터에서는 ‘발전소 연계 용량', ‘접수일자', ‘상업운전 개시일', ‘발전원' 등 총 22개의 컬럼으로 구성되어있다. 또한 재생e
공간격자체계로 구성되어 전국·지역 그리고 계통추적기능을 통하여 최대 변전소별로 분류 가능하여 전국(1개), 지역(15개) 총 16개의 연계량 예측
알고리즘을 개발 할 수 있도록 데이터를 구축하였다. 기상데이터는 공공 데이터포털 API를 활용하여 시간, 평균기온, 강수량, 일사량 등 총 62개
종류의 데이터를 수집하였다(표 3). 또한 연계량 예측 수행을 위하여 월 단위 데이터로 만들기 위한 그룹화, 결측치에 대한 선형보간(Linear Interpolation) 적용 등
시계열 기본전처리를 수행하였다.
표 3. 연계량 예측모델 사용 데이터
Table 3. List of data used in capacity forecasting algorithms
종류
|
출처
|
상세
|
재생e 발전소 정보
(75만 건, 22 컬럼)
|
한국전력공사
|
고객별 재생e 접수 현황
변전소별 재생e 접속 현황
|
변전소 용량 한계점
(변전소별 14 컬럼)
|
*재생e 공간격자체계
|
선로 계통추적을 통한 영역별 연계용량 정보
|
잔여(시장)잠재량
(격자별 2 컬럼)
|
재생e 공간격자체계
|
영역별 재생e 잔여 잠재량의 합산 정보
|
기상정보
(지역별 62 컬럼)
|
기상청
|
기온, 강수량, 일사량 등
|
*본 논문의 본문 2장의 결과물
|
3.2 예측모델
예측모델은 SARIMA, MLP, LSTM, TCN 4가지 모델을 생성하였으며, 해당 모델들은 후술되는 단기(24개월), 중기(72개월) 모델 목적에
맞게 모델 검증, 선택 및 보정 하였다. 실제 활용에서 단기예측의 경우, 지역별 성능평가 결과를 활용하여 오차가 작은 모델을 선택하여 적용하도록 구성하였다.
이는 데이터의 패턴에 따라 다양한 예측모델의 성능이 차이를 가질 수 있기 때문이다. 특히 본 연구에서 다루는 재생e 연계량은 정책적 측면(4), 국민 및 지역 주민의 수용성 측면(5,6)의 주관적 특성들로 인해 현재까지의 수치적 연계 추세를 통해 단기 또는 중기에 대한 추세를 예측하기 어렵다. 따라서 제안하는 단기예측모델은 현시점에서
이전 24개월 데이터를 통해 단기예측을 수행 및 평가하고. 현시점 이후의 지역별 단기예측모델을 선택하고 반영한다. 중기추세의 경우, 이전 24개월의
데이터를 통해 생성된 현시점까지의 예측결과와 실제값을 OU-process 또는 칼만 필터링을 통해 결정된 보정을 위한 파라미터로 72개월의 추세를
결정한다. 이를 통해 새로운 데이터가 생성되면, 현시점에서 24개월의 데이터 특징이 지속해서 반영될 수 있도록 개발되었다. 본 장에서는 개발된 알고리즘을
구성하는 개별 모델들에 대한 이론적 설명을 서술한다.
3.2.1 SARIMA
ARIMA 모델의 기본 형태는 수식 (1)과 같으며, 과거 관측 값들에 의해 설명되는 자기모형회귀 AR(AutoRegressive)모형과 과거 오차항으로
설명되는 이동평균 MA(Moving Average)모형에 불안정한 시계열을 정상화하는 차분 I(Integrated)가 포함된 모델이다. 모수$(p,\:
d,\: q)$는 각각 (자기모형회귀차수, 차분의 정도, 이동평균모형차수)를 나타내며, 자기상관함수(ACF), 부분자기상관함수(PACF) 그래프 결과를
토대로 모형의 적절성을 판단하여 차수를 결정한다.
SARIMA 모델은 수식 (2)과 같으며, ARIMA의 기본모형에서 계절성 모수$(P,\:D,\:Q)_{m}$가 추가된 형태로서 Seasonal ARIMA의
약자로 나타낸다. 추가된 계절성 모수$(P,\:D,\:Q)_{m}$에서 $m$은 계절성 주기를 나타내며, $m=12$인 경우 월별 계절성 주기를 나타낸다.
본 연구에서 SARIMA 모델의 파라미터 결정 시에는 grid search 결과가 가장 작은 AIC(Akaike Information Criterion)
값을 가지는 모델로 결정하였다.
3.2.2 MLP
MLP 모델은 입력층(Input Layer)과 출력층(Output Layer) 사이에 하나 이상의 은닉층(Hidden Layer)이 존재하는 모델이다(그림 9). 입력층, 은닉층, 출력층 방향으로 연결되고, 입력층으로 입력 벡터가 들어가게 되면 순차적으로 연산되며, 출력층에서 발생하는 값과 목표 출력 사이의
오차 값을 최소화하는 방향으로 모델의 가중치를 업데이트한다.
그림. 9. 심층신경망(MLP) 구조
Fig. 9. Structure of Multi-Layer Perceptron model
3.2.3 LSTM
LSTM 모델은 RNN(Recurrent Neural Network)의 장기 의존성(Long-Term Dependency)을 해결하기 위해 설계된
모델이다(7,8). LSTM은 기본적으로 하나의 셀 상태(Cell state)와 세 가지 게이트인 입력 게이트(Input gate), 망각 게이트(Forget gate),
출력 게이트(Output gate)로 이루어져 있다. 이는 (그림 10)에 표현한 바와 같이 하나의 LSTM 블록으로 구성되어 있고 시계열 정보인 입력데이터에 따라 이전 블록에서 다음 블록으로 셀 상태($c_{t}$)와
단기 상태 벡터($h_{t}$) 정보가 전이되며 상태가 업데이트 되는 구조이다. 수식 3.1과 (그림 11)의 입력게이트($i_{t}$)를 보면 앞으로 들어오는 새로운 입력정보 중 Sigmoid layer($\sigma$)를 거쳐 어떤 것을 셀 상태($c_{t}$)에
저장할지 결정하고, 수식 3.2와 (그림 11)의 망각 게이트($f_{t}$)에서는 셀 상태에서 sigmoid layer를 거쳐 어떤 정보를 버릴지 결정한다. 0이면 정보를 버리고 1이면 다음
state로 정보를 넘긴다. 수식 3.3과 그림 11의 셀 상태($c_{t}$)는 정보가 바뀌지 않고 그대로 흐르도록 하는 역할이다. 기존 셀 상태에서 망각 게이트를 거쳐 나온 값을 곱하여 셀 상태
값의 일부를 망각하고(수식 3.4), 입력 값과 그 이전 단계의 출력 값을 처리한 결과에 입력 게이트의 출력 값을 곱하여 일정량을 유지하며 새로운
셀 상태를 만들어낸다.
그림. 10. LSTM 구조
Fig. 10. Structure of Long Short-Term Memory model
그림. 11. LSTM Cell 구조
Fig. 11. Structure of LSTM's cell
최종적으로 수식 3.5를 통해 만들어진 새로운 셀 상태에 출력 게이트의 출력 값을 곱하여 셀의 출력을 결정한다.
3.2.4 TCN
TCN 모델은 시퀀스 학습을 위해 CNN 모델구조를 변형한 것으로, CNN 모델과 RNN 모델의 구조를 결합한 형태이다. 시퀀스 길이에 유연하고 Residual
네트워크와 확장된 Convolution의 조합을 통해 복잡한 구조의 네트워크도 쉽게 설계할 수 있으며, 병렬처리가 가능하다는 장점이 있다.
TCN은 보통의 Convolution이 아닌 Causal convolution을 적용하여 시간적 순서를 고려할 수 있으므로 정보의 손실을 줄일 수
있고, Dilated convolution을 통해서 연산량의 증가 없이도 큰 Receptive field로의 확장이 가능해서 장기간의 이력을 고려할
수 있도록 한다. Dilated causal convolution은 다음과 같이 정의된다. 아래의 수식 (4)에서 $d$는 dilation factor,
$f$는 필터의 크기$(1\times k)$를 의미한다.
그림. 12. TCN 구조
Fig. 12. Structure of Temporal Convolutional Network model
3.3 단기 예측모델
단기예측 모델로 개발된 모델은 SARIMA, MLP, LSTM, TCN 4가지이다. 단기예측 모델의 경우 전처리 완료된 데이터를 전국 및 지역별로
분류하여 전국(1개), 지역(15개), 총 16개의 모델을 각각 개발하고 성능을 비교하였다. 지역마다 데이터 보유 기간이 상이하므로 각 데이터의 마지막
24개월(학습:테스트 비율이 약 8:2가 되도록 구성)에 해당하는 데이터를 테스트 데이터로 설정하였다.
3.4 중기 예측모델
재생e 연계량에 대한 중기(6년) 예측의 경우, 정책적 특성과 변전설비 과포화 시점, 준공 계획, 민원 등에 따른 불규칙한 연계속도 변화로 과거 이력을
통한 단기예측모델은 중기예측에서 정확한 예측값을 산출하는 것은 어렵다. 이러한 점을 고려하여, 본 연구에서는 학습기간(2004.12~2022.02,
183개월)을 통해 얻은 예측치와 단기예측 모델의 검증 기간(2020.03-2022.02, 24개월) 동안의 실제 데이터를 측정치로 반영하여, OU-process와
칼만 필터(Kalman filter)를 통해 최근 24개월간의 추세에 적응하도록 보정하는 중기 추세모델로 구성하여 향후 6년간의 추세를 확인 할 수
있도록 구현하였다.
3.4.1 중기 모델 시계열 특성
연구에서 사용된 재생e 지역본부별 연계량 데이터는 연도별 정책적 특성에 따라 1계, 2계 차분의 변동성이 달라지는 것을 그림 13을 통하여 확인할 수 있다. 그림 13은 지역본부별 연계량의 1계, 2계 차분 값의 크기를 정규화한 변동 값을 상자그림(box-plot)을 통해 확인하였다. 이는 2017년도 정부가 발표한
‘재생에너지 3020 이행계획(안)'(9)을 통한 적극적으로 재생에너지 보급 추진 계획과 그 시기적 일치성을 보여준다. 연도별 변화를 통한 보정을 위해, 연도별 변화를 적용할 수 있도록 최근
24개월간의 데이터를 보정 기간 데이터로 사용한다.
그림. 13. 연도별 1계, 2계 차분-상자그림
Fig. 13. 1st and 2nd order differences by year: box plot
3.4.2 중기 추세모델 구성
중기 추세모델은 3.2절 단기예측모델의 결과를 OU(Ornstein Uhlenbeck) 확률과정과 칼만 필터를 활용하여, 측정치에 대한 최적화를 통한
후처리 구조이며, 그림 14와 같다. 중기 추세모델의 상세 구축 순서는 다음과 같다.
첫째로, 24개월의 추세변화가 평균회귀(mean reversion)인 OU 확률과정(Vasicek 모델이라고도 함) $d X = -\eta(X -\mu)dt
+\sigma d W$ (W: Wiener 과정)을 따르는 경우, 최대 가능도를 통해 반복 업데이트하여 OU 확률 과정의 $\eta $, $\mu
$ 그리고 $\sigma $인 매개변수를 추정한다(10). 평균회귀 추정이 불가한 경우, 칼만 스무더(kalman smoother), $A,\: Q,\: H$ 그리고 $R$ 로 구성된 상태-측정방정식 파라미터를
데이터를 통해 최적화한다(수식 5). 여기서, 상태-측정방정식은 다음과 같다. 여기서, $x$는 시스템의 (숨겨진) 상태, $y$는 관측치, $A$는
상태 전이 행렬, $H$는 측정 관계 행렬, 마지막으로 $Q,\: R$ 은 양의 정부호(positive definte)인 측정 노이즈 공분산 행렬이다(11).
둘째로, OU Process를 통한 최적화 연산이 불가능한 경우, 4가지 추정변화량들을 일정한 가중을 통한 평균(mean average) 추세선과,
검증기간을 측정치로 최적화한 칼만 필터를 활용하여, 단기예측 모델들의 추정변화량을 필터링한 추세선을 제시한다. 이를 통해, 4가지 단기예측 모델의
24개월의 연계량의 오차범위가 실제 연계량 범위로 조정된 중기 6년(72개월) 추세를 위한 월별 추정화랑을 산출한다(그림 14).
그림. 14. 중기 추세모델 알고리즘
Fig. 14. Intermediate-term trend prediction model algorithm
3.5 평가지표
모델의 성능평가 지표는 MAPE(Mean Absolute Percentage Error)를 사용하였다. MAPE는 실제값과 예측값 사이의 차이를 실제값으로
나누어줌으로써 오차가 실제값에서 차지하는 상대적인 비율을 산출한다. 하단의 수식 (6)와 같이 해당 오차 값의 비율에 절대값을 취한 뒤 평균을 구하는
방식으로 전체 시점에 대한 평균 오차비를 계산하며 $y_{i}$는 실제값, $x_{i}$는 예측값을 나타낸다. 오차의 정도를 백분율 값으로 표현하기
때문에 예측값이 여러 개일 경우에 예측값 전체에 대한 모델의 평균적인 성능을 평가하기에 용이하며 직관적이다.
3.6 모델 결과
본 논문에서 제안된 단기예측모델은 SARIMA, LSTM, TCN, MLP을 활용하여 개발되었다. 모델 검증은 취득데이터의 마지막 업데이트 기준 24개월
이전의 2020.03~2022.02 기간으로 산정하여 평가한다. 중기추세모델은 단기모델의 예측 변동성을 실제 측정치로 변동 범위를 칼만 필터를 통해
보정한 추세선과 예측결과들을 앙상블 평균(ensemble mean)하여 결정한 추세선을 결과로 나타낸다.
3.6.1 단기 예측모델 실험결과
단기모델을 통한 예측 정확도는 표 4, 그림 15를 통해 확인 할 수 있다. 표 4의 밑줄은 각 구분별 좋은 성능을 가진 모델 표시이며, 지역별 최소 0.53(대전·세종, LSTM)에서 30.02(제주, SARIMA)으로 최대 모델별
종합된 성능은 MAPE 기준 14.11 이내의 평균 오차비를 가진다. 모델별 평균 오차비는 지역별 데이터의 특성에 따른 모델의 성능의 변화폭을 의미하며,
이를 고려하여 실제 활용 단계에서는 단기예측 모델에서는 지역별 정확도에 따른 우선순위를 통한 선택 모델을 적용한다.
표 4. 전국 및 지역별 단기 예측 모델 성능 평가 결과(MAPE)
Table 4. Forecasting performance of different models
구분
|
SARIMA
|
LSTM
|
TCN
|
MLP
|
선택
|
전국
|
3.21
|
2.84
|
1.66
|
2.46
|
1.66
|
광주×전남
|
12.77
|
2.91
|
11.53
|
6.03
|
2.91
|
남서울
|
17.09
|
2.44
|
10.05
|
12.6
|
2.44
|
서울
|
13.05
|
10.13
|
7.55
|
11.06
|
7.55
|
경기
|
8.37
|
9.27
|
11.11
|
5.17
|
5.17
|
부산×울산
|
18.22
|
1.51
|
11.29
|
15.69
|
1.51
|
경북
|
9.73
|
5.66
|
7.21
|
1.85
|
1.85
|
대구
|
9.85
|
5.17
|
19.84
|
2.4
|
2.4
|
대전×세종
|
10.68
|
0.53
|
7.91
|
2.78
|
0.53
|
강원
|
15.8
|
4.08
|
13.59
|
3.09
|
3.09
|
제주
|
30.02
|
18.19
|
24.84
|
29.77
|
18.19
|
경남
|
17.86
|
1.09
|
9.69
|
4.1
|
1.09
|
경기북부
|
19.29
|
2.78
|
7.55
|
11.45
|
2.78
|
인천
|
18.73
|
7.11
|
6.21
|
3.06
|
3.06
|
전북
|
11.96
|
2.29
|
4.97
|
6.74
|
2.29
|
충북
|
9.14
|
9.47
|
4.21
|
2.16
|
2.16
|
평균
|
14.11
|
5.34
|
9.95
|
7.52
|
3.67
|
그림. 15. 단기 예측모델 검증 결과 (전국)
Fig. 15. Short-term prediction model evaluation results
그림. 16. 지역별 재생e 연계용량 변화
Fig. 16. renewable electricity capacity growth by region
3.6.2 중기 추세모델 결과
중기 추세모델의 경우 단기 예측모델의 최근 24개월 검증기간의 실제 연계량 데이터 및 4가지 모델의 예측 결과를 앙상블하여 취득된 데이터 이후의 6년간의
추세를 확인할 수 있도록 개발되었다(그림 17). 3.4.2절의 중기모델 앙상블은 2가지의 추세선을 생성하며 단기예측모델의 예측치와 실제 데이터를 칼만 필터를 통해 오차범위를 보정한 파란색 추세선과,
모델들의 앙상블 평균값을 활용하여 두 가지 추세선을 결과로 제시한다. 또한 후속연구를 통하여 전국·지역별 구역의 시장잠재량과 해당 구역의 모든 변전소의
용량정보를 통합하여 중기 추세모델의 2가지 추세선이 향후 시장잠재량 및 용량 한계점에 수렴하는 방식으로 개선할 예정이다.
그림. 17. 중기 추세모델 (전국)
Fig. 17. Intermediate-term trend prediction model results
4. 결 론
본 연구에서는 행정안전부의 국가지점번호 격자 체계를 사용하여 공공데이터와 시장잠재량 및 전력설비데이터를 표준화하고 통합하여 재생e 공간격자체계를 구축하였다.
재생e 공간격자체계를 통하여 전국·지역·변전소별 구역 데이터들을 상호 연산 가능한 행렬 및 시계열 형식의 데이터를 추출할 수 있으며, 해당 데이터를
이용하여 재생e 연계량에 대한 LSTM 단일 단기 모델은 2년(24개월) 평균 정확도 94.66%를 달성하였으며, 모델 중 지역별 우수모델을 선택
적용하여 평균 96.33%의 정확도를 개선하였다(표 4). 단기예측 결과와 실제 연계결과에 대한 오차범위를 조정하고, 이전 24개월의 추세를 반영할 수 있도록 중기 6년(72개월) 추세모델을 개발하였다.
4.1 후속연구
후속연구를 통하여 변전소별 구역에 대한 시장잠재량 데이터 활용 재생e 연계량 예측모델을 개발 중에 있으며(그림 18), 해당기능은 (1) 연계량 예측치에 따른 신규 변전소 필요 시점 파악, 이를 통한 (2) 재생e 발전소 접속대기 해소에 따른 환경비용 편익발생
등의 효과를 가진다. 또한, 구축된 재생e 공간격자체계 시스템은 (3) 관련 지역별 불균형하게 발전된 재생e 연계 지역별비율(그림 19)을 균형 있게 발전시킬 수 있는 정책 수립 및 전력 회사의 설비보강 의사 결정 시 융합된 기초자료를 제공함으로써 객관적이고 정량적인 방법론을 제공할
수 있을 것으로 기대한다.
그림. 18. 재생e 연계량 변전소별 예측 모델 예시
Fig. 18. Grid-connected capacity prediction model for each substation
그림. 19. 지역별 재생e 계통연계 용량비율 시각화
Fig. 19. Visualization of renewable energy grid-connected capacity ratio by region
Acknowledgements
본 연구는 2022년도 한국전력공사의 지원(R22TA11)에 의하여 이루어진 연구로서, 사내 관계부처 및 시장잠재량 데이터를 제공해주신 한국에너지기술연구원(KIER)에
감사드립니다.
References
Jintao Ke, 2017, Short-term forecasting of passenger demand under on-demand ride services:
A spatio-temporal deep learning approach, Transportation Research Part C: Emerging
Technologies, Vol. 85, pp. 591-608
Farhan Mohammad Khan, 2021, Projecting the criticality of COVID-19 transmission in
India using GIS and machine learning methods, Journal of Safety Science and Resilience,
Vol. 2, No. 2, pp. 50-62
Seongyoep Jeong, 2021, Temperature prediction based on bidirectional long short-term
memory and convolutional neural network combining observed and numerical forecast
data, Sensors, Vol. 21, No. 3, pp. 941
IEA, 2020, Renewable energy market update. Paris: International Energy Agency
IRENA, OECD/IEA, REN21, 2018, Renewable Energy Policies in a Time of Transition,
IRENA
Hye-Jeong Lee, 2020, A Comparative Study on Acceptance of Public and Local Residents
for Renewable Energy Projects: Focused on Solar, Wind, and Biomass, Innovation studies,
Vol. 15, No. 1, pp. 29-61
S. Hochreiter, J. Schmidhuber, 1997, Long short-term memory., Neural computation,
Vol. 9, No. 8, pp. 1735-1780
H. Sak, A. W. Senior, F. Beaufays, 2014, Long short-term memory recurrent neural network
architectures for large scale acoustic modeling
of Trade Industry and Energy Ministry, December, 2017, RE3020
J. C. G. Franco, 2003, Maximum likelihood estimation of mean reverting processes,
Real Options Practice
S. Särkkä, 2013, Bayesian filtering and smoothing, Cambridge university press, No.
3
저자소개
2017년 동국대학교 건축공학 / 기계로봇에너지공학(학사),
2019년 성균관대학교 미래도시융합공학과(공학석사),
2019년~현재 한국전력공사 데이터사이언스연구소 선임(보) 연구원. 관심분야 : 데이터분석, MLOps, 시계열예측모델, 이상탐지모델, super-resolution
연구 등
2020년 건국대학교 신기술융합학과 융합ET 전공(공학석사),
2019 ~ 현재 한국전력공사 데이터사이언스연구소 연구원. 관심 분야 : GIS(지리정보시스템), MLOps
2020년 서울과학기술대학교 데이터사이언스학과(공학석사),
2020 ~ 현재 한국전력공사 데이터사이언스연구소 연구원. 관심 분야 : 딥러닝 기반의 이상탐지 및 시계열예측
2012년 고려대학교 전기전자공학,
2019년 한국과학기술원(KAIST) 산업 및 시스템공학과(공학석사),
2019년 ~ 2023년 한국전력공사 데이터사이언스연구소 일반 연구원. 관심분야 : 데이터 분석, MLOps, 최적제어/시계열예측/이상탐지모델 연구
등
2020년 고려대학교 응용수학과(이학박사) /
2019년 ~현재 한국전력공사 데이터사이언스연구소 선임 연구원. 관심분야 : 데이터분석, 시계열예측모델, 이상치탐지모델