• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid




Precipitation Prediction, Jumpiness Index, GDAPS, Evolutionary Modeling, Cartesian Geentic Programming

1. 서 론

기상은 불확실성과 혼돈성이 큰 자연계의 현상으로 예측이 매우 어렵다. 여러 기상 요소 중 강수는 생활과 매우 밀접하고 재해적인 성격도 강해서 예보의 중요성이 매우 높다 (1,2). 다양한 분야의 예측에서 데이터 기반 또는 데이터 학습 기반 예측이 주를 이루고 있는 가운데, 기상 분야에서도 데이터와 AI 기법을 사용한 접근이 역시 시도되고 있다 (3,4). 그러나 타 분야와는 달리 데이터 기반 방법보다 전통적인 수치모델에 의한 예측이 주를 이루고 있다. 이것은 수십년 이상 축적해 놓은 대기과학의 핵심 지식이 수치모델에 응집되어 있기 때문이다. 수치모델은 물리적 법칙과 기상학적 현상을 반영한 이론적 기반이 견고하기 때문에, 기상학계에서 상대적으로 신뢰성이 높고, 예측에 대한 근거가 확실하기 때문에 의사 결정에 문제의 소지가 적다. 대부분의 기상학자들은 데이터 기반 AI 모델링에 대해서 아직까지는 상대적으로 높은 신뢰를 하고 있지 않다.

우리나라는 한반도 기상 예측에 영국에서 개발되어 전 세계적으로 널리 사용되는 대표적인 수치예보모델인 UM(Unified Model) (5) 기반의 .전지구모델 GDAPS (6)를 사용하고 있다.

UM 수치예보모델의 물리과정 모수화 대부분이 북미, 유럽지역의 특별관측자료에 기반하고 있는데, GDAPS는 한반도의 지형학적 특성을 반영하여 개선한 모델이다.

주로 수행되는 수치모델에 대한 예측의 정확성 향상 연구와는 달리, 본 논문에서는 예보모델이 얼마나 일관되게 예측하는지를 나타내는 널뛰기지수 (Jumpiness Index) (7)를 사용하여 수치모델 GDAPS의 오차와의 관계를 모델링한다.

관련 연구로는 (7)에서 유럽의 ECMWF(European Centre for Medium-Range Weather Forecasts) 모델에 대해서 널뛰기지수의 일관성 추세와예측 정확도와의 관계를 분석하였으나, 예측 일관성이 높다하더라도 예측 오차가 줄어드는 강한 상관관계를 발견하지 못하였다. 본 논문에서는 기존 연구와는 달리 널뛰기지수 JI의 단순 추세 대신에, 다수의 JI 요소들을 조합하여 예측 정확도를 높이는 모델링을 수행한다. 이를 위히여, 진화연산의 일종으로 비선형 회귀분석 모델링에 우수한 CGP (Cartesian Genetic Programming) (8)을 적용한다. 시간대별 JI 요소들과 예측 오차 사이의 관계를 분석하고, JI 조합 기반 모델링의 예보의 정확도 향상에 대한 적용 가능성을 검토한다.

남한 주변에 대한 2013년, 2014년 지면강수 데이터에 대해서 GDAPS 데이터로 계산한 JI와 오차값과의 관계를, CGP 기반의 비선형 회귀분석을 통해 모델링하는 실험을 수행한다.

2. 예측의 일관성 평가

2.1 널뛰기지수

널뛰기지수 (Jumpiness Index, 이하 JI)는 예보모델이 얼마나 일관되게 예측하는지를 나타내는 지표이다. JI는 오차와는 다르게 예측정확성을 평가하는데 쓸 수는 없지만, 예측자료의 변화 크기에 비례하는 특성이 있어서 예측일관성 평가에 활용될 수 있다. 예로, 예측시점의 일관성이 낮은 경우는 해당 모델의 예측값의 신뢰성이 떨어질 수 있다.

JI 계산을 위해서는 예측목표시각은 같고 예측자료 생산시각은 다른 두 예측자료가 필요하다. 두 예측자료의 차이가 작으면 JI의 절댓값이 작아지며, 절댓값이 작을수록 예측일관성이 높은 것을 의미한다. JI는 대상 영역에 대해서 두 자료의 차이를 표준편차의 평균으로 나누어 계산하며, 식(1)과 같이 정의된다.

(1)

$JI(f)=\dfrac{\sum(f_{gp}-g_{gp})}{0.5\{\sigma(f)+\sigma(g)\}}$ - f: d시간에 생산된 +t시간 예측자료

- g: (d+$\delta$)에 생산된 +(t-$\delta$)시간 예측자료

- $\delta$: 예측 생산 간격

- d: 예측자료 생산시각

- t: 예측 시각

- (d+t): 예측 목표 시각

전지구모델 GDAPS의 오차는 GDAPS 예측결과(0~240h)를 동아시아 재분석장을 이용하여 예측시간대별(3h, 6h, 12h)과, 각 격자점 또는 일정 영역에 대해서 예측 결과값과 재분석장 RDAPS(Regional Data Assimilation and Prediction System)(2) 값의 차이로 구한다. 재분석장 RDAPS는 사후 보정을 통해서 정답에 가까운 수정된 데이터를 의미한다.

2.2 GDAPS 데이터 처리

GDAPS 예측값, JI, GDAPS 오차 생산시간표는 다음 그림 1과 같다. 세로축은 자료생산시각(Issued Time)이고, 가로축은 예측목표시각(Valid Time)이다. RDAPS 재분석자료와 GDAPS 예측값은 12시간마다 생산되며, GDAPS 예측값은 0시간 $\sim$ 252시간까지 생산된다. 이때, 예측목표시각이 같은 데이터의 집합을 이용하여 널뛰기지수와 오차를 계산한다. 널뛰기지수는 예측목표시각은 같고 예측자료 생산시각은 다른 두 예측자료로 계산하며, GDAPS 오차는 RDAPS 재분석자료에서 GDAPS를 빼서 계산한다.

그림. 1. GDAPS 예측값, JI, GDAPS 오차 생산시간표

Fig. 1. Prediction values of GDAPS, JI, generation time table for GDAPS error

../../Resources/kiee/KIEE.2022.71.12.1820/fig1.png

JI 산출 예는 그림 2와 같다. JI는 식(1)과 같이 두 GDAPS 데이터의 차이를 표준편차의 평균으로 나누어 계산한다. 그림 2의 왼쪽은 한 개의 예측목표시각에 대한 GDAPS 데이터의 예시이고, 예시 수치가 양수이면 양의 예측오차가, 음수이면 음의 오차가 발생됨을 나타낸다. 양과 음이 구간에 따라 번갈아 나오는 널뛰기 현상이 존재한다. 널뛰기지수 JI의 절대값이 작을수록 예측의 일관성이 높아진다.

그림. 2. JI 산출 예

Fig. 2. Caculation example of JI

../../Resources/kiee/KIEE.2022.71.12.1820/fig2.png

3. Title

3.1 비선형 회귀분석 기법

널뛰기지수 JI는 같은 예측시점에 대해서 그 이전 시간대 별로 구성되기 때문에 10-20여개의 JI의 조합을 통해 지면강수량을 예측하는 모델을 구성한다. 모델링에는 단순한 선형회귀분석에서 딥러닝까지 다양한 기법의 적용이 가능하나, JI 요소들 간의 관계를 설명하는 데는 딥러닝의 블랙박스 해보다는 비선형적인 구성 형태이면서, 어느 정도 설명력을 보완할 수 있는 기법이 필요하다. 본 논문에서는 이를 위해서 비선형 회귀분석 문제에 우수한 CGP (Cartesian Genetic Programming)을 도입하여 적용한다. CGP의 설명을 위해서 먼저 이의 전신인 GP(Genetic Programming)를 소개한다.

3.2 Genetic Programming

진화 최적화 알고리즘인 Genetic Programming(이하 GP)을 도입한다. GP는 모델구성 시 사칙연산 외에 초월함수 및 조건 연산자까지 구성요소로 선택할 수 있어서 제한이 없는 회귀분석 식을 생성 가능하다. 또한, 구조와 계수가 열려진 임의의 비선형 회귀분석 식의 생성 가능한 기호적(symbolic) 회귀분석 기법을 제공한다.

3.3 CGP (Cartesian Genetic Programming)

CGP는 Genetic Programming의 변형으로, 인덱스된 그래프 형식을 사용한다. 입력 노드, 출력노드, 노드 함수로 구성 된 셀 네트워크로 구성되며, 노드의 입력과 함수를 정수형 스트링으로 표현한다. 부분 모듈의 재사용성이 특징이다. 아래 그림 4에 CGP의 구성도가 나와 있다. 좌측은 입력, 중앙은 함수, 우측은 출력으로 구성되며, 입력이 거치는 함수들의 경로는 임의로 연결되어 출력에 도달하며, 역으로 이를 해석하여 각 출력을 입력과 함수의 조합으로 나타낼 수 있다.

그림. 3. Cartesian Genetic Programming 구성도

Fig. 3. Structure of Cartesian Genetic Programming

../../Resources/kiee/KIEE.2022.71.12.1820/fig3.png

CGP 기법으로 널뛰기지수의 조합을 통해 강수 예측 모델을 구성할 때, 입력(그림 3의 좌측 i)은 시간대별 JI 요소들이고, 출력은 그림 3우측의 O가 된다. 일반적인 CGP는 다수의 입력을 받아서 다수의 출력 모델을 구할 수 있는데, 본 논문에서는 하나의 출력 회귀식만을 구한다. 중앙 네트워크의 노드들은 회귀식 구성에 필요한 함수들이 위치하며, 다단계의 연결을 통해 하나의 모델이 구성된다. 복수의 개체들이 다양한 연결 네트워크를 구성하고, 적합도 평가에 따라 선택과 유선연산을 통한 진화적으로 개선된다. 노드에 해당하는 함수는 사칙연산과, sin, cos, min, max를 사용한다.

4. 실험 및 결과 비교

4.1 실험 환경

강수 예측에 대한 JI 기반 CGP 모델링 실험은 남한 주변지역을 대상으로 지면 강수량에 대해서 수행되었으며, 그림 4에 실험 대상 영역의 지도가 나와 있다. 그 밖의 구체적인 정보는 다음과 같다.

- 격자점 수 : 3600개 격자점

(남한과 남한 주변지역 60$\times$60 개)

- 발표시각 : 00UTC, 12UTC

- 예보 구간 : +00h ~ +252h

- 기상요소 : 지면 강수량 (PRCP)

실험에 사용한 CGP 파라미터가 표 1에 나와 있다.

표 1. CGP 파라미터

Table 1. Settings of CGP parameters

Populations

Generations

Column size

Row

size

Mutation probability

500

3000

8

6, 8, 10

0.5~10%

4.2 실험 결과

표 2는 CGP 네트워크의 행 크기 변화에 따른 MAE 비교 결과이다, 행 크기가 6일 때의 MAE는 약 0.530이었고, 행 크기가 8일 때는 약 0.527, 행 크기가 10일 때는 약 0.518이었다. 작은 차이지만 행 크기가 커질수록 MAE가 줄어듦을 확인할 수 있다.

표 2. CGP 모델링 실험의 네트워크 행 크기 변화에 따른 성능 비교 (MAE)

Table 2. Performance comparison results of CGP prediction according to variations of number of network rows (MAE)

Network size

6

8

10

training

0.497

0.484

0.463

test

0.530

0.527

0.518

표 3은 CGP 유전연산의 주요 연산자인 돌연변이의 확률 변화에 따른 MAE 비교 결과이다. 돌연변이 확률이 0.5%일 때 MAE는 0.566, 1%일 때 0.549, 2%일 때 0.543이고, 5%, 10% 인 경우는 0.530으로 돌연변이 확률이 증가함에 따라 오차가 조금씩 감소함을 알 수 있다. 돌연변이 확률이 5%,와 10% 인 실험 성능이 같으나 점진적인 탐색을 위해서 이후 실험에서는 5%를 사용한다.

표 3. CGP 모델링 실험의 돌연변이 확률변화에 따른 성능 비교 (MAE)

Table 3. Performance comparison results of CGP prediction according to variations of mutation probability of network rows (MAE)

Mutation probability

0.5

1

2

3

5

10

training

0.523

0.510

0.489

0.490

0.497

0.508

test

0.566

0.549

0.543

0.533

0.530

0.530

표 3 CGP 모델링 실험의 돌연변이 확률변화에 따른 성능 비교 (MAE) Table 3 Performance comparison results of CGP prediction according to variations of mutation probability of network rows (MAE) 서로 다른 시간대별 JI 요소들을 사용한 실험 결과가 표 4에 나와 있다. 첫 행은 12시간 간격으로 21개의 JI 인자를 사용한 경우이고, 두번째 행은 24시간 간격으로 계산된 JI 인자 10개만 사용한 실험 결과로 첫 행보다 더 우수한 결과를 나타낸다. 세 번째 행은 1, 2행에 있는 두 종류의 인자 31개를 모두 사용한 실험의 결과로 가장 우수한 결과를 보여준다.

표 4. 남한 주변지역 CGP 수치회귀분석 실험 중 가장 우수한 실험(MAE)

Table 4. Performance comparison results of CGP prediction according to variations of different JIs (MAE)

Input Elements

Precipitation Prediction Error

(MAE)

21 JIs (12 hours interval)

0.569

10 JIs (24 hours interval)

0.513

21 JIs (12 hours interval)

+ 10 JIs (24 hours interval)

0.511

표 5에는 선형회귀분석 MLR과의 비교 결과가 나와 있다. CGP가 적은 오차로 더 우수한 성능을 보여준다.

표 5. MLR과 CGP 회귀분석의 결과 비교(MAE)

Table 5. Performance comparison results between MLR and CGP (MAE)

Method

Precipitation Prediction Error (MAE)

MLR

0.621

CGP

0.511

그림. 5. 남한 주변지역 9분할 CGP 회귀분석 실험(MAE)

Fig. 5. CGP regression Experimental results of sub section in the surrounding area of South Korea

../../Resources/kiee/KIEE.2022.71.12.1820/fig5.png
그림 5에는 그림 4의 지도에 나타난 대상 지역을 9개로 분할하여, 긱 부분 별 오차(MAE)를 표시한 것이다. 북서쪽의 서해 바다 영역의 오차가 가장 적고, 제주도와 전라남도를 포함한 지역의 오차가 가장 크게 나타났다.

지면강수에 대한 JI 기반 회귀식의 결과가 그림 6에 나와 있다. $JI_{1}$부터 $JI_{21}$까지는 252h부터 0h까지 12시간 간격으로 계산한 JI이고, $JI_{22}$부터 $JI_{31}$까지는 240h부터 0h까지 24시간 간격으로 계산한 JI이다. CGP 함수로는 사칙연산과, sin, cos 등의 주기함수 및 min, max 등의 논리함수를 사용하였다. 각 시간대별 JI 들과 함수들의 조합으로 사용 빈도 및 구성 함수의 형태를 통해 비교적 설명력이 존재함을 알 수 있다.

그림. 6. 구해진 CGP 회귀식

Fig. 6. Obtained CGP regression

../../Resources/kiee/KIEE.2022.71.12.1820/fig6.png

그림 7은 CGP 회귀분석 결과식에 사용된 인자의 빈도수를 표시한 그래프이다. 24시간 간격으로 계산된 $JI_{22}$부터 $JI_{31}$까지의 인자의 빈도수가 높음을 확인할 수 있다.

그림. 7. CGP 회귀식에 사용된 JI의 빈도 그래프

Fig. 7. Histogram graph of the used JIs of CGP regression

../../Resources/kiee/KIEE.2022.71.12.1820/fig7.png

그림. 8. CGP 회귀식에 사용된 JI의 빈도 그래프

Fig. 8. Histogram graph of the used JIs of CGP regression

../../Resources/kiee/KIEE.2022.71.12.1820/fig8.png

참고로 주요 도시별 예측일관성에 대한 그래프가 그림 8에 나와 있다. 좌측의 y축은 JI 인덱스 번호를 나타내고, 우측의 y축은 예측 오차를 의미한다. x축은 예측 직전 시간대로 우측으로 갈수록 목표 시점에 가까워진다. 그래프에서 양과 음의 위치는 각 부분의 오차가 양이거나 음을 나타낸다. 그래프의 패턴이 양과 음을 오가면서 목표시점에 다가갈수록 오차에 작아짐을 알 수 있다.

5. 결 론

본 논문에서는 인공지능 기법중의 하나인 Cartesian Genetic Programming을 사용하여 예측 널뛰기 지수와 전지구모델 오차의 상관성을 모델링하고 분석하였다. 구체적으로, 1) 전지구모델인 GDAPS에 대한 오차 생산, 2) 널뛰기지수 JI 산출, 3) 생산된 오차와 JI 지수 사이의 상관성 모델링을 수행하였다. 지면강수에 대한 ‘13~’14년 2년치의 재생산된 전지구모델 데이터 GDAPS와 재생산 데이터 RDAPS를 사용하여, 남한 주변지역 3,600개 격자점을 대상으로 다양한 실험을 수행하였다.

첫째, 사전 실험을 통해, CGP 파라미터 변화에 따른 예측 성능을 분석하였다. 둘째, JI 인자의 구성 수에 대한 실험을 통해, 31개 인자가 21개 보다 우수함을 나타내었다. 셋째, JI 인자를 사용한 회귀분석 모델링 실험에서 제안된 CGP 기법이 선형회귀분석인 MLR보다 우수한 오차 성능을 보였다.

널뛰기지수 기반의 CGP 모델링 기법을 전지구모델인 GDPAPS의 오차 예측에 적용한 새로운 시도로, 예측 일관성을 나타내는 널뛰기지수가 예보모델의 오차 연구에 적용이 가능함을 확인하였다. 향후 확장 실험과 성능 보완을 통해 수치모델의 성능 향상에 기여할 것으로 사료된다.

Acknowledgements

This Research was supported by Seokyeong University in 2021..

References

1 
C. Park, J. Moon, E. Cha, W. Yun, Y. Choi, 2008, Recent changes in summer precipitation characteristics over south korea, Journal of the Korean Geographical Society (in Korean), Vol. 43, No. 3, pp. 324-336DOI
2 
B. Hyeon, Y. Lee, K. Seo, 2014, Development of a Prediction Algorithm for a Heavy Rain Newsflash using the Evolutionary Symbolic Regression Technique, Journal of Institute of Control, Robotics and Systems (in Korean), Vol. 20, No. 7, pp. 730-735DOI
3 
K. Jeong, S. Lee, K. Seo, 2019, Deep Learning Based Prediction Model for Easterly Wind, Transactions of the Korean Institute of Electrical Engineers, Vol. 68, No. 12, pp. 1607-1611DOI
4 
K. Kim, K. Seo, 2020, Deep Learning Based Prediction for Easterly Wind and Classification of Precipitation, Transactions of the Korean Institute of Electrical Engineers, Vol. 69, No. 9, pp. 1387-1392DOI
5 
United Kingdom Met Office’s website, , http://www.metoffice. gov.uk., DOI
6 
Korea Meteorological Administration, , http://www.kma.go.kr., DOI
7 
E. Zsoter, R. Buizza, D. Richardson, 2009, Jumpiness of the ECMWF and Met Office EPS, Monthly Weather Review, Vol. 137, No. 11, pp. 3823-3836DOI
8 
Julian F. Miller, Peter Thomson, 2000, Cartesian Genetic Programming, Volume 1802 of the series Lecture Notes in Computer Science, pp. 121-132DOI

저자소개

서기성 (Kisung Seo)
../../Resources/kiee/KIEE.2022.71.12.1820/au1.png

He received the BS, MS, and Ph.D degrees in Electrical Engineering from Yonsei University, Seoul, Korea, in 1986, 1988, and 1993 respec- tively.

He became Full Time Lecturer and Assistant Professor of Industrial Engineering in 1993 and 1995 at Seokyeong University, Seoul, Korea.

He joined Genetic Algorithms Research and Applications Group (GARAGe) and Case Center for Computer-Aided Engineering & Manufacturing, Michigan State University from 1999 to 2002 as a Research Associate.

He was also appointed Visiting Assistant Professor in Electrical & Computer Engineering, Michigan State University from 2002 to 2003.

He was a Visiting Scholar at BEACON (Bio/ computational Evolution in Action CONsortium) Center, Michigan State University from 2011 to 2012.

He is currently Professor of Electronics Engineering, Seokyeong University.

His research interests include deep learning, evolutionary computation, computer vision, and intelligent robotics.