• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Smart Power Distribution System Laboratory, KEPCO Research Institute, Korea)



Intelligence electric distribution grid, Big data, Machine learning, Distribution asset condition prediction model

1. 서 론

기계학습 모델은 학습 목표나 데이터 특성에 따른 지도학습(supervised learning)과 비지도 또는 자율학습(unsupervised learning)과 같은 학습 방법의 적절한 선택과 학습 데이터의 충분한 양, 학습 데이터의 구성 방식과 학습 데이터의 품질에 따라 예측 성능이 큰 영향을 받게 된다. 또한, 일반적으로 기계학습 모델 개발에 있어서 학습용 데이터 구성과 모델 학습은 전체 모델링 작업의 85% 이상을 차지하는 것으로 알려져 있다(1)-(3). 학습 데이터 구성을 위해서는 기본적으로 학습 대상 데이터의 충분한 수집, 이상(abnormal) 데이터 처리, 그리고 학습에 적합한 형태로의 데이터 변환 작업을 거쳐야 하며, 최적의 모델 성능을 얻을 때까지 학습 데이터 구성 작업과 모델 학습을 반복적으로 수행하게 된다. 따라서, 기계학습 기반 예측 모델 개발과 예측 모델의 학습성능 개선에 있어 고품질의 학습 데이터 구성은 예측 성능을 높이는 핵심이라 할 수 있으며, 최근 들어 반복적인 기계학습 과정의 효율화에 대한 중요성이 높아졌고, 학습 데이터 관리적인 이슈를 해결하는 것을 목적으로 하는 연구들과 기술 개발이 활발히 진행되고 있다(4)-(6). 특히, 기후 변화, 정부 정책 등 다양한 요인에 의해 발생하는 배전 그리드 환경의 끊임없는 변동성 때문에 배전 자산 상태예측 모델은 예측 정확도 유지를 위해 주기적인 학습을 수행하여야 하며, 고품질의 학습 데이터 구성을 위한 지속적인 데이터 품질관리가 반드시 필요하다. 따라서, 기계학습 기반 배전 자산의 미래 상태 예측 모델 개발을 위해 소요되는 경제적 비용과 시간을 단축하고, 신뢰할 수 있는 예측 정확도를 갖는 배전 자산 상태예측 모델의 현장 운용을 위해서는 모델 학습에 활용되는 데이터의 지속적인 품질관리가 필요하다. 이를 위해, 본 논문에서는 기계학습 데이터 관리 표준을 정의하고, 해당 표준이 적용된 배전 자산 상태예측 모델 학습용 데이터 관리 시스템 개발하였다. 이를 통해, 모델 학습에 활용되는 데이터에 대한 품질관리와 고품질의 기계학습용 데이터 구성을 자동화하여, 예측 모델 개발을 위해 요구되는 비용을 절감하고, 끊임없이 변화하는 배전 그리드 환경에서 자산의 미래 상태예측의 신뢰성을 유지하고자 하였다.

본 논문의 구성은 다음과 같다. 2장에서는 배전 자산 상태예측 모델에 관한 관련 연구들에 대해 살펴보고, 3장에서는 배전 자산 상태예측 모델 학습용 데이터베이스를 구축한다. 4장에서는 배전 자산 상태예측 모델 학습용 데이터의 품질관리 표준을 제안한다. 5장에서는 본 논문에서 제안하는 품질관리 표준 체계를 기반으로 배전 자산 상태예측 모델 학습용 데이터 품질관리 자동화 시스템 개발한다. 마지막으로 6장에서는 결론에 대해 논한다.

2. 배전 자산 상태예측 모델

신재생에너지의 계통 연계에 따른 복잡성과 불확실성이 더욱 증대된 배전망 운영환경에서 빅데이터가 접목된 인공지능 기술은 배전망 운영에 있어 전력 수요와 공급의 급격한 변화에 대한 선제 대응이 가능하도록 하여 안정적이고 효율적인 배전망 운영을 위한 견인차 역할을 할 것으로 기대를 모으고 있다(7)-(9).

한국전력공사 전력연구원에서 개발한 배전 자산 상태예측 시스템(SPAA, State prediction and analytics)은 AMI(Advanced metering infrastructure)와 전력 IoT(Internet of things) 환경에서 취득된 빅데이터를 기반으로 효율적인 배전망 운영을 위한 다양한 형태의 배전 자산 상태예측 모델들을 탑재하여, 선로 부하 예측, 신재생에너지 발전량 예측, 설비의 잔존수명 예측, 설비 고장 예측 등 다양한 배전 자산의 미래 상태예측 정보를 제공한다. 배전 자산 상태예측 시스템은 제공되는 예측정보의 특성에 따라 예지형 배전 자산 상태예측 분석시스템(A-SPAA, Asset state prediction and analytics), 배전 그리드 상태예측 및 위험도 평가시스템(G-SPAA, Grid state prediction and analytics), 영상인식 기반 배전설비 상태예측 시스템(I-SPAA, Image state prediction and analytics)의 3개 시스템으로 구성된다. A-SPAA는 설비자산 빅데이터 기반의 상태예측 모델을 통해 자산의 교체 시기, 고장 발생 시기 등의 예측정보를 제공하여 설비 자산관리의 효과성을 높일 수 있다. G-SPAA는 배전운영 빅데이터를 기반으로 하는 상태예측 모델을 통해 분산전원 연계에 따른 배전망 부하변동 예측, 배전망 위험도 예측 등의 정보를 제공한다. 마지막으로 I-SPAA는 배전설비 영상인식 인공지능 모델을 통해 배전설비의 상태정보를 제공하여, 사람의 개입 없이 고장 발생 우려 개소를 사전에 검출하고 예방조치를 가능하게 한다. 배전 자산 상태예측 시스템에 탑재되어 운영되는 배전 자산 상태예측 모델을 통해 제공되는 예측정보는 신재생에너지를 고려한 송배전 투자계획, 배전 선로 수용력 해석 또는 분산전원 입지분석 시 핵심 정보 등으로 활용되어, 분산전원 확대와 전력시장 변화가 가속화될수록 정보의 가치는 더욱 증대될 것이다.

배전 자산 상태예측 모델 개발에 있어, 확보된 학습 데이터의 양과 전처리를 통한 모델 학습 데이터 구성 방식에 따라 상태예측 모델의 예측 성능은 크게 좌우된다. 또한, 변동성이 큰 배전 선로의 특성으로 인해 상태예측 모델은 신규 발생 데이터에 대한 주기적인 학습을 수행하여 예측 성능을 일정 수준으로 유지하기 위해서는 학습용 데이터에 대한 지속적인 품질관리가 요구된다. 그림 1은 배전 자산 상태예측 모델 개발 및 예측 성능개선 프로세스를 보인다.

그림. 1. 배전 자산 상태예측 모델 개발 및 성능 관리 프로세스

Fig. 1. The process of developing machine learning data and managing the quality of electric distribution asset condition predictive model

../../Resources/kiee/KIEE.2021.70.9.1345/fig1.png

배전 자산 상태예측 모델의 학습용 데이터는 ‘특징 설계’를 통해 모델 학습에 활용될 데이터를 정의하고, ‘데이터 수집’ 단계와 ‘데이터 전처리’ 단계를 거쳐 생성된다. 최종 생성된 예측모델 학습 데이터는 모델 학습과 모델생성을 위한 ‘학습용 데이터 세트’, 모델검증을 위한 ‘검증용 데이터 세트’, 그리고 모델 평가를 위한 ‘테스트용 데이터 세트’로 구성된다. ‘모델검증’ 단계에서는 검증용 데이터를 기반으로 예측 모델의 일반화(Generalization) 정도와 과적합(Overfitting) 여부에 대한 정량적 분석을 통해 모델의 학습성능을 검증하고, 학습성능이 임계치에 미달 될 경우, 학습 횟수, 가중치 변경 등의 하이퍼파라이터(Hyper parameter)를 변경하거나 모델을 재학습한다(10). ‘모델 평가’ 단계에서는 서로 다른 특성을 갖는 한 개 이상의 ‘검증용 데이터 세트’를 구성하여, 배전 선로 부하 패턴이나 설비 특성에 따른 예측 모델의 성능을 비교 평가하고 기존의 운영 중인 예측 모델 혹은 다른 기계학습 알고리즘으로 개발된 예측 모델들과 성능 비교검증을 수행하여, 해당 상태예측 모델의 현장운영 적합성을 판단하게 된다(11). ‘상태예측 모델의 운영’ 단계에서는 현장운영 중인 상태예측 모델에 대한 지속적인 성능 모니터링을 수행하여, 배전망 환경변화에 따른 새로운 자산 상태 데이터의 발생과 데이터의 의미 혹은 패턴의 변화가 발생할 경우, 학습 데이터를 새롭게 구성하여, 그림 1의 프로세스를 반복 수행하게 된다.

3. 배전 자산 상태예측 모델 학습용 데이터 관리 표준

그림. 2. 배전 자산 상태예측 모델 학습용 데이터 관리 표준 프레임워크

Fig. 2. Data management standard framework for training distribution asset condition prediction model

../../Resources/kiee/KIEE.2021.70.9.1345/fig2.png

본 장에서는 배전 자산 상태예측 모델 개발의 효과성을 높이고 예측 신뢰도 향상 및 유지를 목적으로 모델 학습용 데이터 관리 업무의 표준 체계를 정의한다. 그림 2는 데이터 관리 표준 프레임워크를 보인다.

일반적으로 기계학습 과정은 그림 1과 같이 여러 단계를 거치게 되며, 모델의 정확도가 일정 수준까지 도달할 때까지 단계마다 조정을 거치면서 반복작업을 수행하기 때문에 기계학습 과정은 학습 과정에서 많은 시간을 필요로 하게 된다. 최근 들어, 학습 시간을 단축하고, 모델의 예측 성능을 높이기 위한 연구들이 시도되고 있다. Li는 GPU 컴퓨팅 자원의 분산화를 통해 기계학습 시간을 단축하고, 모델 성능을 높이고자 하였지만, 높은 컴퓨팅 자원 투자 비용과 컴퓨팅 자원의 전력 소비가 문제점으로 제기될 수 있다(12). Doan은 학습성능을 높이기 위한 목적으로 데이터의 정제(Cleansing)와 데이터 증강(Argumentation)의 중요성을 강조하면서 개체 해소 기법(Entity resolution) 기법을 제안하였지만, 특정 모델이나 응용 분야에 종속적이기 때문에 기술의 범용성은 떨어지는 것으로 평가된다(13). 예측 모델의 정확도를 높이고, 예측모델 학습에 소요되는 비용과 시간을 절감하기 위해서는 일련의 학습과정의 효율화와 데이터 전처리, 데이터 변환 등 여러 데이터 이슈를 해결하는 것이 중요하지만 아직까지 예측모델 학습용 데이터의 품질관리에 관한 연구는 미흡한 실정이다.

기계학습용 데이터의 관리 업무 프로세스는 관리 대상 데이터의 관리 수준에 따라 크게 ‘표준 데이터’, ‘구조 데이터’ 그리고 ‘흐름 데이터’의 업무 영역으로 정의한다. ‘표준 데이터’ 관리 영역에서는 기계학습용 데이터의 관리 수행을 위하여 업무 규칙을 정의하고, 업무 관련 용어를 표준화한다. 또한, 상태예측 모델이 적용되는 업무 영역별 데이터 타입(type), 데이터 길이(size), 업무 코드값을 정의한다. 즉, ‘표준 데이터’는 데이터 관리 업무에 대한 기초 정보들을 일정한 표기법에 따라 표현함으로써 기계학습용 데이터 관리 업무를 효율적으로 수행할 수 있도록 체계화한다. ‘구조 데이터’는 기계학습 데이터 관리 업무를 구조적 특성에 따라 ‘논리적 구조’와 ‘물리적 구조’로 구분한다. ‘논리 모델’은 ‘주제 영역’을 최상위 관리 단위로 하고, ‘엔티티’와 ‘속성’을 하위 관리 단위로 갖는 계층적 관리 구조를 가진다. ‘논리적 구조’에서는 관리 대상 데이터의 업무적 속성에 따라 ‘주제 영역’을 정의하고, ‘엔티티’는 한 개 이상의 ‘속성’을 가지며, 관리할 대상 데이터가 된다. ‘물리 모델’에서는 관리 대상 데이터가 저장되는 물리적인 공간을 정의하고, ‘논리 모델’의 ‘엔티티’는 ‘테이블’로 ‘속성’은 ‘컬럼(Column)’으로 대치되어 관리 표준을 정의한다. ‘흐름 데이터’는 데이터 수집, 데이터 전처리 그리고 기계학습 데이터 생성에 이르기까지의 데이터 업무를 관리하고 효율화하기 위해 ‘원천 테이블’과 ‘학습용 데이터 테이블’의 ‘매핑(Mapping) 규칙’을 정의한다. 또한, 배전 자산 상태예측 모델 학습용 데이터의 최신성, 정확성 그리고 상호연계성이 보장된 관리 업무를 수행하기 위하여, 그림 3과 같이 ‘데이터 품질관리 업무 프로세스’ 표준을 정의하고 각 단계별로 준수해야 할 데이터 관리 기준과 원칙을 정의한다.

‘계획 단계 품질관리’에서는 상태예측 모델 개발 기획 단계에서부터 모델 학습 대상이 되는 원천 데이터의 수집, 연계, 품질관리 계획을 수립한다. ‘구축 단계 품질관리’에서는 학습용 데이터 구축 시 준수해야 할 데이터 표준의 적용과 표준적용의 적절성에 대한 점검, 데이터 구조의 일관성 확보, 데이터 관리 산출물의 품질 확보에 대한 관리 업무를 수행한다. ‘운영 단계 품질관리’에서는 상태예측 모델 학습용 데이터를 운영하는 단계에서 준수해야 할 품질진단과 품질개선, 연계 시점에서의 정합성 유지 그리고 테이블 스키마와 같은 주요 산출물의 현행화 점검을 수행한다.

그림. 3. 배전 자산 상태예측 모델 학습용 데이터 관리 업무 프로세스

Fig. 3. Training data management process

../../Resources/kiee/KIEE.2021.70.9.1345/fig3.png

‘활용 단계 품질관리’에서는 상태예측 모델 학습용 데이터를 활용하면서 발생하는 품질 오류 신고 및 가치 품질 계획에 반영하기 위한 데이터 활용성과 등을 평가한다. 오류 데이터의 사후 개선은 원인분석에 장시간이 소요되는 등 오류 정제를 위한 비용과 노력이 많이 요구된다. 따라서, 제안하는 자산 상태예측 모델 학습용 데이터 품질관리 업무 표준은 원천 데이터 수집 단계에서부터 품질관리를 수행하여, 오류 데이터가 사전에 유입되는 것을 방지한다.

표 1. 연계 데이터 관리 항목

Table 1. Management items for data linkage

연계 데이터 관리 항목

설명

연계

정보

연계정보 구분

연계정보 제공 시 "제공", 활용 시 "활용"으로 정의

연계 정보명

연계정보가 무엇을 의미하는지 직관적인 수준의 명명

연계 주기

연계정보의 연계 주기 정의 (예: 실시간, 매주, 매월)

연계

항목

연계항목명

연계정보를 구성하는 세부 연계항목들에 대한 명칭

연계항목 설명

연계정보를 구성하는 세부 연계항목 정의

연계항목

데이터 타입

연계항목의 데이터 타입 정의

연계항목

데이터 길이

정의된 연계항목별 데이터 길이의 정의

연계

항목

출처

연계 데이터베이스명

연계항목을 제공 또는 활용하는 데이터베이스명

연계 테이블명

연계항목을 제공 또는 활용하는 테이블 명

연계 컬럼명

연계항목을 제공 또는 활용하는 칼럼 명

오너십 정의

제공 기관

연계정보를 제공하는 기관정보(기관명, 담당자, 연락처 등)

활용 기관

연계정보를 활용하는 기관정보(기관명, 담당자, 연락처 등)

표 1은 원천 데이터의 연계 정합성을 확보하기 위한 데이터 연계 관리항목을 정의한다. 연계 데이터 관리 항목은 크게 ‘연계정보’, ‘연계항목’, ‘연계항목 출처’, 그리고 ‘오너십(Ownership)’의 4가지 항목으로 구성된다. 연계 데이터 관리를 통해 원천 데이터 제공 시스템의 데이터베이스 변경 등으로 인한 연계 오류를 사전에 방지하고, 상태예측 모델 학습용 데이터의 변경이 발생할 경우에도 시스템 간 데이터 협조체계 구축을 통해 활용 시스템에 제공되는 데이터에 대한 신뢰성이 보장될 수 있도록 한다. 특히, 상태예측 모델의 예측 성능 저하 요인을 쉽게 파악하여 예측 모델의 성능이 개선될 수 있도록 기계학습 데이터 품질진단 및 분석 절차가 필요하다. 표 2는 배전 자산 상태예측 모델 학습용 데이터 품질진단 및 개선 절차를 보인다.

표 2. 예측 모델 학습용 데이터 품질진단 및 개선 절차

Table 2. 테이Machine learning data quality diagnosis and improvement process 블

품질진단

① 진단 대상 정의

품질 이슈에 대한 수용 및 현황조사를 통해 품질진단 대상 데이터 선정 및 진단 방법 정의

② 품질진단실시

품질진단 영역별 진단 시행

③ 진단결과분석

오류 원인분석, 예측 영향도 분석을 통한 개선 작업 계획

품질개선

④ 개선계획

품질개선 작업별 개선 방법 정의 및 추진계획

⑤ 개선수행

품질개선 영역별 품질개선 시행

⑥ 품질통제

목표 대비 결과 분석 및 평가를 통한 지속적 품질통제 수행

또한, 데이터 품질 진단의 효과성을 높이기 위하여 진단 기준을 정의하고 기준에 따른 품질진단을 수행한다. 배전 자산 상태예측 모델 학습용 데이터 품질진단 기준은 아래와 같다.

준비성: 상태예측 모델의 학습용 데이터 품질관리를 위해 기본적으로 관리해야 하는 정책, 규정, 조직, 절차 등을 마련하고 최신의 내용으로 충실하게 관리되어야 함

완전성: 데이터가 저장되는 테이블을 생성함에 있어 논리적인 설계와 물리적인 구조를 데이터 특성에 적합하게 갖추고, 업무 요건에 맞게 데이터가 저장되도록 함

일관성: 같은 의미를 갖는 데이터는 논리적 속성 단위, 물리적 컬럼 단위에서 일관된 이름과 형식을 갖도록 표준을 준수해야 하며, 데이터 공동활용을 위해 공유·연계하는 데이터는 누락 없이 상호 간의 일관성을 유지하여야 함

정확성: 정확한 데이터 제공을 위해 데이터의 입력 단계부터 오류가 입력되지 않도록 하고, 저장된 데이터가 정의된 기분에 맞게 유효한 값의 범위와 형식으로 되어 있어야 하며, 저장된 데이터가 현실에 가장 가까운 최신 값을 반영하고 있어야 함

그림. 4. 배전 자산 상태예측 모델 학습용 데이터베이스 구축

Fig. 4. Development of database for training machine learning based prediction model

../../Resources/kiee/KIEE.2021.70.9.1345/fig4.png

보안성: 지속적인 품질 확보를 위해 운영되는 학습용 데이터의 관리 주체가 정의되어야 하고, 권한에 따른 데이터 접근이 적절히 통제되어야 함. 또한, 개인정보 등 중요 데이터에 대해서는 암호화 등 보안 조치가 이루어져야 함

적시성: 사용자가 만족하는 수준의 응답시간이 확보되어야 하고, 사용자의 데이터 요구에 따른 수집·처리·제공까지의 절차가 체계적으로 관리되어야 함

유용성: 사용자가 만족하는 수준의 충분한 정보와 신뢰적인 정보가 제공되어야 하고, 정보 접근 시 사용자의 편의성이 확보되어야 하며, 사용자의 정보 이용에 따른 만족 수준을 높여야 함

4. 배전 자산 상태예측 모델 학습용 데이터베이스 구축

배전 자산 상태예측 모델 학습용 데이터베이스는 상태예측 모델의 운영목적에 따라 설비자산, 영상인식 기반 설비 순시, 배전 그리드 그리고 상태예측 모델검증의 4개 영역으로 구분되며, 각 도메인은 업무 속성별로 그림 4와 같이 하위 영역을 포함하고 있다. 다양한 데이터 원천에서 획득되거나 서로 다른 목적을 갖는 상태예측 모델별 기계학습 데이터를 단일 구조로 변환하고 통합적으로 관리하기 위해서는 데이터 구조와 데이터 간의 관계, 그리고 데이터 특성에 관한 정보인 메타데이터 관리가 필요하다. 메타데이터란 대상이 되는 데이터의 속성과 특성 및 다른 데이터와의 관계를 기술하여 해당 데이터의 관리를 돕는 역할을 하는 ‘데이터에 관한 구조화된 데이터’ 이다(14)-(15).

배전 자산 상태예측 모델 학습용 데이터베이스는 상태예측 모델의 업무 영역에 따라 설비자산, 영상설비자산 인식, 배전 그리드 그리고 상태예측 모델검증의 4개의 도메인으로 구분되며, 각 도메인은 업무 속성별로 그림 4와 같이 하위 도메인을 포함하고 있다. 다양한 데이터 원천에서 획득되거나 서로 다른 목적을 갖는 상태예측 모델별 기계학습 데이터를 단일 구조로 변환하고 통합적으로 관리하기 위하여 데이터 구조와 데이터 간의 관계, 그리고 데이터 특성에 관한 정보인 메타데이터를 관리한다.

그림. 5. 메타데이터 생성 프로세스

Fig. 5. Development process of metadata creation

../../Resources/kiee/KIEE.2021.70.9.1345/fig5.png

그림. 6. 웹 기반 배전 자산 상태예측 모델 학습용 데이터 관리시스템

Fig. 6. Web-based prediction model training data management system

../../Resources/kiee/KIEE.2021.70.9.1345/fig6.png

결과적으로, 메타데이터 관리를 통해 배전 자산 상태예측 모델 학습용 데이터를 자산화하여 관리 기능의 유연성과 확장성을 확보할 수 있으며, 데이터 의미 공유 및 교환이 용이하여 데이터의 유용성을 증가시키고 활용 가치를 향상시킨다. 상태예측 모델별 학습용 데이터의 통합관리를 위해 필요한 메타데이터의 범주는 ‘데이터 구조’뿐만 아니라, 3장에서 정의한 데이터 관리 표준에 따라 ‘데이터 흐름’ 그리고 ‘데이터 표준’이다. 그림 5는 메타데이터 구축 프로세스를 보인다. 프로시져 호출을 통해 작동하는 ‘메타수집 연계 SW’는 배전 자산 상태예측 모델 학습용 데이터베이스를 상시 모니터링하여 데이터 변경에 대한 메타정보를 수집하고, 변경 정보를 ‘메타데이터 레퍼지토리’에 저장한다. 메타데이터 구축 프로세스는 모델 학습용 데이터베이스에 대한 주기적인 모니터링을 통해 메타관리 테이블에 CRUD(Create, Read, Update, Delete) 기능을 수행하고, 관련된 테이블(공통코드, 기계학습용 데이터 테이블)과의 연계 처리를 포함한다.

표 3. 배전 자산 상태예측 모델 학습용 데이터 구축 현황

Table 3. Construction status of prediction model training data

모델 구분

테이블

메타(건)

속성

메타(건)

예측 모델 학습용

데이터(건)

설비자산

286

4,088

5,173,108,000

배전그리드

32

558

312,024,000

영상설비인식

104

1,696

53,322,000

합계

422

6,342

5,538,454,000

표 3은 배전 자산 상태예측 모델 학습용 데이터베이스 및 메타데이터 구축 현황을 보인다. 표 3의 ‘테이블 메타’는 모델 학습에 활용될 수 있는 데이터 집합인 테이블에 대한 정보를 의미하고, ‘속성 메타’는 모델 학습에 활용될 수 있는 데이터가 가지는 특징에 대한 정보를 의미한다. ‘21년 4월 기준 배전 자산 상태예측 모델 학습 데이터 관리를 위해 구축된 속성메타는 약 6천 건이고, 모델 학습용 데이터는 5,538,454 천 건이다. 상태예측 모델 운영 및 예측 성능개선 활동을 통해 해당 시점을 기준으로 월(Monthly)에 약 1만 건씩 증가할 것으로 예상한다.

5. 웹 기반 배전 자산 상태예측 모델 학습용 데이터 관리시스템 개발

그림. 7. 데이터 품질진단 규칙 설정 화면

Fig. 7. The capture of setting rules of quality diagnosis

../../Resources/kiee/KIEE.2021.70.9.1345/fig7.png

그림. 8. 데이터 품질진단 결과 정보 제공화면

Fig. 8. The capture of data quality diagnosis results

../../Resources/kiee/KIEE.2021.70.9.1345/fig8.png

배전 자산 상태예측 모델 학습용 데이터 관리시스템은 데이터 수집 단계에서의 데이터 정합성 분석과 데이터 품질 진단을 자동화하고, 주기적으로 주요 데이터 패턴의 변화수준을 파악하여, 상태예측 모델 재학습 등의 성능개선 활동 시 기초 정보를 제공한다. 또한, 예측 모델 학습용 데이터의 구축 현황과 품질 수준을 손쉽게 파악할 수 있는 시각화 화면을 제공하여 예측 모델 학습용 데이터 품질관리의 효과성을 높이고, 예측 모델 성능 향상에 도움을 줄 수 있다. 그림 6은 웹 기반 배전 자산 상태예측 모델 학습용 데이터 관리시스템의 데이터 구축 현황과 데이터의 품질진단 결과 현황을 보인다. 배전 자산 상태예측모델용 학습 데이터 관리 시스템에 탑재되어 매월 1회 작동하는 ‘데이터 품질진단 모듈’은 학습용 데이터의 정합성에 대한 품질진단을 자동 수행하고, 전월 대비 개선 결과를 자동 집계한다. 그림 6에서 제공되는 데이터 구축 현황과 데이터 품질 수준 정보를 통해 모델 학습에 활용 가능한 데이터 목록과 양(Volume)을 손쉽게 파악할 수 있어, 그림 1의 예측모델 생성을 위한 ‘특징 설계’ 단계에서 특징 선별을 위한 기초 자료로 활용할 수 있다.

본 논문을 통해 구축된 시스템은 그림 79에서 보이는 바와 같이, 품질진단 대상 데이터, 진단 항목, 그리고 진단 규칙의 설정이 쉽도록 사용자 인터페이스(User interface)를 제공하여, 선로 부하예측, 설비 잔존 수명 예측 그리고 이미지 기반 설비인식 등 업무 목적별로 서로 다른 상태예측 모델의 학습 데이터 특성에 적합한 데이터 품질진단 규칙(Rule)의 등록과 편집이 가능하며, 설정 규칙에 따라 품질진단이 주기적으로 자동 수행한다.

그림. 9. 품질진단 대상 관리 화면

Fig. 9. The capture of quality diagnosis target management

../../Resources/kiee/KIEE.2021.70.9.1345/fig9.png

또한, 그림 8과 같이 상태예측 모델 학습 데이터 품질진단 결과 화면을 제공하여 사용자로 하여금 예측모델 학습용 데이터 품질 수준을 쉽게 파악할 수 있어, 더욱 효율적이고 효과적인 데이터 품질관리와 예측 모델 성능개선이 가능하다. 뿐만 아니라, 설비자산 상태 추론, 이미지 기반 설비인식 등 상태예측의 업무 목적별로 ‘메타 수집·연계 모듈’이 상시 작동하여, 상태예측 모델 학습 데이터의 변경 사항을 실시간으로 모니터링하여 변경 이력을 자동으로 기록한다. 메타데이터의 변경 이력과 메타데이터 수집 현황은 그림 10과 같이 시각화하여 사용자에게 제공되며, 제공된 정보를 기반으로 학습 데이터의 특징을 선별하거나 예측 모델의 성능개선 방안을 도출할 수 있다. 웹 환경에서 운영되는 배전 자산 상태예측 모델 학습용 데이터 관리 시스템은 사용자 친화적인 사용자 인터페이스 제공을 통해 학습용 데이터 관리 업무를 효율화하여 고품질 모델 학습 데이터의 지속적인 생산을 가능하게 한다.

결과적으로 본 논문에서 개발한 상태예측 모델 학습용 데이터 관리 시스템을 통해 학습 데이터 확보를 위해 요구되는 기계학습 기반 상태예측 모델의 개발 비용을 절감하고, 예측 성능개선을 위한 기초 자료를 제공함으로써 상태예측 모델의 장기적인 예측 성능 유지를 가능하게 한다.

그림. 10. 예측모델 학습용 데이터 메타 구축 현황

Fig. 10. The meta data construction for predictive model training

../../Resources/kiee/KIEE.2021.70.9.1345/fig10.png

6. 결 론

신재생에너지의 배전망 연계확대에 따른 망 운영의 어려움을 해소하고, 비용 최소화를 고려한 신속한 배전망 투자 결정 및 설비 확충 등 배전 계획운영의 경제적이고 효과적인 의사결정을 위하여 빅데이터와 AI 기술이 융합한 배전 자산 상태예측 모델의 중요성이 날로 커지고 있다. 배전 자산 상태예측 모델의 예측정보는 신재생에너지를 고려한 송배전 투자계획, 배전 선로 수용력 해석 그리고 분산전원 입지분석 시 핵심 정보로 활용될 것이다.

배전 자산 상태 데이터를 기반으로 하는 상태예측 모델은 배전망의 끊임없는 변동성 때문에 예측 모델의 예측 성능을 유지하기 위해서는 주기적으로 학습을 수행하여야 하며, 고품질의 학습 데이터 구성을 위한 지속적인 데이터 품질관리가 반드시 필요하다. 이를 위해, 본 논문에서는 배전 자산 상태예측 모델 학습용 데이터 관리 표준을 정의하고 상태예측 모델 학습용 데이터 관리 시스템을 개발하여 배전 자산 상태예측 모델링의 계획부터 원천 데이터 수집, 기계학습 데이터 구축, 데이터 운영, 데이터 활용까지의 단계별 관리 활동을 자동화하였다. 결과적으로 본 논문에서 개발한 ‘배전 자산 상태예측 모델 학습용 데이터 관리시스템’을 통해 기계학습 기반 배전 자산 상태예측 모델 개발에 소요되는 경제적 비용과 시간을 단축하고, 우수한 성능을 갖는 배전 자산 상태예측 모델의 장기적인 현장적용이 가능하다.

향후에는 본 논문에서 개발된 시스템을 구성하는 데이터 품질관리 모듈들을 Open API로 구현하여, 다양한 목적을 갖는 기계학습 모델용 학습 데이터 관리 애플리케이션 개발에 쉽게 이용될 수 있도록 하고, 신재생에너지 수용확대를 고려한 배전망 계획운영의 경제성 및 효과성 확보를 목표로 하여 배전 자산 상태예측 모델 학습용 데이터뿐만 아니라 선로 부하예측, 신재생에너지 발전량 예측, 설비의 잔존 수명예측 등 다양한 예측정보의 공동활용 인프라 구축기술에 관한 연구를 수행하고자 한다.

References

1 
A Smola, S. V. N Vishwanathan, 2008, Introduction to machine learning, Cambridge University UK, Vol. 32, No. 34Google Search
2 
T. Meng, X. Jing, Z. Yan, W. Pedrycz, 2020, A survey on machine learning for data fusion, Information Fusion, Vol. 57DOI
3 
M. J. Wilemink, W. A. Koszek, C. Hardell, J. Wu, D. Fleischmann, H. Harvey, M. P. Lungren, 2020, Preparing medical imaging data for machine learning, Radiology, Vol. 295, No. 1DOI
4 
D. Xin, L. Ma, S. Macke, A. Parameswaran, 2019, Helix: accelerating human-in-the-loop machine learning, Proceeding of the VLDB Endowment, Vol. 11, No. 12Google Search
5 
N. Polyzotis, S. Roy, S. E. Whang, M. Zinkevich, 2017, Data management challenges in production machine learning, In Proceedings of the 2017 ACM International Conference on Management of DataDOI
6 
Y. Roh, G. Heo, S. E. Whang, 2019, A survey on data collection for machine learning: a big data-ai integration perspective, IEEE Transaction on Knowledge and Data Engineering.DOI
7 
A. Ratner, S. H. Bach, H. Ehrenberg, J. Fries, Wu, 2017, Snorked: Rapid training data creation with weak supervision, In Proceedings of the VLDB Endowment International Conference on Very Large Data Bases, Vol. 11, No. 3Google Search
8 
Chris Warren, 2019, Can Artificial Intelligence Transform the Power System?, KEPCO Journal on Electric Power and Energy, Vol. 5, No. 2DOI
9 
M.M. Hosseinin, 2021, Artificial intelligence for resilience enhancement of power distribution systems, The Electricity Journal, Vol. 34, No. 1DOI
10 
T. Ahmad, D Zhang, C. Huang, H. Zhang, N. Dai, Y. Song, H. Chen, 2021, Artificial intelligence in sustainable energy industry: Status Quo, challenges and opportunities, Journal of Cleaner Production, Vol. 125834DOI
11 
Haesung Lee, Byungsung Lee, Sangun Moon, Junhyuk Kim, Heysun Lee, 2020, Management automation technique for maintaining performance of machine learning-based power grid condition prediction model, KEPCO Journal on Electric Power and Energy, Vol. 6, No. 4DOI
12 
Haesung Lee, Byungsung Lee, Sangun Moon, Junhyuk Kim, Heysun Lee, 2020, Development of comparative verification system for reliability evaluation of distribution line load prediction model, KEPCO Journal on Electric Power and Energy, Vol. 6, No. 4DOI
13 
Mu. Li, D. G. Andersen, J. W. Park, A. J. Smola, A. Ahmed, V. Josifovski, B. Y Su, 2014, Scaling distributed machine learning with the parameter server, In proceedings of the 11th USENIX Symposium on Operating System Design and Implementation(OSDI)Google Search
14 
S. Mudgal, H. Li, T. Rekatsinas, A. Doan, Y. Park, G. Krishan, V. Raghavendra, 2018, Deep leaning for entity matching: ad design space exploration, In proceeding of ACM International Conference on Management of DataDOI
15 
E. Dvval, W. Hodgins, S. Sutton, S.L Weibed, 2002, Metadata principles and practicalities, D-lib Magazine, Vol. 8, No. 4Google Search

저자소개

이해성(Lee Hae-Sung)
../../Resources/kiee/KIEE.2021.70.9.1345/au1.png

1985년 2월 2일생. 2008년 경기대 컴퓨터과학과 졸업.

2010년 동 대학원 컴퓨터과학과 졸업(이학석사).

2015년 동 대학원 컴퓨터과학과 졸업(이학박사).

현재 한국전력공사 전력연구원 스마트배전연구소 선임연구원

Tel: 042-865-5929, Fax: 042-865-5939

E-mail : seastar@kepco.co.kr

이병성(Lee Byung-Sung)
../../Resources/kiee/KIEE.2021.70.9.1345/au2.png

1968년 8월 17일생.

1993년 충남대 전기공학과 졸업.

1995년 동 대학원 전기공학과 졸업(공학석사).

2006년 동 대학원 전기공학과 졸업(공학박사).

현재 한국전력공사 전력연구원 스마트배전연구소 수석연구원

Tel: 042-865-5910, Fax:042-865-5939

E-mail : bysung@kepco.co.kr