2.1 네트워크 환경 및 실제 보안로그
사이버 보안관제의 측면에서는 사용자 행위분석과 멀웨어 탐지 등의 위협을 탐지하는 기능, 네트워크 침입탐지, 어플리케이션 이용 공격, 특이사항 탐지를
포함하는 보안정보 및 이벤트 관리로 나뉠수 있다. 이중에서 인증우회, 인젝션, 디도스, 봇넷 공격 등에 대한 보안이벤트가 대량으로 발생하여 이를 처리하느라
다른 보안관제 업무를 처리하지 못하고, 또한, 보안이벤트 대부분 오탐으로 판명되어 많은 보안관제사의 리소스가 낭비되는 실정에 있다. 즉, 이벤트 증가로
인한 오탐과 미처리 이벤트 및 경보로 인한 보안관제 업무가 증가하고 있다. 보안관제시스템의 핵심업무는 모니터링이지만 현실적으로 이 모니터링을 방해하는
요인은 보안장비로부터 발생하는 대량의 이벤트 로그이다. 로그가 많이 발생하는 이유는 실제 공격이 많아서가 아니라, 부정확한 룰셋에 의한 오탐이 많아서
이다 (2).
현재 사용할 수 있는 보안로그는 방화벽과 IPS, DDoS, Anti- Spam, 악성코드 방지시스템, 접근제어시스템 등 에서 생성되는 로그로써,
장비에 탐지룰이 탑재되어있지만, 인공지능 학습을 위해 탐지룰 정보를 적용할 수 없고, 보안로그를 생성하였지만, 정확한 이유를 알 수 없는 로그가 존재하여서,
룰셋과 전체 서비스 등의 연관관계를 파악해야 한다.
아래 그림 1은 전력회사의 일반적인 네트워크 구조이다. 대부분이 인터넷망, 업무망, FA망, DAS, SCADA 망등이 분리되어 운영중에 있고, 대부분의 사이버공격은
인터넷망에서 이루어지고 있다.
인터넷망에서는 1일 평균 약 12,000건 정도의 보안이벤트가 발생하고 있고, 이중 10,000건은 IPS 등에서 자동 차단되며, 약 2,000건
이 보안관제사가 상세 분석해야하는 대상으로 표출되고 있다. 대부분 Payload Header/Body에 공격 인자를 포함하여 불법수정, 위변조, 시간
변경, 가장, 재연, 부인 등의 공격이다. 그리고 전송되는 데이터에 멀웨어, 바이러스, 트로이 목마, 스파이웨어, 랜섬웨어 등을 포함하여 공격을 시도하는
것을 알 수 있었다. 또한, 데이터의 무결성을 위협하기 위해 Spoofing, 악성 Bot, 버퍼 오버플로우 공격 등도 있다. 인터넷망은 네트워크,
서버, 보안장비, PC, DBMS 등의 기술적 취약점과 웹 및 이메일 공격에 대한 기술적 취약점을 갖고 있음을 알 수 있다. 표 1에 인터넷망에 대한 업무내역과 주요 데이터경로를 도시하였다.
그림. 1. 전력회사의 일반적인 네트워크 연결도
Fig. 1. General network connection diagram of utility company
한전 인터넷망으로 유입되는 공격에 대하여, KISA 에서 제공하는 Web 취약점 정보를 이용하여 공격유형을 분류하였고, KISA 및 OWASP Top
10 유형과 현재 한전 관제 항목의 연관 관계를 분석하여 5개 공격 유형으로 매핑을 하였으며
그림 2와 같이 관계도를 도출하였다. 다양한 공격유형이 있지만, 결국에는 SQL Injection, 크로스사이트 스크립팅, 파일 다운로드/업로드, 비인가접근
의 5가지 공격유형으로 분류할 수 있다.
표 1. 전력회사의 인터넷망 업무내역
Table 1. Tasks in the Internet network for utility company
업무 역할
|
이용자
|
데이터 경로
|
홈페이지
|
외부인
직원
|
회사 외부단말 ↔ 홈페이지
내부 인터넷PC ↔ 홈페이지
|
인터넷메일
|
직원
|
회사 내・외부 ↔ 인터넷PC/Mobile단말
|
인터넷PC
|
직원
|
내부 인터넷PC ↔ 인터넷 ISP
|
공개망
|
외부인
직원
|
회사 외부단말 ↔ 전자입찰/ 사이버지점・교육, 내부 OA망PC ↔ 전자입찰/사이버지점・교육
|
그림. 2. 공격 유형 정의
Fig. 2. Definition of Cyber Attack type
현재 보안관제시스템은 IPS에서 발생하는 보안이벤트에 의존하여 관제를 진행중에 있다. IPS에서 발생하는 이벤트 중 하루 2,000여건의 허용(알람)
이벤트는 대부분 오탐 및 무의미 데이터이며, 이 중 실제 공격이벤트는 평균 약15건으로 낮은 비율(0.75%)이지만 허용이벤트 중에 실제 공격이 포함되어
있으면 치명적이므로 필히 분석하여 대응하여야 한다. 그러므로 허용이벤트 속에 포함된 실제 공격을 찾아내기 위해 관제사가 2,000여건(1일) 을 일일이
다 분석해야만 하는 상황이다.
실제 전력회사의 보안로그 중 인터넷망에서 발생하는 이벤트를 수집하여 인공지능학습에 사용하였으며, 이는 4장에서 다루기로 한다. 네트워크는 약 200개의
서버, 13대의 IPS, 5개의 공격, 수량을 알 수 없는 클라이언트 PC로 구성된다. 수집기간은 2020년 2월 6일부터 3월 11일 까지 총 35일이며,
IPS에서 수집한 로그는 394,369건으로 724종의 탐지명을 포함하고 있다. 이중 약 40%에 해당하는 로그만 학습 가능하고 나머지 로그는 페이로드가
없거나, 단순 Test 패킷등으로 무의미 데이터로 사용할 수 없는 것으로 판단되었다. 특히, 보안이벤트 중 60%를 차지하는 무의미데이터는 페이로드가
눈으로 식별할 수 없는 형태로 되어있어서, 보안관제사가 처리할 수 없는 형태의 데이터이지만, 이벤트를 클릭해서 보기 전에는 알 수 없는 형태로 되어있다.
따라서 보안관제사는 이러한 무의미데이터를 일일이 열어보고 제외하는 반복적이고 시간소비적인 일을 어쩔 수 없이 진행해 오고 있었다. 주요 이벤트 유형과
예시 내용은 그림 3과 같다.
그림. 3. 주요 보안이벤트 유형
Fig. 3. Major security event types
IPS에서 생성되는 보안이벤트는 Defense 와 Alarm 으로 구분되며, Defense의 경우는 차단 룰셋과 정확히 일치하여 해당 패킷을 차단한
후 통보하는 경우이고, Alarm의 경우에는 룰셋과 일치하지는 않지만 유사한 경우로써, 보안관제사의 분석이 필요한 이벤트로 분류된다.
보안관제사가 분석해야 하는 Alarm 이벤트를 5가지 공격유형으로 분리하고, 면밀히 분석한 결과, 35일 동안 수집한 총 2,451개 중 1,942개
가 공격패킷이 아닌 정상패킷으로 분류되었고, 이는 전체 이벤트의 79.23% 를 IPS가 잘못 판단하여 이벤트로 전송하였다는 결과를 도출할 수 있었다.
결국 509개(35일, 평균 14.5개/1일)의 공격만이 네트워크에 존재하였다는 것을 알 수 있다. 이러한 현상은 어느 특정 IPS 장비의 문제가
아니라, 이미 알려진 룰셋에 의존하여 보안이벤트를 생성하는 모든 IPS 장비에 해당하는 문제이다. 이를 표 2에 나타내었다.
표 2. 실제 네트워크에서의 IPS 오탐율
Table 2. False Positive Rate in real network
공격명
|
이벤트수
|
오탐수
|
오탐률
|
SQL 인젝션
|
152
|
131
|
86.18
|
Cross Site Scripting
|
375
|
0
|
0
|
File Upload
|
58
|
36
|
62.07
|
File Download
|
504
|
475
|
94.25
|
비인가접근
|
1362
|
1300
|
95.45
|
계
|
2,451
|
1,942
|
79.23
|
2.2 인공지능학습을 위한 데이터셋
KDD CUP99, CICIDS2018 등 사이버보안 테스트를 위한 유명한 데이터셋은 대부분 임의로 만들어진 로그로써, 실제 이벤트로그와는 많은 부분
다르다. 실제 데이터에는 비정상 데이터를 많이 수집할 수 없어서 이를 이용한 인공지능학습은 비지도학습을 제외하고는 사실상 불가능하고, 실계통에서의
문제 해결에는 전혀 도움이 되지 않을 수 있다. 사이버 보안 관련하여 다양한 데이터셋이 제공되고 있지만, 실환경과 유사한 완벽한 데이터셋은 아직 나오지
않았다.
KDD-CUP99는 DARPA에서 네트워크 이상탐지 또는 공격판별 테스트를 위해 만든 데이터셋으로써, 지속시간, 프로토콜 종류 등 41개의 속성과
공격여부를 라벨링한 정보까지 총 42개의 속성을 가지고 있다 (3). CIC-IDS-2018 은 캐나다 사이버보안연구소에서 Brute force, Heartbleed, Botnet, DDos 등 6가지 공격시나리오를
생성하여 수집한 데이터셋으로써 80개의 속성을 가지고 있다 (4). HTTP CSIC 2010은 스페인의 국립연구소에서 웹공격 방어시스템의 테스트 용도로 생성한 데이터셋으로서 18개의 속성을 가지고 있다 (5). CSIC 2010 은 HTTP 페이로드의 위변조 등 일부분을 피쳐로 가지고 있는 것이 특징이다. KDD CUP 99 와 CIS IDS 2018
데이터셋은 이상탐지학습으로 사용가능하며, CSIC 2010이 정오탐 탐지를 위해 사용가능함을 알 수 있다.
다음장에서는 실제 네트워크에서 수집가능한 피처들을 설명하고, 또한 수집된 피처와 CSIC 2010 데이터셋을 이용하여 인공지능학습 수행후, 비교분석해
보도록 하겠다.