• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Information Control Engineering, Hoseo University, Korea.)



EEG Signals, LSTM, STFT, Deep Learning, PCA, Data Mining, GAN, Pearson Correlation

1. 서 론

EEG(Electroencephalography) 는 뇌의 전위차를 통해 계측되는 생체신호다. 뇌의 전위차는 대뇌피질의 신경세포에서 발생하게 되는 전기신호에 의해 발생하게 된다. 즉 인체의 변화에 따라 대뇌피질의 신경세포는 새로운 전위차를 발생한다. 발생된 EEG는 0 ~ 50Hz까지 다양한 인체의 정보를 담은 생체신호를 전기신호로 나타낸다(1). 각 전기신호는 대역폭마다 나타내는 특징이 다르다. 행동 식별에 큰 특징을 보이는 뇌파 대역폭은 8 ~ 30Hz이며 이는 $\alpha$와 $\beta$영역으로 표현된다(2). EEG는 많은 인체 정보를 가질 수 있으며 경우의 수가 많아 분석하기 어려운 신호였다. 딥 러닝의 발전은 EEG를 분석할 수 있는 새로운 방향을 제시해 주었다. EEG는 인체의 변화에 따라 수많은 형태를 나타내지만, 반복적인 동작에는 유사한 EEG의 형태가 나오는 것이 확인되었다. 유사 형태의 EEG 신호는 딥 러닝 학습을 통해 다양한 어플리케이션 제작에 사용된다. EEG와 딥 러닝의 응용은 BCI(Brain Computer Interface) 시스템 구축에도 사용된다.

지금까지 EEG를 계측하기 위해서는 멀티 센서와 전문적인 분석 장비가 요구되었다. 간단한 EEG 데이터의 계측과 분석을 위해서도 고가의 장비와 전문 인력이 요구된다. 계측된 EEG는 ‘잡음’의 방해로 규칙적이지 못한 데이터가 다수 발생하기 때문이다. 해당 문제는 지도 학습으로 진행될 딥 러닝 학습에 정확도를 하락시키는 문제의 원인이 된다(3).

계측된 EEG 신호에서 BPF(Band Pass Filtering)를 이용하여 원하는 대역의 신호를 모을 수 있다. 본 논문의 BPF는 FFT (Fast Fourier Transform)와 IFFT(Inverse Fast Fourier Transform) 프로그램을 이용하여 설계된다. 또한 시간의 흐름에 따라 변화되는 뇌파의 진폭은 뇌파가 인체의 정보를 나타내는 방법이다. 즉 시계열과 주파수 변화를 한 번에 확인할 수 있는 데이터 변환방안으로 STFT(Short Time Fourier Transform)변환을 사용하였다. STFT 변환된 데이터는 시계열 학습에 용이한 딥러닝 모델인 LSTM(Long Short Term Memory)모델을 사용하여 학습한다. 프로그램은 LabVIEW를 이용한 계측 시스템과 파이썬을 이용하여 딥 러닝 알고리즘을 구성하였다.

본 논문에서는 2-Ch 소수센서를 사용하여 EEG 계측 및 딥 러닝 행동 식별 학습을 진행하였다. 초기 계측된 EEG 데이터들 중, 학습에 용이한 양질의 데이터를 선별하기 위해 반복 평가를 이용한 데이터 마이닝 기법이 사용된다. 양질의 데이터를 선별하여 학습 특징 경계를 명확히 함으로써, EEG 데이터가 나타내는 명확한 행동 특징을 학습할 수 있게 한다. 선별된 데이터로 인하여 부족한 데이터는 GAN(Generative Adver- sarial Networks) 알고리즘을 이용하여 데이터의 수를 증식한다. 증식 과정에서 다양한 양상의 데이터를 취득하기 위해 IOU(Intersection Over Union)과 PCA(Principal component analy- sis)를 이용하였다. 대량의 데이터는 피어슨 상관관계 알고리즘을 이용한 학습 주파수 대역 확인, 데이터 축소를 통하여 학습속도를 증진시킨다.

2. EEG 의 계측과 전처리

EEG 데이터를 계측하기 전, 목표에 맞는 데이터 계측 시스템을 설계하는 것은 중요한 일이다. EEG 데이터에서는 주파수 대역마다 다른 정보를 가지고 있다. 각 주파수 대역마다 나타내는 특정 인체정보가 존재하며, 본 논문에서 사용될 EEG 데이터는 신체 행동에 반응하는 EEG 데이터다.

2.1 FFT & IFFT를 이용한 EEG BPF

신체 행동에 변화하는 EEG데이터는 주로 8 ~ 30Hz의 $\alpha$ ~ $\beta$영역에서 나오게 된다(4). 처음 계측된 원신호의 EEG 데이터에서 특정 주파수 대역을 가져오기 위해서는 BPF를 사용해야 한다.

(1)
$F(w)=\int f(x)e^{-jwx}dx$

(2)
$f(x)=\dfrac{1}{2\pi}\int F(w)e^{jwx}dw$

(1)(2)는 FFT와 IFFT를 나타낸다. 즉 원신호인 $f(x)$를 이용하여 주파수 성분의 $w$를 표현할 수 있는 FFT와 표현된 주파수 집합인 $F(w)$를 다시 신호 $f(x)$로 변형하는 IFFT이다.

즉 BPF는 FFT를 통해 원신호 $f(x)$의 $e^{-jwx}$에 의하여 나오게 되는 $w$주파수 성분의 집합인 $F(w)$에서 8 ~ 30Hz의 $w_{b}$주파수를 잘라내게 된다. 즉 8 ~ 30Hz의 주파수 성분을 $F(w_{b})$라고 하면, 이를 이용하여 IFFT 변환을 진행한 8 ~ 30Hz의 BPF신호 $f(w_{b})$가 출력된다. 즉 $f(w_{b})$의 신호는 실험에서 사용할 $\alpha$와 $\beta$의 EEG 파형만 계측된다.

2.2 STFT

EEG의 행동 분류 및 식별에 대한 실험을 진행할 때, 데이터 특징을 찾는 부분은 시간에 따른 신호의 변화이다. 즉 시계열의 영역과 주파수 영역 모두 학습을 해야 EEG의 행동 분류 모델을 생성할 수 있는 것이다. STFT 변환된 EEG 신호는 시간의 흐름에 따라 변화하는 주파수 대역을 보여준다.

(3)
$S(m,\:k)=\sum_{n=0}^{N-1}s(n+m N')w(n)e^{-j\dfrac{2\pi}{N}nk} $ $k = 0,\:1,\:2,\: ... ,\: N-1$

그림 1의 STFT 데이터는 3차원의 데이터로 시간, 주파수, 진폭을 한 번에 보여 줄 수 있다. STFT는 (3)에 따라 EEG 데이터를 STFT 변환하게 된다(5). $w(n)$에 정해진 윈도우에 의하여 N 샘플링만큼 FFT 변환된다. FFT 변환된 주파수에 대한 진폭을 표시 후, $N'$만큼 이동, 및 다시 FFT 변환을 하게 된다. 과정을 반복하게 되면 S(m,k)에 의해 위의 STFT 데이터가 나오게 된다. (3)에 의해 설정되는 $N'$에 의해 STFT 데이터의 샘플링 사이의 겹침의 정도를 $N$과 $N'$의 수치조절을 통해 설정할 수 있다. 위에서 주어진 설정 값들은 모두 딥 러닝 학습결과에 영향을 준다(6).

그림. 1. STFT 변환된 EEG 신호의 형태

Fig. 1. The shape of the STFT-converted EEG signal

../../Resources/kiee/KIEE.2021.70.12.1924/fig1.png

2.3 LSTM과 모델 구조

EEG 데이터는 시간에 따른 주파수 변화를 통해 정보를 표현한다. 즉 딥 러닝 모델 역시 시간 영역의 학습에 유리한 모델을 선택해야 한다. FNN(Feedforward Neural Network)구조의 모델보다는 RNN 모델을 선택해야 한다. RNN모델은 이전 입력값에 대한 가중치(Weight)가 다음 입력값의 가중치에 영향을 주는 학습방식이다. 즉 입력값의 변동에 따라 학습 결과가 달라지는 모델이다. 하지만 RNN 모델을 사용할 경우 일정 시간 이상의 학습을 진행할 경우, 가중치의 값이 0 혹은 $\infty$으로 발산하는 기울기 소실 및 폭주 문제가 발생하게 되어, 학습 결과를 확인할 수 없게 된다. 그림 2는 본 논문에서 사용된 딥 러닝 모델인 LSTM의 내부 구조이며, 그림 3은 딥 러닝 알고리즘의 전체적 구조인 ‘Many to one'이다.

그림. 2. LSTM 모델의 내부 구조

Fig. 2. The structure of the LSTM model

../../Resources/kiee/KIEE.2021.70.12.1924/fig2.png

그림. 3. ‘Many to One’ LSTM 딥러닝 구조

Fig. 3. Many to one LSTM deep learning architecture

../../Resources/kiee/KIEE.2021.70.12.1924/fig3.png

RNN의 기울기 소실 및 폭주의 문제가 그림 2의 Cell state($C_{t}$)와 Forget gate($f_{t}$)를 이용하여 해결 및 개선한 모델이 LSTM 모델이다(7). $f_{t}$는 이전 값$h_{t-1}$에 대해 어느 정도 기억을 할 것인가를 0 ~ 100% 반영률을 정하게 된다. 이로 인하여 $\infty$으로 발산하거나 0으로 수렴하게 되는 문제를 $C_{t}$와 함께 해결할 수 있는 것이다. 즉 LSTM에 시계열 값을 $X_{t}$로 입력 하여 결과 값인 $h_{t}$를 확인함으로써, 딥러닝 모델의 결과를 확인할 수 있게 된다. LSTM을 이용한 모델구조는 LSTM의 모델과 결과 $h_{t}$의 사용을 어떤 방법으로 할 것인지에 따라 다양한 방법이 존재한다. 행동 구별을 지도학습을 목적으로 하고 있기 때문에, 다수의 입력을 이용하여 LSTM 마지막 결과만 얻어내는 그림 3과 같은 ‘Many to One’ 모델 구조를 형성하였다. 그림 4는 LSTM 모델을 이용하여 제작한 EEG 행동 구별 프로그램의 전체 구조이다.

그림. 4. EEG 알고리즘 블록 다이어그램

Fig. 4. EEG algorithm block diagram

../../Resources/kiee/KIEE.2021.70.12.1924/fig4.png

그림 4와 같이 [데이터의 수 × 주파수 대역 × 시간]의 입력데이터인 [1 × 78 × 30]의 [입력은 출력 데이터의 수 × 출력 행동]의 [1 × 1] 데이터가 출력된다.

2.4 Data Mining을 이용한 데이터 선별

EEG 데이터를 측정할 때 외부요인으로 인한 잡음으로 인하여 사용할 수 없는 데이터가 발생하게 된다. 즉 문제가 되는 데이터를 지도학습에서 라벨링하여 사용하게 될 경우, 특징을 분별할 수 없는 낮은 정답률의 모델이 나오게 된다. 이런 현상을 방지하기 위해 사용하는 것이 데이터 마이닝 기법이다. 계측한 학습 데이터 군집단에서 양질의 학습 데이터를 얻기 위해 데이터 마이닝을 진행한다.

그림 5는 계측된 EEG 군집에서 학습에 사용할 수 있는 양질의 데이터를 선별하기 위한 데이터 마이닝 알고리즘이다.데이터 마이닝에는 EEG 분별 학습과 동일한 모델인 LSTM이 사용된다. 데이터 선별 알고리즘을 거치기 전의 학습 데이터 군집단은 일정비율의 학습과 검증 데이터로 무작위 분류된다. 분류된 데이터는 반복되는 학습에서 부터 모델을 생성하는데 사용된다. 모델은 반복된 학습 수만큼 생성된다.

그림. 5. 데이터 선별 알고리즘 블록 다이어그램

Fig. 5. Data Mining Algorithm block diagram

../../Resources/kiee/KIEE.2021.70.12.1924/fig5.png

모델은 모두 딥 러닝 학습에서 일정 이하의 손실값과 기준 이상의 정확도중 최고점의 모델을 저장한다. 저장된 모델들은 전체 데이터인 ‘Whole EEG data’ 군집단을 각각 검증하게 된다. 즉 각 모델에서는 검증에 성공한 데이터와 검증에 실패한 데이터가 ‘Result data’로 나오게 된다. ‘Result data1 ~ N’까지의 데이터를 확인할 경우, 반복적이게 통과한 EEG 데이터가 존재한다. 일정 회수 이상을 반복적으로 통과한 데이터만을 선별하여 이를 ‘Mining data’ 군집으로 다시 학습 데이터를 형성한다. ‘Mining data’ 군집의 학습 데이터는 처음 계측한 EEG 데이터에서 학습 불가능한 잡음이 있는 데이터가 일정이상 제거된 양질의 데이터 군집이 된다.

2.5 GAN을 이용한 데이터 증식

그림 5의 데이터 선별 알고리즘에 의해 선별된 데이터의 수는 처음 계측한 수에 비하여 줄어든 상태이다. 이는 학습 데이터의 부족으로 이어지게 되며, 학습 모델의 신뢰도 저하 문제로 이어지게 된다. GAN 알고리즘은 부족한 데이터를 증식할 수 있는 알고리즘이다(8).

(4)
$\min_{G}\max_{D}V(D,\:G)=$ $R_{(x)}[\log D(x)]+ F_{(z)}[\log(1-D(G(z))]$

그림. 6. GAN 알고리즘 블록 다이어그램

Fig. 6. GAN Algorithm block diagram

../../Resources/kiee/KIEE.2021.70.12.1924/fig6.png

그림 6은 사용된 GAN 알고리즘의 흐름도이다. GAN 알고리즘의 생산자(Generator) 데이터를 생성하는 역할을 한다. 판별자(Discriminator)는 입력된 데이터가 생산자에 의해 생성된 거짓(Fake) 데이터인지 실제(Real) 데이터인지 구분하는 역할을 한다. (4)에서 ‘실제’ 데이터(x)와 노이즈 데이터(z)에 의해 생성된 ‘거짓’ 데이터 G(z)가 있다. ‘실제’ 데이터 검증 결과$D(x)$와 ‘거짓’ 데이터의 검증 결과 $D(G(z))$에 의해 판별자 모델은 학습된다. 생산자 모델은 판별자 모델에 ‘거짓’ 데이터로 판별될 경우, 더욱 ‘실제’데이터와 가까운 데이터를 만들기 위해 학습 값을 변경한다. 만약 판별자 모델을 생산자의 ‘거짓’ 데이터로 ‘실제’ 데이터라 속일 경우, 판별자 모델이 더욱 생산자 모델의 ‘거짓’데이터를 잘 구별할 수 있도록 학습 가중치를 변경하게 된다.

하지만, 학습이 오래 지속될 경우 생산자 모델은 결과적으로 실제 데이터와 동일한 데이터를 만들게 된다. GAN의 목적은 실제 데이터와 동일한 데이터를 만드는 것이 아닌, 실제데이터와 유사한 데이터를 만드는 것이다. 즉 GAN 알고리즘의 생산자 모델이 생산하는 군집단과 실제 데이터의 군집단의 유사성을 판단할 기준이 필요하다. 기준은 IOU알고리즘을 PCA그래프에 적용함으로써 해결하였다.

(5)
$IOU =\dfrac{Area of l ap}{Area of Un ion}$

PCA는 고차원의 데이터를 저차원의 데이터로 변환하는 방법으로 알려져 있다(9). 고차원의 데이터를 저차원의 데이터로 최소한의 정보손실을 통해 변환하기 위해서는 남은 차원에 대한 데이터 정보가 중요해진다. 즉 군집에 있는 STFT의 데이터를 PCA 변환하게 되면, 군집 데이터의 양상을 확인할 수 있는 것이다. PCA 데이터 분포양상을 도형으로 나타내어 실제 데이터의 PCA 분포양상과 GAN 알고리즘에 의해 생성된 거짓 PCA 그래프의 IOU 수치 비교를 통해 군집 유사도를 확인할 수 있다.

그림 7은 IOU 수치는 도형의 전체와 겹쳐진 부분의 비율을 계산하여 0 ~ 1사이의 수치로 보여준다. (5)에서 연산되는 IOU점수가 PCA그래프와 생성된 가짜 EEG데이터에 따라 어떻게 변동되는지 보여준다. 주황색 영역은 GAN 알고리즘에 의해 생성된 거짓 데이터 군집의 PCA 그래프이다. 파란색은 실제 데이터 군집의 PCA 그래프이다. 즉 두 개의 PCA 그래프를 도형으로 표현 후, IOU수치로 나타낼 경우 두 군집의 유사도를 확인할 수 있다. 해당 알고리즘을 이용하여 유사성이 일정 이상 달성하는 데이터를 수집할 경우 실제 데이터와 같은 데이터뿐만 아닌, 학습 특징에서 벗어나지 않는 다양한 데이터 유형을 얻어낼 수 있다.

그림. 7. (a) 낮은 IOU PCA 그래프 (b) 높은 IOU PCA 그래프

Fig. 7. (a) Low IOU PCA graph (b) High IOU PCA graph

../../Resources/kiee/KIEE.2021.70.12.1924/fig7.png

2.6 피어슨 상관관계 기법을 이용한 데이터 용량 감소

그림. 8. 피어슨 상관관계 분석 블록다이어그램

Fig. 8. Pearson correlation analysis block diagram

../../Resources/kiee/KIEE.2021.70.12.1924/fig8.png

그림 8은 두 개의 무작위 EEG 데이터가 피어슨 상관관계 알고리즘에 의해 측정된 피어슨 점수가 반영된 피어슨 점수 주파수 대역폭 그래프가 출력되는 순서도이다. 피어슨 상관관계 비교는 두 그래프의 유사성을 확인할 수 있는 방법 중 하나이다. 피어슨 수치로 인하여 정방향 혹은 역방향의 유사성에 따라 -1 ~ 1사이의 수치로 표현된다(10). 피어슨 상관관계를 이용하여 데이터 마이닝과 GAN에 의해 선별 및 증식된 데이터의 특징 주파수 탐색을 목적으로 한다. 선별된 데이터 군집과 GAN 군집에서 무작위로 두 개의 데이터를 선택한다. 선택된 두 데이터는 피어슨 상관관계 알고리즘에 의해 피어슨 점수를 얻게 된다. 일정 이상의 피어슨 점수가 측정될 경우, 측정된 주파수대역에 점수를 분배하는 방법을 사용하였다. 즉 높은 점수를 받은 주파수 대역은 높은 유사성을 가지는 EEG 형태가 다수 발견되는 것이다.

계측된 EEG 데이터 군집내의 데이터 유사도에 대한 주파수 대역 피어슨 점수 그래프를 출력한다(11). 비교하고자 하는 군집의 그래프를 비교함으로써, 특징이 발생하는 주파수 대역을 확인할 수 있다. 확인된 주파수 대역은 딥 러닝 학습이 높은 정답률을 달성하는데 도움을 주는 주파수 데이터이다. 외에 특징이 발생하지 않는 주파수 대역은 딥 러닝에 큰 영향을 미치지 않는 데이터이다. 즉, 딥 러닝에 큰 영향을 미치지 않는 데이터를 제거함으로써, 데이터의 크기는 줄어들게 되며 이는 딥 러닝의 학습속도와 판별속도의 증진효과를 얻을 수 있게 된다. 물론 주파수 대역에 대한 데이터는 제거되지만, 딥 러닝 결과에 큰 영향을 주지 않는 데이터이므로 잃은 EEG 데이터 정보의 크기보다 얻게 되는 이점이 많은 알고리즘이다.

3. 실험 환경

EEG 계측환경은 데이터 품질에 영향을 준다. EEG는 주변 환경에 의해 변형이 쉽게 일어난다. 즉 학습 데이터를 계측할 때는 주변 환경과 계측 환경을 동일하게 맞추는 것이 중요하다.

3.1 계측 방법 및 계측 환경

EEG 계측을 위해 부착 전극위치를 정해야 한다. 실험의 목적은 행동 분별 EEG 계측이므로, 전두엽의 EEG 계측을 진행하였다. 그림 9는 EEG의 반복적 계측을 위한 행동 지표이다(12). 그림 10은 EEG 계측을 위한 전극의 위치이다. 행동은 오른손의 ‘쥠’과 ‘폄’을 계측함으로써, 손을 주먹 쥐는 행동과 손바닥을 펴는 행동을 'Action', 아무 행동 하지 않는 것을 ‘Normal'로 계측할 것이다(13). 즉 우리는 오른손에 따른 EEG 변화를 확인하기 위해, Fp1-A2의 EEG를 확인하여야한다(14).

그림 9의 행동지표에서 손을 쥐는 타이밍과 펴는 타이밍은 $\alpha$Hz의 beep 음을 통해 알려줄 것이다. 계측 시작 3초 이후 beep음이 울리게 되면 ‘손동작’을 진행하거나 ‘무반응’을 하게 된다. 손을 주먹 쥐거나, 손바닥을 펴는 행동을 하게 될 경우 이는 ‘Action' 군집단으로 분류된다. 만약 ’무반응‘을 하게 된다면 이는 'Normal' 군집단으로 분류한다. 데이터로 저장되는 구간은 경고음이 울린 이후 $\beta$초 만큼을 데이터로 가져온다(15). 위의 지표를 반복하며 데이터를 계측하게 된다.

그림. 9. EEG 계측 지표

Fig. 9. EEG measurement time table

../../Resources/kiee/KIEE.2021.70.12.1924/fig9.png

그림. 10. EEG 전극 센서 부착 위치

Fig. 10. Location of EEG electrode sensor attachment

../../Resources/kiee/KIEE.2021.70.12.1924/fig10.png

그림 11은 사용하는 LabVIEW의 GUI이며 데이터의 시각화와 위에서 언급한 FFT, IFFT를 통한 BPF와 STFT 변환 및 데이터 저장, 행동 타이밍의 알림의 역할을 수행한다.

그림. 11. EEG 계측 LabVIEW 프런트패널

Fig. 11. LabVIEW front panel of EEG instrumentation

../../Resources/kiee/KIEE.2021.70.12.1924/fig11.png

계측 프로그램은 LabVIEW를 사용하였다. LabVIEW 프로그램을 이용하여 프로그램 계측, FFT와 IFFT를 이용한 BPF, 데이터의 저장을 진행하였다. LabVIEW 프런트 패널에서 계측에 필요한 STFT의 설정 값을 설정하고 계측을 진행할 경우 EEG 데이터를 시각화 하여 확인할 수 있다.

3.2 계측 데이터

EEG 계측에는 초당 5000Hz의 샘플속도가 사용되었다. 데이터는 'Action'과 ‘Normal' 각각 200개의 훈련데이터를 준비하였으며 ’Train'과 ‘Test’의 데이터 비율은 8:2로 나누어 딥러닝 데이터를 준비하였다. 그림 12(a) ~ (d)는 차례대로 계측된 EEG가 STFT로 변환되는 과정이다.

그림. 12. 계측된 EEG (a) 원신호 (b) BPF 처리신호 (c) BPF 처리신호의 FFT (d) BPF 처리신호의 STFT

Fig. 12. Measured EEG (a) raw signal (b) BPF processing signal (c) FFT of BPF processing signal (d) STFT of BPF processing signal

../../Resources/kiee/KIEE.2021.70.12.1924/fig12.png

계측된 EEG의 그림 12(c)를 확인할 경우, FFT의 그래프가 8 ~ 30Hz외에는 모두 제거된 것을 확인할 수 있다. 즉 그림 12(a)에서 그림 12(b)의 파형은 FFT와 IFFT를 이용한 BPF가 적용되었음을 확인할 수 있다. FFT 그래프를 확인함으로써 STFT에 변환된 주파수대역의 데이터는 모두 8 ~ 30Hz의 정보라는 것을 확인할 수 있다. STFT 데이터 특정상 설정되는 주파수 해상도의 값에 따라 사용해야할 주파수 대역의 범위가 변하는 단점이 있다. 하지만 위와 같은 방법을 이용한다면, 주파수 대역의 범위에 영향을 받지 않고 나타내어지는 데이터 전체를 사용하여 실험을 진행 할 수 있다.

4. 실험 결과

실험을 위해 계측된 EEG 원신호는 'Action'과 'Normal' 각각 200개이다. 원신호 데이터는 위에서 설명한 과정을 따라 STFT EEG 데이터로 변형되어 데이터 선별 알고리즘, IOU GAN, 피어슨 상관관계 알고리즘에 의해 데이터 전처리가 진행되었으며, LSTM 모델로 구현된 EEG 행동 분별 딥 러닝 프로그램에 의해 EEG 행동 분별의 정답률을 측정하여 모델의 신뢰성을 확인하였다.

4.1 데이터 선별 실험

그림 13은 데이터 선별 알고리즘을 거치기 전과 거친 후의 EEG 데이터 군집의 특징양상을 보여주는 PCA 그래프이다.

그림. 13. 데이터 선별 결과 (a) PCA 이전 그래프 (b) PCA 이후 그래프

Fig. 13. Data mining result (a) before PCA graph (b) after PCA graph

../../Resources/kiee/KIEE.2021.70.12.1924/fig13.png

반복 학습에 사용되는 ‘Train’과 ‘Test’ 데이터 비율은 8:2로 나누어 학습을 진행하였다. 데이터 선별 알고리즘에 의해 선별된 데이터는 320개의 학습 데이터 중 86개의 ‘Action’과 144개의 ‘Normal’ 데이터이다. 그림 13의 PCA그래프에서, 파란색 점은 ‘Action’ 군집단을 주황색 점은 ‘Normal' 군집단을 나타낸다. 'Action’ 데이터를 확인하면 데이터 마이닝에 의해 데이터의 수는 크게 줄어들었지만, 특징경계가 구별되는 것을 확인할 수 있다. 이는 학습의 기준점이 생긴다는 뜻을 나타내며, ‘Action' EEG를 계측할 때 'Normal'과는 다른 형태의 EEG가 발생한다는 것을 의미한다. 그림 14는 데이터 선별 알고리즘을 거치기전 EEG 군집의 학습 결과와 거친 후의 EEG 군집의 학습 결과를 보여준다.

그림. 14. 데이터 선별 정확도 (a) 선별 이전 딥 러닝 그래프 (b) 선별 이후 딥 러닝 그래프

Fig. 14. Data mining accuracy (a) deep learning graph before PCA (b) deep learning graph after PCA

../../Resources/kiee/KIEE.2021.70.12.1924/fig14.png

거치기 전의 (a) 그래프는 약 68%의 최고검증확률을 보여주며, 거친 후의 (b) 그래프는 86%의 최고검증확률을 보여준다. 데이터 마이닝 알고리즘에 의해 생긴 데이터간의 특징 경계는 LSTM 모델 정답률을 확인할 경우 학습에 효과가 있음을 보여준다. Loss의 감소 속도는 확연하게 빨라졌으며, 동일한 Epochs의 학습에서 더 높은 검증 결과를 보여준다. 즉 데이터 마이닝 알고리즘의 실험 결과는 고품질의 데이터 군집단이 딥 러닝 학습에 어떤 영향을 주는지 확인할 수 있는 결과를 보인다.

4.2 GAN 실험

그림 15는 선별된 데이터를 일반적인 GAN과 IOU GAN의 차이점을 PCA그래프로 보여준다. 그림 16의 그래프는 IOU GAN을 이용하여 증식된 데이터를 이용한 학습 결과이며 94%의 최고검증확률을 보여준다. 표 2표 3의 ‘Data Mining’ 선별 학습 결과와 ‘Data Mining GAN’ 군집단의 학습 결과 비교는 학습 데이터의 수가 모델의 검증 결과에 주는 영향력을 확인 시켜준다. 특징이 구별되도록 데이터 마이닝을 이용하여 데이터 선별을 하더라도 데이터의 부족은 딥 러닝 모델의 정확도를 최대로 올리지 못하는 것이며, 이를 GAN을 이용하여 해결하였음을 보인다.

그림. 15. (a) 선별된 군집단의 PCA 그래프 (b) GAN 이후 군집단의 PCA 그래프 (c) IOU GAN 이후 군집단의 PCA 그래프

Fig. 15. (a) PCA graph of the selected group (b) PCA graph of the group after GAN (c) PCA graph of the group after IOU GAN

../../Resources/kiee/KIEE.2021.70.12.1924/fig15.png

그림. 16. 선별된 데이터와 IOU GAN 데이터 학습 결과

Fig. 16. Learning result of mining and IOU GAN data

../../Resources/kiee/KIEE.2021.70.12.1924/fig16.png

표 1. EEG 데이터 평가 지표(혼돈 행렬)

Table 1. EEG data evaluation index(confusion matrix)

label

prediction

Action

Normal

Action

TP(True Positive)

FP(False Positive)

Normal

FN(False Negative)

TN(True Negative)

표 2. GAN 데이터 학습 결과(정확도)

Table 2. GAN data learning result(accuracy)

Train data

Test data

Accuracy

W/O data Mining

320

80

68%

Data Mining

184

46

86%

W/O data Mining GAN

5320

80

62%

Data Mining GAN

5184

46

92%

Data Mining IOU GAN

5184

46

94%

표 3. GAN 데이터 학습 결과(민감도, 특이도)

Table 3. GAN data learning result(sensitivity, specificity)

sensitivity

specificity

W/O data Mining

55%

80%

Data Mining

83%

91%

W/O data Mining GAN

45%

80%

Data Mining GAN

92%

92%

Data Mining IOU GAN

92%

96%

(6)
$accuracy=\dfrac{TP+TN}{TP+FP+FN+TN}$

(7)
$sens iv y=\dfrac{TP}{TP+FP}$

(8)
$spec\mathrm{if}ic y=\dfrac{TN}{TN+FN}$

표 2표 3표 1의 혼돈 행렬(Confusion Matrix)을 기반으로 하여 평가되어진 정확도(accuracy), 민감도(sensitivity), 특이도(specificity)를 나타낸다. 혼돈행렬에는 TP(True Positive), FP(False Positive), TN(True Negative), FN(False Negative)로 표현된다. 이 때 긍정(Positive)에 해당하는 값을 ‘Action'을 지정하였으며, 부정(Negative)에 해당하는 값을 ’Normal'로 지정하여 딥러닝 성능을 평가하였다. 각 딥러닝 평가 지표는 (6)~(8)과 같이 계산된다.

‘W/O data Mining’와 ‘W/O data Mining GAN’의 비교는 데이터의 수가 많아지더라도 딥 러닝 학습 결과는 저하되는 것을 보여준다. 이는 학습의 특징 경계가 제대로 보이지 않는 군집을 GAN을 이용해 증식하여도 학습 결과는 개선되지 않음을 보여주며, 학습 특징 경계가 정확이 분류된 군집에 GAN 데이터 증식을 사용해야 함을 보여주는 실험 결과이다.

본 논문에서 개선된 IOU GAN은 GAN만을 이용한 결과와 다른 결과를 보인다(16). 그림 15(b)의 경우는 데이터 마이닝에 의해 선별된 데이터를 GAN 프로그램이 원본 데이터와 거의 동일한 데이터를 생성할 수 있을 정도로 Generator를 학습 시킨 경우이다. 즉 ‘Data Mining GAN'은 원본데이터와 GAN데이터가 95 ~ 99%의 유사도를 보이는 데이터 군집이다. 반면 그림 15(c)의 경우는 IOU 알고리즘과 GAN을 혼합 이용하여 원 신호와 다른 유형의 데이터부터 거의 유사한 데이터를 모아 놓은 것이다. 즉 ’Data Mining IOU GAN'은 원본데이터와 GAN데이터가 80 ~ 99%의 유사도를 보인다. 위의 실험은 GAN 알고리즘의 효율과 증식을 효과적이게 하는 방안에 대해 알아보는 실험을 동시에 진행하였다. 두 개의 GAN 데이터 군집은 동일하게 5000개의 증식데이터와 데이터 마이닝 알고리즘 선별 데이터를 합하여 실험을 진행하였다. 두 군집 모두 정답률의 향상은 확인되었지만, 더 다양한 유형의 데이터가 있는 'Data Mining IOU GAN' 군집단이 더 높은 정확도를 보였다. 본 실험은 GAN을 이용하여 효과적인 데이터 증식을 위해서는 원본과 동일한 데이터를 증식하기 보다는 원본과는 유사성이 떨어지더라도 특징을 유지하는 다양한 형태의 데이터를 증식하는 것이 더 효과적임을 보여준다.

4.3 피어슨 상관분석 실험

그림. 17. 피어슨 상관관계 알고리즘에 의해 분포된 피어슨 점수 주파수 대역

Fig. 17. Pearson score frequency bands distributed by Pearson correlation algorithm

../../Resources/kiee/KIEE.2021.70.12.1924/fig17.png

표 4. 피어슨 상관관계 학습 결과

Table 4. Pearson Correlation Learning Results

Train data

Test data

Accuracy

Data Mining

IOU GAN data

5184

46

94%

Pearson Correlation Processes data

5184

46

94%

그림 17은 피어슨 상관관계 알고리즘의 그림 8에 의해 출력된 결과이다. 표 4는 피어슨 상관관계 알고리즘을 이용하여 표 2의 ‘Data Mining IOU GAN’ 군집단에서 많은 차이를 보이는 피어슨 점수의 주파수 대역만을 학습한 군집인 ‘Correlation Processes data’와의 비교실험이다. 그래프에서 학습되는 주파수 대역폭은 피어슨 점수의 차이가 큰 12 ~ 25Hz로 축소하였다. 피어슨 상관관계 알고리즘은 군집내의 주파수 파형의 유사성을 확인하여 유사성이 높게 나타나는 주파수 대역에 높은 피어슨 점수가 그림 17과 같이 주어진다. 이는 군집내의 딥 러닝 학습 특징이 피어슨 점수가 차이 나는 주파수 대역에 있는 것이다. 차이가 나는 주파수 대역만을 이용하여 학습한 군집인 ‘Correlation Processes data’는 기존의 ‘Data Mining IOU GAN'와 딥 러닝 학습 결과에서 차이를 보이지 않는다. 이는 제거된 EEG 정보가 있음에도 불구하고 실질적 학습에 특징을 분별할 수 있는 정보는 유지되었음을 의미하며, 해당 알고리즘을 이용하여 데이터 크기 축소를 통한 학습 속도 증진효과를 가져 올 수 있다.

5. 결 론

2-CH EEG 센서에서 계측된 데이터는 부족한 정보와 노이즈로 인해 낮은 딥러닝 학습 검증 결과를 보여준다. 본 논문에서 제안된 데이터 선별기법은 라벨링된 EEG 데이터 군집 내부에서 고품질 데이터 선별을 통한 딥러닝 검증을 통해 향상의 결과를 확인할 수 있었다. 하지만 데이터 선별은 데이터 부족 현상의 원인이 되며, 이는 딥러닝 모델의 신뢰성을 저하시키는 원인이 된다.

이 문제는 IOU GAN을 이용하여 부족한 데이터의 수를 증식시킬 수 있었으며, 원본 데이터와 유사한 수준의 데이터를 증식함으로써 다양한 데이터까지 얻을 수 있었다. 이는 딥러닝 검증 결과를 향상시키는데 큰 기여됨을 보였다. 다만, 다수의 증식으로 인한 과도한 데이터양은 딥러닝 학습시간 증가의 원인이 된다.

피어슨 상관분석 알고리즘은 EEG 데이터 간의 특징이 출력되는 주파수 영역을 확인함으로써 데이터 수를 감소시킬 수 있었다. 이는 학습 속도의 개선하고, 저장 공간 확보하면서, 딥러닝 검증 결과에는 영향을 주지 않음을 확인하였다. 본 논문에서 제안된 알고리즘과 기법들은 BCI 어플리케이션에서 경제성, 신뢰성을 고려하면서 보다 쉬운 접근을 가능하게 할 것이며, 더 다양한 종류의 행동 식별 연구가 기대된다. 뇌의 전위차는 대뇌피질의 신경세포에서 발생하게 되는 전기신호에 의해 발생하게 된다. 즉 인체의 변화에 따라 대뇌피질의 신경세포는 새로운 전위차를 발생한다. 발생된 EEG는 0 ~ 50Hz까지 다양한 인체의 정보를 담은 생체신호를 전기신호로 나타낸다(1). 각 전기신호는 대역폭마다 나타내는 특징이 다르다. 행동 식별에 큰 특징을 보이는 뇌파 대역폭은 8 ~ 30Hz이며 이는 와 영역으로 불린다(2). EEG는 많은 인체 정보를 가질 수 있으며 경우의 수가 많아 분석하기 어려운 신호였다. 딥 러닝의 발전은 EEG를 분석할 수 있는 새로운 방향을 제시해 주었다. EEG는 인체의 변화에 따라 수많은 형태를 나타내지만, 반복적인 동작에는 유사한 EEG의 형태가 나오는 것이 확인되었다. 유사 형태의 EEG 신호는 딥 러닝 학습을 통해 다양한 어플리케이션 제작에 사용된다. EEG와 딥 러닝의 응용은 BCI(Brain Computer Interface) 시스템 구축에도 용이하게 사용될 수 있다.

지금까지 EEG를 계측하기 위해서는 멀티 센서와 전문적인 분석 장비가 요구되었다. 간단한 EEG 데이터의 계측과 분석을 위해서는 고가의 장비와 전문 인력이 요구된다. 계측된 EEG는 ‘잡음’의 방해로 규칙적이지 못한 데이터가 다수 발생하는 문제가 발생하였다. 해당 문제는 지도 학습으로 진행될 딥 러닝 학습에 정확도를 하락하는 문제를 일으킨다(3).

계측된 EEG 신호에서 BPF(Band Pass Filtering)를 이용하여 원하는 대역의 신호를 모을 수 있고 FFT(Fast Fourier Trans- form)와 IFFT(Inverse Fast Fourier Transform)를 이용하여 설계된다. 또한 시간의 흐름에 따라 변화되는 뇌파의 진폭은 뇌파가 인체의 정보를 나타내는 방법이다. 즉 시계열과 주파수 변화를 한 번에 확인할 수 있는 데이터 변환방안으로 STFT(Short Time Fourier Transform)변환을 사용하였다. STFT 변환된 데이터는 시계열 학습에 용이한 딥러닝 모델인 RNN(Recurrent Neural Network)에서 개선된 LSTM(Long Short Term Memory)모델을 사용하여 학습한다. 프로그램은 LabVIEW를 이용한 계측 시스템과 파이썬을 이용하여 딥 러닝 알고리즘을 구성하였다.

본 논문에서는 2-Ch의 소수센서를 사용하여 EEG 계측 및 딥 러닝 행동 식별 학습을 진행하였다. 소수의 센서를 사용하여 즉 계측되는 정확하지 못한 EEG 데이터들 중, 학습에 용이한 데이터를 선별하기 위해 반복 평가를 이용한 데이터 마이닝 기법이 사용된다. 양질의 데이터를 선별하여 학습 특징 경계를 명확히 함으로써, EEG 데이터가 나타내는 명확한 행동 특징을 학습할 수 있게 한다. 선별된 데이터로 인하여 부족한 데이터는 GAN (Generative Adversarial Networks) 알고리즘을 이용하여 데이터의 수를 증식한다. 증식 과정에서 다양한 양상의 데이터를 취득하기 위해 IOU(Intersection Over Union)과 PCA(Principal component analysis)를 이용하였다. 대량의 데이터는 피어슨 상관관계 알고리즘을 이용한 학습 주파수 대역 확인, 데이터 축소를 통하여 학습속도를 증진시킨다.

Acknowledgements

This research was supported by Korea Electric Power Corporation. [Grant number : R21XO01-14].

References

1 
Saeid Sanei, A. Jonathon, 2013, Chambers. EEG signal processing, John Wiley & SonsGoogle Search
2 
Hun Jeong Eun, 2019, Basics of electroencephalography for neuropsychiatrist, Journal of Korean Neuropsychiatric Association, Vol. 58, No. 2, pp. 76-104DOI
3 
S. B. Hong, K. Y. Jeong, 2003, Basic Electrophysiology of the Electroencephalography, J Korean Neurol Assoc, Vol. 21, No. 3, pp. 225-238Google Search
4 
Min-Cheol Whang, 2007, A Research on EEG Synchroni- zation of Movement Cognition for Brain Computer Interface, Journal of the Ergonomics Society of Korea, Vol. 26, No. 2, pp. 167-171DOI
5 
A. Zabidi, 2012, Short-time Fourier Transform analysis of EEG signal generated during imagined writing, 2012 International Conference on System Engineering and Tech- nology (ICSET). IEEEDOI
6 
M. Kemal Kıymık, 2005, Comparison of STFT and wavelet transform methods in determining epileptic seizure activity in EEG signals for real-time application, Computers in biology and medicine, Vol. 35, No. 7, pp. 603-616DOI
7 
Sherstinsky Alex, 2020, Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network, Physica D: Nonlinear Phenomena, 132306, Vol. 404DOI
8 
Frid-Adar Maayan, 2018, GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification, Neurocomputing, Vol. 321, pp. 321-331DOI
9 
Zhang Tonglin, Yang Baijian, 2016, Big data dimension reduction using PCA, 2016 IEEE international conference on smart cloud (SmartCloud). IEEEDOI
10 
Risqiwati Diah, 2020, Feature selection for EEG-based fatigue analysis using pearson correlation, 2020 International Seminar on Intelligent Technology and Its Applications (ISITIA). IEEEDOI
11 
Angel Guevara Miguel, Corsi-Cabrera María, 1996, EEG coherence or EEG correlation?, International Journal of Psychophysiology, Vol. 23, No. 3, pp. 145-153DOI
12 
Jaeseok Heo, Kyungmi Chung, 2019, EEG recording method for quantitative analysis, Korean Journal of Clinical Laboratory Science, Vol. 51, No. 4, pp. 397-405DOI
13 
Seung-Bo Lee, 2019, Comparative analysis of features extracted from EEG spatial, spectral and temporal domains for binary and multiclass motor imagery classification, Information Sciences, Vol. 502, pp. 190-200DOI
14 
Hyun-ju Lee, Dong-il Shin, 2014, The classification algorithm of users’ emotion using brain-wave, The Journal of Korean Institute of Communications and Information Sciences, Vol. 39, No. 2, pp. 122-129DOI
15 
Vito Moretti Davide, 2003, Computerized processing of EEG–EOG–EMG artifacts for multi-centric studies in EEG oscillations and event-related potentials, International Journal of Psychophysiology, Vol. 47, No. 3, pp. 199-216DOI
16 
S. U. Park, J. H. Han, S. K. Hong, 2021, A Study on Behavioral Differentiation EEG Data Selecting Algorithm Using LSTM and PCA, 24th International Conference on Electrical Machines and Systems (ICEMS), to be published, 2021DOI

저자소개

Sang-Uk Park
../../Resources/kiee/KIEE.2021.70.12.1924/au1.png

He obtained his B.S. in Digital Control Engi- neering from Hoseo University, Korea in 2020.

Currently, he is pursuing the M.S. in Information Control Engineering from Hoseo University, Korea.

His research interests include EEG signal processing and IoT system control.

Ji-Hoon Han
../../Resources/kiee/KIEE.2021.70.12.1924/au2.png

He obtained his B.S. and M.S in Digital Control Engineering from Hoseo University, Korea in 2019 and 2021.

Currently, he is pursuing the Ph.D in Information Control Engi- neering from Hoseo University, Korea.

His research interests include deep learning and motor control.

Sun-Ki Hong
../../Resources/kiee/KIEE.2021.70.12.1924/au3.png

He received the B.S., M.S. and Ph.D degrees in Electric Engineering from Seoul National University, Korea in 1987, 1989 and 1993, respectively.

He joined Hoseo University, Korea, in 1995, where he is currently a Full Professor with the Department of Digital Engineering.

His research interests include hysteresis motor analysis, electric motor analysis and design, motor fault diagnosis, servo motor control, converter and inverter design, deep learning and IoT.