• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Department of Biomedical Engineering, KonKuk University, Korea)
  2. (Hanwha Systems Co.,Ltd)
  3. (Agency for Defense Development, Korea)
  4. (Dept. of Nursing, Cheju Halla University, Korea)



Hidden Markov Model, Gaussian Mixture Model, Continuous Wavelet Transform

1. 서 론

심장은 가슴의 왼쪽에 위치하며 심장 내부로 혈액을 들여보내고 인체로 보내는 역할을 하는 인체 순환기관이다(1). 심전도(Electrocardiography)는 심장의 근육 세포 내부와 외부에 존재하는 $Na^{+},\: Ca^{2+},\: K^{+}$ 이온의 상대적인 농도 차에 의해서 발생하며(2,3) 심장의 비정상적인 움직임을 측정하고 진단하는 가장 좋은 수단이다(4). 심장 질환이 의심되는 환자를 진단하기 위하여 24시간동안 심전도를 측정하는 홀터 모니터링 시스템을 사용하고 있으며 의사는 이를 검사하여 환자를 진단한다. 하지만 의사가 수많은 환자들의 24시간동안 측정된 모든 심전도 파형을 진단하기에는 한계가 존재한다. 따라서 심전도의 QRS 검출은 후속 진단에 많은 역할을 제공하므로(5) 자동 분류기를 이용하여 QRS를 검출한다면 의사들의 심장 질환 환자 진단에 유용할 것이다. 현재 많은 연구자들이 Multilayer Perceptron Neural Network(MLPNN)(7), Support Vector Machine (SVM)(7), Fuzzy C-Means clustering(FCM)(8), Fuzzy Clustering Neural Network(FCNN)(9), 와 같은 기계학습 분류 알고리즘들을 이용하여 QRS 검출을 위해서 연구하고 있다(6). 하지만 위와 같은 기계학습 알고리즘은 수많은 데이터를 분류하는데 있어서 연산량이 상당히 많다는 단점을 가지고 있다(10). 따라서 본 논문에서는 은닉 마코프 모델(Hidden Markov Model)을 QRS 검출에 이용하고자 한다. 은닉 마코프 모델은 확률 통계론에 뿌리를 두고 있으며 학습이 완료될 경우 분류에 필요한 연산량이 다른 알고리즘에 비하여 적다는 장점이 있다. 따라서 웨어러블 홀터 모니터링 시스템에 검출 알고리즘을 적용 할 수 있으며 이를 이용하여 환자의 심전도 진단을 실시간으로 진행할 수 있는 이점이 있다. 따라서 본 논문에서는 은닉 마코프 모델을 심전도에 맞게 모델링하고 전문가가 직접 심전도의 P-QRS-T 파형의 위치를 지정해 놓은 QT-Database(2)를 이용하여 학습을 진행하였다. 학습 시 특징 추출을 위하여 Mexican Hat 모함수를 이용하여 연속 웨이블릿 변환을 사용하였으며 은닉 마코프 모델이 심전도 QRS 검출 학습에 최적화되기 위한 조건을 연구하기 위하여 모함수의 스케일 변화에 따른 오차율 차이와 심전도 레코드의 배치사이즈 차이에 의한 오차율 차이를 연구하고자 하였다.

2. 이론적 배경

2.1 ECG(Electrocardiography)의 원리

심전도는 심장의 내부와 외부의 이온들의 차이로부터 발생하는 생체 전위이다. 심장 내부와 외부에는 $Na^{+},\: Ca^{2+},\: K^{+}$같은 이온들이 존재하며 이러한 이온들의 농도차로 인하여 약 -90mV의 정지 막 전위 (resting membrane potential)라 불리는 전위차를 형성하고 있다. 동방 결절(sinoatrial node)은 심장이 정지 막 전위로부터 약 +30mV의 활동 전위를 일으켜 탈분극(depolarization)이 일어나도록 기준 이상의 전압을 만들어주는 역할을 수행한다. 동방 결절에 의하여 기준 이상의 전압이 전달되면 탈분극이 일어나고 이후 다시 정지 막 전위로 돌아가 재분극(repolarization)이 일어난다.

그림. 1. 심장의 전기적 특성(12)

Fig. 1. Electrical properties of the heart

../../Resources/kiee/KIEE.2019.68.11.1425/fig1.png

이러한 탈분극과 재 분극은 심장 근육을 수축과 이완 시키며 이로 인하여 심장은 인체 곳곳으로 혈액을 공급하게 된다(11). 심전도는 심장의 수축과 이완에 따라 그림 1과 같이 P파, QRS파, T파로 나누어지는데 각각의 전기 신호들은 심장의 전기 전도적 특성에 따라 발생되어지는 전기 신호들의 합에 의해 발생되어진다. P파는 동방 결절로부터 발생되어진 전기적 신호가 심방(atrium)을 통하여 전달되고 심방이 탈분극 될 때 발생하는 신호이다. P파 신호는 약 80 ~ 100[ms] 동안 발생한다. QRS파는 방실 결절로부터 발생되어진 전기적인 신호에 의하여 심실이 탈분극 될 때 발생되는 신호로서 약 0.5 ~ 4 mV로 가장 높은 크기를 보인다. T파는 심실이 재 분극 할 때 발생되는 파형으로 일반적으로는 약 200ms 동안 발생한다(12).

2.2 은닉 마코프 모델 (Hidden Markov Model)

시간성이 존재하지 않는 특징벡터는 순서를 바꾸어도 문제가 생기지 않는다. 하지만 시간성이 존재하는 특징벡터의 순서를 바꾸면 특징벡터 고유의 물리적인 특성이 왜곡되어 패턴을 잃어버린다. 은닉 마코프 모델은 시간성을 가지는 순차 데이터(sequential data)를 데이터가 가지는 고유의 시간성에 따른 패턴을 확률론으로 풀어낸 모델이다.

은닉 마코프 모델은 구분하고자 하는 기호에 따라서 각각을 상태(state)로 나누어 간주한다. 각각의 상태는 다음 상태로 전이하는 확률인 상태 전이 확률 행렬(state transition probability matrix) $A$를 가지고 있으며 각각 고유한 관측 확률(obserbation probability) $b_{j}(v_{k})$를 가진다. 식(1)는 상태 전이 확률 행렬 $A$를 나타낸 것이다. 은닉 마코프 모델이 동작하기 위해서는 초기에 확률을 지정해야 하므로 초기 상태 확률 벡터(initial state probability vector) $\pi$가 필요하게 된다. 따라서 은닉 마코프 모델 $\Theta$는 식(2) 과 같이 정의 된다.

(1)
$$ A=\left|\begin{array}{ll}{a_{11} a_{12} a_{13}} \\ {a_{21} a_{22} a_{23}} \\ {a_{31} a_{32} a_{33}}\end{array}\right| $$

이때, $a_{ij}= P(o_{t}=v_{j}|o_{t-1}=v_{i})$,$a_{ij}\ge 0$, $\sum_{j=1}^{m} a_{i j}=1$을 만족

(2)
$\Theta =(A,\:B,\:\pi)$

은닉 마코프 모델을 학습시키기 위해서는 관측 벡터 $O$의 확률을 최대화 하는 $\Theta$를 찾아야 한다. 이때 관측벡터 $O$를 이용하여 $\Theta$를 최적화 해야 하는데 이때 EM 알고리즘의 일종인 바움-웰치(Baum-Whelch)알고리즘(13)을 사용한다. 바움-웰치 알고리즘은 EM알고리즘에 바탕을 두고 있으므로 기대(Expectation)와 최대화(Maximization) 두 가지 단계를 거치게 된다. E 단계에서는 은닉 마코프 모델의 기댓값을 구하고 M단계에서는 우도(likelihood)를 최대로 만드는 값을 찾는다. 이 때 $A,\:B,\:\pi$의 최적화 값을 찾을 수 있다. 표 1은 바움-웰치 알고리즘의 가상 코드를 나타낸 것이다.

학습을 통해 최적화된 은닉 마코프 모델 $\Theta$를 알고 있다면 관측 벡터 $O$를 통해 $O$에 해당하는 최적 상태 열을 찾을 수 있다. 최적 상태 열을 찾기 위해서는 $P(O,\: Q|\Theta)$를 기준 함수로 채택하고 이것을 최대로 만드는 $\hat Q$을 찾아 얻을 수 있다. 이 때 후보 상태열의 개수는 $n^{T}$이고 후보마다 $2T-1$개의 곱셈을 해야 하므로 상당한 연산 량이 필요하게 된다.

표 1. 바움-웰치 알고리즘의 가상 코드

Table 1. Fault simulation results

순서

알고리즘 목차

1

$\Theta$ 를 초기화 한다.

2

$O$와 $\Theta$ 를 가지고

$\alpha_{t}(i),\:1\le t\le T,\: 1\le t\le n$와

$\beta_{t}(i),\:1\le t\le T,\: 1\le t\le n$를 구한다.

3

$\alpha$와$\beta$로

$\gamma_{t}(i),\:1\le t\le T,\: 1\le t\le n$와

$\kappa_{t}(i,\:j),\:1\le t\le T-1,\: 1\le i,\: j\le n$를 구한다.

4

$\gamma$와 $\kappa$를 가지고 $a_{ij}^{new}$, $1\le i,\:j\le n$을 추정한다.

5

$\gamma$를 가지고$b_{i}\left(v_{k}\right)^{\neq w}$,$\: 1\le i\le n,\: 1\le k\le m$을 추정한다.

6

$\gamma$를 가지고 $\pi_{i}^{\neq w},\:1\le i\le n$을 추정한다.

7

$\Theta$를 새롭게 구해진 $\hat\Theta =$$(A^{\neq w},\:B^{\neq w},\:\pi^{\neq w})$로 갱신한다.

8

2~7단계를 만족할 때까지 갱신한다.

9

최종적으로 갱신되어진 $\hat\Theta$ 를 $\Theta$로 사용한다.

이때,

(3)
$\alpha_{t}(i)=P(o_{1},\:o_{2},\:\cdots ,\:o_{t},\:q_{t}=s_{i}|\Theta)=\begin{bmatrix}\sum_{j=1}^{n}\alpha_{t-1}(j)a_{ji}\end{bmatrix}*b_{i}(o_{t)}$

(4)
$\beta_{t}(i)=P(o_{1+1},\:o_{2+2},\:\cdots ,\:o_{T}=s_{i}|\Theta)=\begin{bmatrix}\sum_{j=1}^{n}a_{ij}b_{j}(o_{t+1})\beta_{t1}(j)\end{bmatrix}$

(5)
$\gamma_{t}(i)=P(q_{t}=s_{i}|O,\:\Theta)=\dfrac{\alpha_{t}(i)\beta_{t}(i)}{\sum_{j=1}^{n}\alpha ,\:t(j)\beta_{t}(j)},\:1\le t\le T,\:1\le i\le n$

(6)
$\kappa_{t}(i,\:j)=\dfrac{\alpha_{t}(i)a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j)}{\sum_{k=1}^{n}\sum_{l=1}^{n} \alpha_{t}(k)a_{kl}b_{l}(o_{t+1})\beta_{t+1}(l)}$

$\alpha_{t}(i)$ : 전방 확률(Forward Probability)

$\beta_{t}(i)$ : 후방 확률(BackwardProbability)

$\gamma_{t}(i)$ : 모델 $\Theta$와 관측벡터 $O$가 주어진 조건 하에서 $t$일 때 상태 $s_{i}$에 있을 확률

$\kappa_{t}(i,\:j)$ : 모델 $\Theta$와 관측벡터 $O$가 주어진 조건 하에서 시간 $t$에서는 $s_{i}$, $t+1$에서는 $s_{j}$에 있을 확률

따라서 이를 해결하기 위해서 동적 프로그래밍(dynamic porgramming)(13) 기법을 사용한다. 동적 프로그래밍 방법은 최적 상태 열을 계산하는 동안 $t-1$의 후보 상태 열이 $t$상태 열과 동일한 계산 량을 공유한다는 점에서 착안되어져 나온 방법이다. 이렇게 얻어진 최적 상태 열 계산 알고리즘을 비터비(Viterbi)(13) 알고리즘 이라 부르며 비터비 알고리즘은 식(7,8,9)과 같이 정의 된다.

(7)
\begin{align*} \zeta_{1}(i)=\pi_{i}b_{i}(o_{1}),\: 1\le i\le n\\ \end{align*}

(8)
$\zeta_{t}(i)=\begin{bmatrix}\max_{1\le j\le n}\zeta_{t-1}(j)a_{ji}\end{bmatrix}*b_{i}(o_{t}),\: 2\le t\le T,\:1\le i\le n$

(9)
$\tau_{t}(i)=\arg\max_{1\le j\le n}\begin{bmatrix}\zeta_{t-1}(j)a_{ji}\end{bmatrix},\: 2\le t\le T,\:1\le i\le n$

$\zeta_{t}(i)$ : 관측벡터의 일부 $o_{1}o_{2}\cdots o_{t}$를 관측하고 시간 $t$에 상태 $s_{i}$에 있을 최대 확률

$\tau_{t}(i)$ : $t-1$에서 $n$ 개의 상태 중 선택된 최대 확률

2.3 연속 웨이블릿 변환 (Continuous Wavelet Transform)

퓨리에 변환은 cos과 sin 함수를 모함수로 사용하여 시간 영역을 주파수 영역으로 변환 시켜주지만 시간 영역의 정보를 잃어버리는 단점이 있다. 따라서 이러한 한계를 극복하기 위해서 퓨리에 변환 구간을 짧게 나누어 변환 시키는 단시간 퓨리에 변환(short-time Fourier transform)(16)이 고안되었다. 단시간 퓨리에 변환은 윈도우의 너비가 작아질수록 시간 분해능이 좋아지는 장점이 있지만 반대로 주파수 분해능이 나빠지는 단점이 있다. 단시간 퓨리에 변환은 이러한 성질 때문에 주파수 분해능과 시간 분해능 두 가지를 동시에 좋아지게 할 수 없는 단점이 있다. 하지만 웨이블릿 변환은 사용자가 모함수를 선택하여 시간 영역의 정보를 주파수 영역으로 바꾸어 볼 수 있으며 퓨리에 변환에 비하여 속도가 빠르고 주파수 영역에서 모함수의 스케일에 따라 사용자가 원하는 시간정보와 주파수 정보를 동시에 효율적으로 볼 수 있다.(14,15) 또한 윈도우의 크기를 사용자가 선택적으로 조절 하므로 시간 분해능과 주파수 분해능 두 가지를 사용자가 원하는 수치로서 볼 수 있다는 장점이 있다. 웨이블릿 변환의 모함수 $\Psi(t)$는 인덱스 $j$에 따른 스케일 변화와 시간 축 인덱스 $k$에 대하여 식(10)로서 변환을 정의할 수 있다. 연속 웨이블릿 변환은 인덱스 $k$와 $j$에 따라 식(11)과 같이 정의된다. $f(t)$에 대한 웨이블릿 역 변환 식은 (12)과 같다.

(10)
$\Psi_{j,\:k}(t)= 2^{j/2}\Psi(2^{j}t-k)$

(11)
$CWT(k,\:t)=\int_{-\infty}^{\infty}\Psi_{k,\:t}(t)f(t)dt$

(12)
$f(t)=\dfrac{1}{C_{\Psi}}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}CWT(k,\:t)\Psi_{k,\:t}(t)dkdt$

3. 제안 이론 기술

그림 2는 심전도의 각각의 분절 명칭을 그림으로 나타내고 히든 마코프 모델에서 어떻게 상태로 정의했는지 표로 나타낸 그림이다. 등전위선(Isopotential, ISO)은 T파 끝과 P파 시작을 이은 선이며 이를 기준하여 ST분절의 상승 혹은 하강을 판정하는 분절이다. PQ분절은 P파부터 Q파까지의 분절이며 QRS는 Q파부터 S파까지의 분절을 나타낸다. ST 분절은 S파부터 T파 까지를 나타내는 분절이다. 은닉 마코프 모델을 학습시키기에 앞서서 모델의 구조를 그림 3과 같이 결정하였다. 시간성을 갖는 데이터의 경우 분산된(ergodic)형태보다는 좌우(left-to-right)형태가 적합하므로 심전도는 좌우 모델을 쓰는 것이 좋다.(17) 각각의 상태(state)는 심전도의 분절들을 기호로 나타내었다. 이 때 모델의 상태 전이 확률과 상태(state)는 생리학적인 심전도의 파형 구조에 따라 나누었으며 ISO분절에서 PQ분절의 상태 전이 확률은 P파의 소멸이 일어날 수 있는 가능성을 고려하여 설정하였다.

그림. 2. 심전도 파형 분절별 명칭 및 분절 별 은닉 마코프 모델 상태 정의

Fig. 2. Definition about ECG waveform segment and Definition of Hidden markov model states by ECG segment

../../Resources/kiee/KIEE.2019.68.11.1425/fig2.png

그림. 3. 은닉 마코프 모델의 left-to-right 모델

Fig. 3. Left-to-right model of hidden markov model

../../Resources/kiee/KIEE.2019.68.11.1425/fig3.png

이 후 ISO, P, PQ, QRS, ST ,T 각각의 6개 상태들을 각각 심전도의 특성을 고려하여 은닉 상태를 더 만들었다. 각각의 은닉상태는 ISO, P, QRS상태는 3개이며 PQ, ST 상태는 2개, T 상태는 6개로 총 19개의 상태들로 상세히 아키텍처를 모델링 하였다. 그림 4는 이를 그림으로 나타낸 것이다.

은닉 마코프 모델을 학습하기 위하여 총 19가지 상태 아키텍처 좌우 모델을 구조화 하였다. 구조화된 은닉 마코프 모델을 통하여 관찰벡터$O$를 이용하여 학습을 진행한 뒤 최적화 된 모델 $\Theta$를 얻었다 해도 이후 분류를 위한 관찰벡터 $\hat O$의 확률 밀도 함수가 필요하다. 이는 관찰 벡터 $\hat O$로부터 방출 확률 $b_{j}$를 알아내야 하기 때문이다. 이는 가우시안 혼합 모델(Gaussian Mixture Model)(18)을 사용하여 해결 가능하다. 혼합 모델이란 확률 분포를 한 가지만 사용하지 않고 여러 개의 확률 분포를 사용하는 것이다. 따라서 가우시안 혼합 모델을 사용하면 방출 확률 $b_{j}$를 식(13)와 같이 계산 할 수 있다.

(13)
$b_{j}(o_{t})=\dfrac{1}{\sqrt{2\pi |U_{j}|}}\exp\left\{-\dfrac{1}{2}(o_{t}-\mu_{j})^{T}U_{j}^{-1}(o_{t}-\mu_{j})\right\}$

그림. 4. 은닉 마코프 모델의 상세 상태 아키텍처 블록 다이어그램

Fig. 4. Detailed State Architecture Block Diagram of the Hidden Markov Model

../../Resources/kiee/KIEE.2019.68.11.1425/fig4.png

4. 실험 및 결과

은닉 마코프 모델을 훈련시키기 위한 훈련 데이터로 Physionet의 QT-Database를 사용하였다. QT-Database는 15분간의 심전도 레코드가 총 105개 데이터 파일로 구성되어있으며 심장 전문의가 각각의 레코드마다 30~50개의 P, QRS, T파의 주석을 지정해 둔 데이터베이스이다. QT-Database는 다른 선행 연구에 의하여 사용된 적이 있는 데이터베이스이며 본 논문에서 은닉 마코프 모델의 효율성을 검증하기 위하여 QT-Database를 훈련 데이터로 사용하였다. 모델 훈련을 위하여 총 105개의 데이터베이스를 80:20의 비율로 지정하고 훈련용 데이터 84개, 테스트 데이터 21개로 랜덤 하게 나누었다.

은닉 마코프 모델의 QRS를 검출하기 위한 모델을 학습하기 위하여 연속 웨이블릿 변환을 사용하여 QRS 특징을 추출하였다. 웨이블릿 모 함수는 가능한 한 변환하고자 하는 신호의 형태를 잘 나타내야 한다.(17) Torrence와 Combo의 연구에 따르면 Mexican Hat 함수는 심전도 QRS 검출에 적합한 모함수로서 알려져 있다.(18) 그림 5는 Mexican Hat 모함수를 나타낸 그림이다. 식(14)는 Mexican Hat을 이용한 연속 웨이블릿 변환 함수 이며 식(15)는 Mexican Hat의 $j$스케일 모함수 $\hat\Phi$를 나타낸 것이다. $f$는 $M$개의 샘플로 이루어진 신호 집합이다.

(14)
$Wf(n,\:j)=\sum_{m=0}^{M-1}f[m]*{\Psi}_{j}[m-n]$

(15)
$$ \bar{\Psi}_{j}[n]=\frac{1}{\sqrt{2^{j}}} \frac{2}{\sqrt{3} \pi^{1 / 4}}\left[1-\left(\frac{n}{2^{j}}\right)^{2}\right] \exp \left[\frac{1}{2} *\left(n / 2^{j}\right)^{2}\right] $$

$j$스케일로 웨이블릿 변환되어진 심전도 신호는 특징 벡터$X$가 된다. 본 논문에서는 총 $s=\{2^{2},\:2^{3},\:2^{4}\}$의 3가지 스케일을 사용하여 심전도 QRS 특징을 추출하였다. 이 때 j = 1 스케일의 경우 그림 6과 같이 노이즈가 상당한 영향을 미치므로 사용하지 않았다. 또한 $s=2^{1}$ 스케일의 손실이 은닉 마코프 모델의 분류 성능에 영향을 주는 것은 아니다(19).

그림. 5. Mexican Hat 모 함수

Fig. 5. Mexican Hat mother function

../../Resources/kiee/KIEE.2019.68.11.1425/fig5.png

그림. 6. Mexican Hat j=1 웨이블릿 변환 신호

Fig. 6. Mexican Hat j=1 wavelet transform signal

../../Resources/kiee/KIEE.2019.68.11.1425/fig6.png

그림 7 은 본 논문에서 제시하는 은닉 마코프 모델을 학습법과 학습된 은닉 마코프 모델로부터 구해진 최적 상태열의 흐름도를 나타낸 것이다.

은닉 마코프 모델이 학습 방식에 따라서 어떤 양상을 보이는지 관찰하기 위하여 배치사이즈를 변화시키는 방법과 Mexican Hat 모함수의 스케일을 변화시키는 방법 총 2가지에 관하여 실험을 진행하였다. 이 때 모델의 상태 아키텍처는 변경시키지 않았으며 배치의 사이즈는 20, 41, 70, 84의 배치사이즈로 실험을 진행하였다. 또한 특징 스케일 벡터는 식(16)와 같이 3가지로 지정하여 실험을 진행하였다.

(16)
$Feature extraction scal e\begin{cases} s=\{2^{2}\}\\ s=\{2^{2},\: 2^{3}\}\\ s=\{2^{2},\:2^{3},\: 2^{4}\} \end{cases}$

그림. 7. 은닉 마코프 모델 학습과 QRS군 검출을 위한 데이터 블락 다이어그램

Fig. 7. Block Diagram for the Study of Hidden Markov Model and Detection of QRS Groups

../../Resources/kiee/KIEE.2019.68.11.1425/fig7.png

위와 같은 방식으로 학습시킨 뒤 학습 양상을 파악하기 위해 정답 레이블과 최적화 된 은닉 마코프 모델로 부터 얻어진 QRS의 onset과 offset의 차이의 평균과 표준 편차를 평가 지표로 사용하였다. 이 때, 테스트 레코드 21개의 전문가 주석은 총 701개이며 식 (17,18)은 평균과 표준편차를 구하는 식을 나타낸 것이다.

(17)
$$ \operatorname{Mean}=\sum_{i=1}^{N} \sum_{j=1}^{K}\left(X_{i j}-\overline{X_{i j}}\right) / K $$

(18)
$$ S T D=\sum_{i=1}^{N} \sqrt{\frac{\sum_{j=1}^{K}\left(X_{i j}-\bar{X}\right)^{2}}{K-1}} $$

이때, $N : 레코드의 갯수$

$K : 히든 마코프 모델로 부터 구해진 QRS의 갯수$

$X : 전문가의 주석이 달린 QRS$

$\bar{X}: 히든 마코프 모델로 부터 구해진 QRS$

배치 사이즈에 따른 학습 양상을 확인하기 위하여 연속 웨이블릿 변환의 스케일은 $s=\{2^{2},\:2^{3},\: 2^{4}\}$로 고정 시켰으며 배치사이즈는 20부터 84까지 총 4개이다. 또한 epoch은 모두 20번으로 고정시켰다.

표 2는 각각의 배치사이즈별 epoch이 20일 때의 21개의 테스트 레코드의 평균적인 평균과 표준편차를 표로 나타낸 것이며 그림 8은 이를 막대그래프로 나타낸 것이다. 데이터가 유의미 한가 확인하기 위하여 대응 t-test를 진행하였다. 유의수준은 0.05로 설정하였다. 모든 데이터가 유의수준이 p>0.95로 유의미함을 알 수 있었다. 이 때 평균은 은닉 마코프 모델로부터 얻어진 QRS의 onset과 offset이 전문의가 지정한 정답 레이블과 얼마나 차이를 보이는가를 나타낸다. 즉 본 논문에서 제시하는 은닉 마코프 모델의 평균적인 QRS의 onset과 offset이 얼마나 전문의가 지정한 정답 레이블에 벗어나 있는가이다. 따라서 평균의 절대값이 클수록 전문의가 지정한 QRS onset과 offset에 벗어나 있다는 것을 의미한다. 하지만 QRS의 onset과 offset은 심장 전문의 마다 판단하는 기준이 다르므로 평균보다는 알고리즘의 안정성과 직결되는 표준편차에 관심을 갖는 것이 좀 더 합리 적이다.(20) 따라서 배치사이즈가 커질수록 onset의 평균은 커졌지만 표준편차가 ±10.7082ms에서 ±5.82146ms으로 작아지는 것을 보았을 때 배치사이즈가 커질수록 안정적인 학습을 한다는 것을 알 수 있다. 또한 offset의 경우 배치사이즈가 작아질수록 평균과 표준편차 모두 줄어들어 offset 또한 배치 사이즈가 클수록 은닉 마코프 모델이 심전도 QRS 검출을 용이하게 한다는 사실을 알 수 있다.

배치사이즈를 훈련 데이터 셋 84개 모두 사용 하는 것이 좀 더 효율적이라는 사실을 바탕으로 배치 사이즈는 84로 고정한 뒤 특징 추출 스케일 수를 조정하여 실험을 진행하였다. 이 때 특징 추출 스케일은 총 3가지를 사용하였으며 식(16)와 같다.

표 2. 배치 사이즈별 $s= 2^{2},\:2^{2},\:2^{3}$ onset과 offset의 평균과 표준 편차

Table 2. Mean and standard deviation of s=1,2,3 onset and offset by batch size

배치사이즈별 $s=\{2^{2},\: 2^{3},\:2^{4}\}$ QRS onset과 offset 의 mean, STD평균[ms]

batch size

onset mean

onset STD

P

20

4.303581

±10.70821

0.99716

41

5.084721

±9.795626

0.99729

70

-6.97108

±8.71689

0.99761

84

-8.2822

±5.821476

0.99818

batch size

offset mean

offset STD

P

20

-56.7095

±14.52913

0.96154

41

-19.0769

±11.684

0.99525

70

-4.08228

±9.29792

0.99675

84

-2.95882

±6.566231

0.99838

그림. 8. 배치 사이즈별 onset과 offset의 평균과 표준 편차

Fig. 8. Mean and standard deviation of s=1,2,3 onset and offset by batch size

../../Resources/kiee/KIEE.2019.68.11.1425/fig8.png

그림. 9. 각 스케일별 QRS onset과 offset의 평균과 표준편차

Fig. 9. Mean and standard deviation of QRS onset and offset for each scale

../../Resources/kiee/KIEE.2019.68.11.1425/fig9.png

표 3식(16)에 따라 3개의 스케일 벡터에 따라 은닉 마코프 모델을 학습시킨 결과를 표로 나타낸 것이며 그림 9는 이를 막대그래프로 나타낸 것이다 결과적으로 특징 3가지를 모두 추출하여 은닉 마코프 모델을 학습시키는 것이 한 개만 추출하여 학습시킨 것보다 더 낫다는 결과를 얻을 수 있었다.

표 3. 각 스케일별 QRS onset과 offset의 평균과 표준편차

Table 3. Mean and standard deviation of QRS onset and offset for each scale

각 스케일별 QRS onset과 offset 의 mean, STD평균[ms]

s

onset mean

onset STD

P

$\{2^{2}\}$

21.21996

±39.68652

0.990618

$\{2^{2},\: 2^{3}\}$

4.632942

±8.836919

0.995384

$\{2^{2},\: 2^{3},\:2^{4}\}$

-8.2822

±5.821476

0.99818

s

offset mean

offset STD

P

$\{2^{2}\}$

16.76477

±40.22958

0.99141

$\{2^{2},\: 2^{3}\}$

-3.91753

±12.13487

0.992025

$\{2^{2},\: 2^{3},\:2^{4}\}$

-2.95882

±6.566231

0.99838

그림 10, 11, 12는 sel100레코드를 배치사이즈 84, epoch 20에 따라 각 스케일 별 특징을 잡아 은닉 마코프 모델을 학습시킨 결과를 도시한 것이다. 그림 10부터 그림 12까지 각각 특징 스케일의 수가 많아질수록 점점 전문의가 지정한 주석에 가까워지는 것을 확인 할 수 있다.

또한 대응 t-test를 실시하고 유의수준을 p >0.95로 하였을 때 모든 데이터가 유의미함을 알 수 있었다. 이 때 배치 사이즈가 20일 때 onset과 offset의 평균과 표준편차는 onset일 때, 4.3035ms, ±10.70821ms (p=0.99716) offset일 때, -56.7095ms, 14.5291ms (p=0.96154) 이였으며 배치사이즈가 84일 때 onset과 offset의 평균과 표준편차는 onset일 때, -8.2822ms, ±5.8214ms (p=0.99818)이며 offset일 때, -2.9588ms, ±6.5662ms (p=0.99838) 였다.

그림. 10. 'sel100' 레코드 배치사이즈 84, $s =\{2^{2}\}$, epoch20 일 때 전문가 주석 QRS와 은닉 마코프 모델로부터 구해진 QRS

Fig. 10. Expert annotation QRS and classified QRS from hidden Markov model at 'Sel100' record, batch size84, epoch 20, $s =\{2^{2}\}$

../../Resources/kiee/KIEE.2019.68.11.1425/fig10.png

그림. 11. 'sel100' 레코드 배치사이즈 84, $s =\{2^{2},\:2^{3}\}$ epoch20 일 때 전문가 주석 QRS와 은닉 마코프 모델로부터 구해진 QRS

Fig. 11. Expert annotation QRS and classified QRS from hidden Markov model at 'Sel100' record, batch size84, epoch 20, $s =\{2^{2},\:2^{3}\}$

../../Resources/kiee/KIEE.2019.68.11.1425/fig11.png

그림. 12. 'sel100' 레코드 배치사이즈 84 $s =\{2^{2},\:2^{3},\:2^{3}\}$ epoch20 일 때 전문가 주석 QRS와 은닉 마코프 모델로부터 구해진 QRS

Fig. 12. Expert annotation QRS and classified QRS from hidden Markov model at 'Sel100' record, batch size84, epoch 20 ,$s =\{2^{2},\:2^{3},\:2^{3}\}$

../../Resources/kiee/KIEE.2019.68.11.1425/fig12.png

이는 배치사이즈를 84로 사용하였을 때와 비교해서 배치사이즈가 20일 때 평균은 onset일 때 3.9787ms(92.4%)상승 하였으며 표준편차는 4.8868ms(45.6%) 감소하였고 offset의 평균은 50.8881ms(94.7%) 감소하였고 표준편차는 7.9629ms(54.8%)감소한 것이다. QRS onset과 offset의 위치는 전문의마다 견해의 차이가 있다는 점을 감안하였을 때 알고리즘의 안정성을 나타내는 표준편차의 감소는 배치사이즈가 증가할수록 은닉 마코프 모델이 심전도 QRS를 분류할 때 더욱 안정적이라는 결론을 내릴 수 있다.

이후 배치사이즈를 84로 고정한 뒤 Mexican Hat의 스케일을 식(16)에 따라 바꾸어 실험하였다. 스케일 $s =\{2^{2}\}$일 때의 onset과 offset의 평균과 표준편차는 onset일 때, 21.2199ms, ±39.6865ms (p=0.99061) offset일 때, 16.7647ms, 40.22958ms (p=0.99141) 이였으며 스케일 $s=\{2^{2},\: 2^{3},\: 2^{4}\}$일 때는 onset과 offset의 평균과 표준편차가 onset일 때, -8.2822ms, 5.8214ms (p=0.99818) offset일 때, -2.9588ms, 6.5662ms (p=0.99838)로 나타났다. 이는 onset의 평균이 12.9377ms (60.1%) 감소하였으며 표준편차는 33.8651ms(85.3%) 감소한 것이다. 또한 offset의 평균은 10.9433ms(82.3%) 감소하였으며 표준편차는 33.6633(83.6%) 감소한 결과이다. 스케일의 개수가 늘어남에 따라서 평균과 표준편차 모두 감소하는 결과를 보였으며 따라서 스케일의 개수를 늘릴수록 학습하는데 걸리는 시간은 늘어나지만 좀 더 정확하고 안정성 있는 QRS를 검출한다는 결론을 얻을 수 있었다.

따라서 은닉 마코프 모델을 학습하는데 있어서 가장 최적의 방법은 학습 데이터를 모두 사용하여 학습을 하고 연속 웨이블릿 변환을 사용할 경우 모 함수의 스케일을 여러 경우로 두고 특징을 여러 가지로 쓰는 것이 가장 효율이 좋다는 결론을 얻을 수 있었다. 본 논문에서는 84개의 배치사이즈를 가지고 스케일 벡터를 $s=\{2^{2},\: 2^{3},\: 2^{4}\}$로 두었을 때 onset과 offset의 평균과 표준편차가 onset일 때, -8.2822ms, ±5.8214ms (p=0.99818) offset일 때, -2.9588ms, ±6.5662ms (p=0.99838)로 나타났으며 이는 표 4에 따라 기존에 연구되어진 분류 알고리즘과 비교해 보았을 때 평균은 다른 알고리즘 대비 높은 수치를 보였지만 표준편차는 다른 알고리즘 대비 onset일 때 평균 22.1%, offset일 때 30.9% 감소하여 충분히 좋은 결과라 할 만한 성능을 보였음을 알 수 있다.

표 4. QT-database를 사용한 다른 알고리즘의 QRS 평균과 표준편차

Table 4. QRS mean and standard deviation of other algorithms using QT-database

Method

$QRS_{onset}$

$mean\pm std$

$QRS_{offset}$

$mean\pm std$

#of annotation

701

701

Proposed Algorithm

-8.2±5.8

-2.9±6.5

#of annotation

2429

2429

ENV(21)

0.6±7.2

1.2±8.3

WT(22)

4.6±7.7

0.8±8.7

LPD(23)

-3.6±8.6

-1.1±8.3

EA(24)

0.3±6.6

-1.9±8.3

5. 결 론

본 논문에서는 은닉 마코프 모델을 이용하여 순차 데이터인 심전도를 학습 시키고 QRS를 검출하고자 하였다. 이 때 특징을 추출하기 위하여 연속 웨이블릿 변환을 사용하였으며 데이터는 Physionet의 QT-Database를 사용하였다. 은닉 마코프 모델은 좌우(left to right)모델을 사용하였으며 모델 아키텍처를 만들고 심전도의 생리학적 특성을 고려하여 은닉 되어진 상태(state)까지 총 19개의 상태 모델을 만들어 학습 시켰다. 학습 시 은닉 마코프 모델이 가장 효율적인 성능을 내는 조건을 알아내기 위하여 레코드의 배치 사이즈와 특징 추출시 Mexican Hat 모 함수의 스케일을 조절하여 실험하였으며 첫 번째로 각각 배치 사이즈를 20, 41, 70, 84로 4개로 나누고 특징 벡터는 $s =\{2^{2},\:2^{3},\:2^{3}\}$로 고정한 뒤 epoch은 총 20회로 하여 학습 하였다. 배치사이즈가 20일 때 보다 84로 학습 하였을 때 평균은 onset일 때 3.9787ms(92.4%)상승 하였으며 표준편차는 4.8868ms(45.6%) 감소하였고 offset의 평균은 50.8881ms (94.7%) 감소하였고 표준편차는 7.9629ms (54.8%) 감소함을 알 수 있었고 특징 벡터를 1개만 사용하였을 때와 3개를 사용하였을 때를 비교했을 때 onset의 평균이 12.9377ms (60.1%) 감소하였으며 표준편차는 33.8651ms (85.3%) 감소한 것이다. 또한 offset의 평균은 10.9433ms (82.3%) 감소하였으며 표준편차는 33.6633 (83.6%) 감소함을 알 수 있었다.

따라서 결과적으로 배치사이즈를 가지고 있는 데이터량 전부를 사용하는 것이 가장 적합하며 특징벡터를 여러개를 가져가는 것이 가장 좋다는 결론을 얻을 수 있었다.

본 논문에서 제시된 은닉 마코프 모델은 좌우 모델이므로 디코딩의 시간 복잡도인 $O(N^{2}T)$를 가지지 않고 $O((B+KD)NT)$의 시간 복잡도를 가진다.(25) 이때 N은 HMM 모델의 총 상태 수, K는 이전 상태의 평균 수 ,T는 관측치의 수 ,D는 모델의 최대 지속 시간,B는 관측 우도의 수이다. 따라서 일반적인 은닉 마코프 모델의 계산량보다 적은 계산량의 가지게 되며 추후 연구에서 연산량에 이점을 가질 수 있다. 또한 표 5의 일반적 은닉 마코프 모델과 멀티 레이어 은닉 마코프 모델과 비교하였을 때도 충분히 높은 성능을 보임을 알 수 있다.

표 5. QT-database를 이용한 다른 종류의 HMM 모델의 QRS 평균과 표준편차(17)

Table 5. Mean and standard deviation for different types of HMM models using QT-Database

Method

$QRS_{onset}$

$mean\pm std$

$QRS_{offset}$

$mean\pm std$

#of annotation

701

701

Proposed Algorithm

-8.2±5.8

-2.9±6.5

#of annotation

1696

1696

generic HMM

11.7±8.4

2.9±10.5

individual's HMM

4.7±7.8

-4.2±8.9

generic HMM adapted to each individual

9.1 7.6

2.6 10.2

본 논문에서는 은닉 마코프 모델을 어떻게 학습하여야 가장 효율적으로 학습 할 수 있는지에 관하여 제시하였다. 다만 본 논문에서 제시하는 은닉 마코프 모델은 다양한 심전도의 가능성을 배제하고 R피크를 검출하기 위한 모델링에 집중하였다. 이로 인하여 시간적인 이점은 크게 얻을 수 있었으나 본 논문의 모델을 이용하여 다른 피크점을 검출하는 것은 정확도가 떨어지며 다른 질환으로 인하여 발생하는 문제에 대하여 효과적으로 대응할 수 없다는 단점이 있다. 따라서 차후의 연구에서는 심전도 질환에 따른 다양한 문제에 대응하며 시간적인 효용성을 입증할 수 있는 모델을 설계하는 것이 고려된다.

Acknowledgements

본 연구는 2018년도 한화시스템(주)의 재원을 지원받아 수행된 연구임.

References

1 
N. Goldschlager, M. J. Goldman MJ, 1989, Principles of Clinical Electrocardiography, Appleton and LangeGoogle Search
2 
John G. Webster, 1998, Medical Instrumentation: Application and Design, 3rd ed., John Wiley & SonsGoogle Search
3 
Mohrman David E., Jane Heller Lois, 2010, Cardiovascular physiology, 7th ed,, McGraw-HillGoogle Search
4 
E. (Editor) Braunwald, Disease Heart, 1997, A Textbook of Cardiovascular Medicine, Fifth Edition, Philadelphia, W. B. Saunders Co. ISBN 0-7216- 5666-8, pp. 108Google Search
5 
Chi Chan Weng, Tang Shuo, Hang Pun Sio, I Vai Mang, Un Mak Peng, 2005, ECG parameter extractor for the intelligent home healthcare embedded system, in Proc. of IEEE Engineering in Medicine and Biology 27th Annual Conference, pp. 100-113Google Search
6 
S. H. Jambukia, V. K. Dabhi, H. B. Prajapati, 2015, Classification of ECG signals using machine learning techniques: A survey, in Proc. of International Conference on Advances in Computer Engineering and Applications, Ghaziabad, India, pp. 714-721DOI
7 
Moavenian, H. Khorrami, 2010, A qualitative comparison of artificial neural networks and support vector machines in ECG arrhythmias classification, Expert System with Application, Vol. 37, No. 4, pp. 3088-3093DOI
8 
A. Dallali, A. Kachouri, M. Samet, 2011, Fuzzy c-means clustering, Neural Network, wt, and Hrv for classification of cardiac arrhythmia, ARPN J. of Eng. and Appl. Sci., Vol. 6, No. 10, pp. 112-118Google Search
9 
Y. Ozbay, R. Ceylan, B. Karlik, 2006, A fuzzy clustering neural network architecture for classification of ECG arrhythmias, Comput. in Biology and Medicine, Vol. 36, No. 4, pp. 376-388DOI
10 
Min-kyu Kim, 2013, Conditioning by State Space Model, Master's Thesis at Myongji University Graduate SchoolGoogle Search
11 
P. Laguna, R. G. Mark, A. L. Goldberger, G. B. Moody, 1997, The QT Database, Physionet.orgGoogle Search
12 
Katzung, G. Bertram, Masters Susan, Trevor Anthony, 2009, Basic and Clinical Pharmacology, 11th ed., McGraw-HillGoogle Search
13 
M. Bishop Christopher, 2006, Pattern Recognition and Machine Learning, Information Science and StatisticsGoogle Search
14 
O. Rioul, M. Vetterli, 1991, Wavelets and Signal Process- ing, IEEE Sig. Proc. Mag., pp. 14-38Google Search
15 
Berdarkh, Abibullaev, 2006, Detection of ECG Signals using complex-valued continuous wavelet transforms, Master's Thesis at the Graduate School of Youngnam UniversityGoogle Search
16 
E. Jacobsen, R. Lyons, March 2003, The sliding DFT, Signal Processing Magazine, Vol. 20, No. 2, pp. 74-80Google Search
17 
R. V. Andreao, B. Dorizzi, J. Boudy, August 2006, ECG signal analysis through hidden Markov models, IEEE Trans. Biomed. Eng., Vol. 53, pp. 1541-1549Google Search
18 
C. Torrence, G. P. Compo, 1998, A practical guide to wavelet analysis, Bull. Am. Meteor. Soc., Vol. 79, No. 1, pp. 61-78DOI
19 
S. Mallat, 1998, A Wavelet Tour of Signal Processing, Academic Press, San Diego, CAGoogle Search
20 
J.-H. Kim, S. Lee, K.-H. Park, Feb 2016, Stepwise Detection of the QRS Complex in the ECG Signal, The Journal of Korean Institute of Communications and Information Sciences, Vol. 41, pp. 244-253Google Search
21 
A. I. Manriquez, Q. Zhang, Aug. 2007, An algorithm for QRS onset and offset detection in single lead electrocardiogram records, in Proc. 29th Annu. Int. Conf. IEEE Eng. in Medicine and Biology Soc., pp. 541-544 Lyon, FranceDOI
22 
J. P. Martinez, R. Almeida, S. Olmos, A. P. Rocha, P. Laguna, 2004, A wavelet-based ECG delineator: Evaluation on standard database, IEEE Trans. Biomedical Eng., Vol. 51, No. 4, pp. 570-581Google Search
23 
P. Laguna, R. Jane, P. Caminal, 1994, Automatic detection of wave boundaries in multilead ECG signals: Validation with theCSE database, Comput. Biomedical Res., Vol. 27, No. 1, pp. 45-60DOI
24 
J. Dumont, A. I. Hernandez, G. Carrault, Sept 2005, Parameter optimization of a wavelet-based electrocardiogram delineator with an evolutionary algorithm, IEEE Computers in Cardiology, pp. 707-710 Lyon, FranceDOI
25 
M. T. Johnson, May 2005, Capacity and complexity of HMM duration modeling techniques, IEEE Signal Process. Lett., Vol. 12, No. 5, pp. 407-410DOI

저자소개

김상민 (Sang-Min Kim)
../../Resources/kiee/KIEE.2019.68.11.1425/au1.png

2018년 건국대학교 의학공학부 졸업

2018~현재 동대학원 의학공학과 석사과정

이혁재 (Hyeok-Jae Lee)
../../Resources/kiee/KIEE.2019.68.11.1425/au2.png

2019년 건국대학교 의학공학부 졸업

2019~현재 동대학원 의학공학과 석사과정

민경진 (Kyoung-Jin Min)
../../Resources/kiee/KIEE.2019.68.11.1425/au3.png

2019년 건국대학교 의학공학부 졸업

2019~현재 동대학원 의학공학과 석사과정

김경섭 (Kyeong-Seop Kim)
../../Resources/kiee/KIEE.2019.68.11.1425/au4.png

1979년 연세대학교 전기공학과 졸업

1981년 동대학원 석사

1994년 Ph.D. The University of Alabama in Huntsvile,

2001년~현재 건국대학교 의학공학부 교수

곽휘권 (Hwy-Kuen Kwak)
../../Resources/kiee/KIEE.2019.68.11.1425/au5.png

2005년 충남 대학교 전자공학과 졸업

2011년 동대학원 석사, 박사 졸업

2011년~현재 한화시스템 지상시스템팀

고윤수 (Yun-Soo Ko)
../../Resources/kiee/KIEE.2019.68.11.1425/au6.png

1997년 충남대학교 전파공학과 석사

2008년 한국전자통신연구원 연구원

2008년~현재 한화시스템 지상시스템팀

채제욱 (Je-Wook Chae)
../../Resources/kiee/KIEE.2019.68.11.1425/au7.png

1990년 한양대학교 기계설계학과 학사

1997년 충남대학교 기계설계학과 공학석사

2006년 충남대학교 기계설계학과 공학박사

1990년~현재 국방과학연구소 책임연구원

이정은 (Jung-Eun Lee)
../../Resources/kiee/KIEE.2019.68.11.1425/au8.png

1995년 연세대학교 간호학과 학사

2014년 동대학원 석사,박사(‘19년)

2019년~현재 제주한라대학교 간호학과 조교수

이정환 (Jeong-Whan Lee)
../../Resources/kiee/KIEE.2019.68.11.1425/au9.png

1992년 연세대학교 전기공학과 졸업

1994년 동대학원 석사,박사(‘00년)

2000년~09년 삼성전자종합기술원(책임)

2004년~현재 건국대학교 의학공학부 교수