노경민
(Kyung-min Roh)
1iD
채다은
(Da-eun Cha)
1iD
이석필
(Seok-pil Lee)
†iD
-
(Dept. of Computer Science, Sangmyung University, Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Emotion classification, Voice data, Feature vectors, Similar emotion groups, Machine learning
1. 서 론
현대 사회는 PC 중심에서 네트워크를 거쳐 최종적으로 고객 중심으로 전환되어 가고 있다. 이런 변화에 따라, 고객 행동은 물론 감정, 기호, 습관
등을 종합적으로 파악한 맞춤형 서비스 제공의 중요성이 강조되고 있다(1). 특히 감정은 개인의 경험, 상황의 반응, 그리고 대인 상호 작용에서의 의사소통 등 다양한 요소에 영향을 받는 인간의 복잡한 내면을 대표하는 핵심
요소 중 하나이다. 이를 이해하고 분류하는 연구는 심리학, 인지과학, 음성학 등 여러 학문 분야에서 주요 주제로 취급되어 왔다.
감정은 말투, 얼굴 표정, 행동, 신체 변화 등을 통해 다양하게 표현되므로, 감정 인식 또한 다양한 방법으로 접근할 수 있다. 감정을 인식하는 방법에는
음성 기반 인식 방법(2), 얼굴 표정 기반 인식 방법(3), 심전도, 뇌파와 같은 생체 신호 기반 인식 방법(4), 얼굴 표정 및 음성 기반 멀티모달 인식 방법(5,6) 등 다양하게 존재한다. 이 중 음성 기반 인식은 화자의 감정뿐만 아니라 전달하고자 하는 내용의 단어나 문법에서의 강세 부분, 지역적인 특성이 가미된
억양 등 다양한 정보가 포함되어 있어, 음성에서 감정만을 독립적으로 분석하는 것이 어렵다(1). 그러나 음성의 중요성과 그 안에 내포된 감정의 복잡성을 고려하면, 이 영역에 대한 연구의 필요성이 점점 강조되어왔다. 이에 따라, 음성 데이터를
활용한 감정 인식 연구는 다양한 방식으로 진행되고 있다. 그 예로 음성의 피치 정보를 이용하는 연구(1), 음성의 톤과 템포 정보를 이용하는 연구(7), MFCC(mel- frequency cepstral coefficient)와 같은 음성 특징을 추출하여 머신러닝이나 딥러닝 모델을 사용하는 방법
등이 있다(8).
감정은 Russell의 Circumplex Model(9)과 같은 차원적 접근 방식을 통해 더 잘 이해될 수 있다. Circumplex Model에 따르면, 감정은 2차원 평면상에서 arousal(각성도)과
valence(긍/부정도)에 따라 서로 다르게 위치한다. 평면상의 위치적 특징을 살펴보면 가까운 위치에 있는 감정들은 유사한 특성을 공유하게 된다.
이러한 유사성은 감정 분류에 있어 어려움을 증가시키기도 한다. 유사한 양상을 가진 감정들 사이에서 세밀한 차이를 발견하는 것은 감정을 분석하고 인식하는
것에 있어서 중요한 역할을 할 수 있다.
따라서 본 논문에서는 유사한 양상을 보이는 감정 그룹을 선정하고, 음성 데이터의 특징을 추출해 그룹별로 감정 분류에 있어 가장 효과적인 특징을 찾아내고자한다.
한국전자통신연구원(ETRI)에서 제공하는 한국어 멀티모달 감정 데이터셋(KEMDy19; Korean Emotional Multi-modal Dataset
in 2019)(10)과 공인된 독일어 EmoDB 데이터(11)를 사용하여 데이터 별로 연구를 진행하였다. 유사 감정 그룹을 선정한 후, 음성 신호 분석에 주로 사용되는 12가지 특징을 추출하였고, 다양한 분리도
측정 방법을 통해 특징의 유효성을 평가했다. 분리도 측정 방법에는 Bhattacharyya distance, Mahalanobis distance,
Jensen-Shannon divergence와 같은 3가지 방법을 사용하였고, 측정 방법별로 상위 특징들을 조합해 SVM(Support Vector
Machine) 분류기에 적용한 뒤 최적의 분리도 측정 방법을 선정하였다. 이후 해당 측정 방법의 결과를 바탕으로 다양한 특징 조합을 통해 얻어진
분류 결과를 SVM 분류기에 적용하였을 때, 가장 높은 정확도를 보이는 조합을 탐색하였다.
본 논문은 2장에서 본 연구에 사용한 데이터베이스와 전처리 방법, 유사 감정 그룹 선정 방법에 대해 설명하고 3장에서는 유사 감정 분류에 가장 효과적인
특징 탐색을 위한 분리도 측정 방법을 선정하고, 4장에서는 실험 및 결과 보여주고, 마지막으로 5장에서는 본 연구에 대한 고찰과 향후 진행 방향을
논의한다.
2. 데이터베이스
2.1 EmoDB/KEMDy19
EmoDB는 총 10명의 배우들이 독일어로 연기를 진행하는 데이터로 구성되어있다. 총 535개의 데이터로 7가지의 감정 카테고리(anger, boredom,
fear, happiness, sadness, disgust, neutral)로 구성되어 있으며, 이 중 4가지의 감정 카테고리(anger, fear,
sadness, disgust)를 가진 데이터만 사용하였다.
KEMDy19는 총 40명의 한국인 성우를 대상으로 남/여 성우가 2인 1조가 되어 감정 상황극을 진행하는 데이터로 구성되어있다. 해당 데이터 셋은
성우가 발화한 각 발화 세그먼트 별로 7가지의 감정 카테고리의 감정 레이블 중 1가지를 선택하고 각성도와 긍/부정도를 평가한 데이터와 심전도, 피부전도도
등의 신체 데이터를 포함하고 있다. 그 중 발화 세그먼트에 대한 관찰자의 감정 레이블 평가 파일만을 데이터로 사용하였고, 7가지의 감정 카테고리(fear,
angry, sad, neutral, happy, disgust) 중 4가지의 감정 카테고리(fear, anger, sad, disgust)로 평가된
데이터만 사용하였다. 또한, 정확한 실험을 진행하기 위해 이중 레이블을 가진 데이터는 제거하였다. 이후에는 편의를 위해 EmoDB와 KEMDy19의
감정 카테고리 명칭을 (fear, anger, sadness, disgust)로 통일하였다.
2.2 데이터 전처리
음성 데이터에는 보통 노이즈나 비음성구간과 같은 불필요한 정보가 포함되어있다. 이러한 경우 정확한 분석에 방해가 될 수 있기에 해당 구간을 제거하고
음성 구간만을 추출하는 전처리 과정을 수행하였다. 음성구간은 비음성구간보다 에너지의 값이 크기 때문에 신호의 전반적인 에너지 값을 보여주는 절대 적분치(IAV
: Integral Absolute Value) 특징 벡터를 사용해 구분해낼 수 있다. IAV 특징 벡터는 식(1)과 같이 나타낼 수 있다(8).
$\bar{X}$는 측정된 신호이고, $N$은 샘플링 개수를, $i$는 샘플의 순서, $\triangle t$는 샘플링 시간 간격을 의미한다.
음성구간 추출은 IAV 특징 추출, IAV 임계값 선택, 신호 크기의 임계값 선택, 음성 구간 추출 순으로 진행한다(12). 우선 음성 구간을 추출할 기준 값을 구하기 위해서 IAV 특징 벡터를 사용하여 IAV 임계값을 계산한다. IAV 임계값은 IAV 특징 벡터의 최댓값과
최솟값의 차에 최솟값을 더하는 방식으로 결정한다. 만약 최댓값의 0.7을 곱한 값이 최솟값보다 작을 경우, 최댓값에 0.8을 곱한 값을 IAV 임계값으로
설정한다. 신호 크기의 임계값은 IAV 임계값을 프레임 크기로 나눠준 값으로 설정한다. 마지막으로 프레임 단위로 수행하면서 IAV 임계값보다 큰 값을
가지는 구간이 나오면 해당 프레임 내에서 신호 크기의 임계값보다 커지는 지점을 시작 인덱스로 설정하고, 이후 IAV 임계값보다 작아지는 구간이 나오면
그 지점을 끝 인덱스로 설정한다(12). 이러한 과정을 거쳐 시작 인덱스와 끝 인덱스 사이의 신호를 추출하면 오디오 데이터에서 음성구간만을 추출할 수 있다. 또한, 추출된 음성구간을 약
2초의 길이로 동일하게 분할하여 실험에 사용하였다.
2.3 유사 감정 그룹 선정
본 논문에서는 Russell의 Circumplex Model(9)을 바탕으로 Fig 1과 같이 유사 감정 그룹을 선정하였다.
그림. 1. 유사 감정 그룹 분류 결과
Fig. 1. Similar emotion group classification results
Fig. 1을 바탕으로 동일 평면상에 존재하여 구분이 어려운 감정을 그룹화 하여 (fear, anger), (sadness, disgust) 2가지의 감정 그룹을
선정하였다.
3. 분리도 측정
유사 감정 그룹을 분류하기 위한 최적의 특징 벡터를 탐색하기 위해서는 다양한 종류의 특징을 사용해 데이터를 분석할 필요가 있다. 따라서 아래와 같은
12가지의 특징 벡터를 추출하였다.
13 MFCCs : MFCC, ∆-MFCC, ∆²-MFCC
5 spectral features : spectral centroid, spectral bandwidth, spectral contrast, spectral
flatness, spectral roll-off
Chroma : 12 Chromas
Zero-crossing rate
RMS Energy
Onset
이후 추출된 특징 벡터의 감정 그룹별 분리도를 측정하였다. 큰 분리도를 가진 특징 벡터는 해당 감정 그룹을 효과적으로 분류할 수 있음을 의미한다.
분리도 측정 방법으로는 Bhattacharyya distance, Mahalanobis distance, Jensen-Shannon divergence를
사용하였다.
3.1 Bhattacharyya distance
Bhattacharyya distance는 두 클래스 간의 유사성을 측정하는데 사용되는 지표이다. 두 클래스의 중첩 영역을 측정하며, 값이 클수록
두 클래스 간의 분리도가 크다는 것을 나타낸다. Bhattacharyya distance 계산을 위해 식(2)를 사용하였다(13).
$M_{1},\: M_{2}$는 두 클래스의 평균이고, $\Sigma_{1},\:\Sigma_{2}$는 두 클래스의 공분산 행렬이다.
표 1. Bhattacharyya distance 측정 결과
Table 1. Result of Bhattacharyya distance measurement
Emotion
group
Feature
|
EmoDB
|
KEMDy19
|
fear
anger
|
sadness
disgust
|
fear
anger
|
sadness
disgust
|
Chroma
|
1.3439
|
1.1416
|
0.1742
|
0.1511
|
Spectral
Centroid
|
0.0997
|
0.1436
|
0.0453
|
0.0348
|
Spectral
Bandwidth
|
0.2056
|
0.1000
|
0.0294
|
0.0143
|
Spectral
Flatness
|
0.0704
|
0.1162
|
0.1604
|
0.0062
|
Spectral
Contrast
|
0.7338
|
0.7148
|
0.1436
|
0.1424
|
Spectral
Rolloff
|
0.0639
|
0.1558
|
0.0246
|
0.0290
|
Zero-
crossing Rate
|
0.0909
|
0.1021
|
0.0354
|
0.0391
|
MFCC
|
2.3316
|
1.9391
|
0.4076
|
0.3480
|
△-MFCC
|
1.3220
|
0.9390
|
0.1730
|
0.1338
|
△2-MFCC
|
1.5280
|
0.8243
|
0.1339
|
0.1397
|
RMS
Energy
|
0.1135
|
0.1274
|
0.0234
|
0.0652
|
Onset
|
0.0155
|
0.0423
|
0.0098
|
0.0070
|
3.2 Mahalanobis distance
Mahalanobis distance는 데이터의 중심(평균 또는 중앙값)과 각 데이터 포인트 사이의 거리를 측정하는데 사용되는 지표이다. 데이터의
공분산 행렬을 사용하여 스케일링되어 특정 방향의 데이터 분산을 고려할 수 있다. Mahalanobis distance 계산을 위해 식(3)을 사용하였다(14).
$A,\:B$는 두 클래스의 데이터이고, $\Sigma^{-1}$은 공분산 행렬의 역행렬이다.
표 2. Mahalanobis distance 측정 결과
Table 2. Result of Mahalanobis distance measurement
Emotion
group
Feature
|
EmoDB
|
KEMDy19
|
fear
anger
|
sadness
disgust
|
fear
anger
|
sadness
disgust
|
Chroma
|
1.0011
|
2.5896
|
0.5711
|
0.1726
|
Spectral
Centroid
|
0.2358
|
1.2714
|
0.0571
|
0.0306
|
Spectral
Bandwidth
|
1.9299
|
0.4844
|
0.0456
|
0.0056
|
Spectral
Flatness
|
0.3685
|
0.2916
|
0.2715
|
0.0000
|
Spectral
Contrast
|
5.0642
|
4.7697
|
0.6480
|
0.3309
|
Spectral
Rolloff
|
0.0013
|
1.1332
|
0.0479
|
0.0398
|
Zero-
crossing Rate
|
0.1859
|
0.5330
|
0.1178
|
0.0367
|
MFCC
|
12.3623
|
15.6893
|
0.8041
|
0.8409
|
△-MFCC
|
1.9846
|
1.1045
|
0.0983
|
0.1320
|
△2-MFCC
|
2.4263
|
1.5063
|
0.0716
|
0.1678
|
RMS
Energy
|
1.1019
|
0.8785
|
0.0174
|
0.2592
|
Onset
|
0.0036
|
0.0449
|
0.0018
|
0.0049
|
3.3 Jensen-Shannon divergence
Kullback-Leibler divergence는 두 클래스의 유사도를 측정하는 척도로, 값이 클수록 두 클래스 간의 분리도가 크다는 것을 나타낸다.
그러나 Kullback-Leibler divergence는 non-symmetry한 값이기 때문에 두 클래스 간의 평균 발산을 측정하는 Jensen-
Shannon divergence를 사용하여 두 클래스 간의 유사도를 symmetry한 값으로 측정할 수 있다. Jensen-Shannon divergence
계산을 위해 식(4)를 사용하였다(15).
$P_{1},\:P_{2}$는 두 클래스의 데이터이고, $M$은 두 클래스의 데이터의 평균이다.
표 3. Jensen-Shannon divergence 측정 결과
Table 3. Result of Jensen-Shannon divergence measurement
Emotion
group
Feature
|
EmoDB
|
KEMDy19
|
fear
anger
|
sadness
disgust
|
fear
anger
|
sadness
disgust
|
Chroma
|
0.0488
|
0.0243
|
0.0097
|
0.0044
|
Spectral
Centroid
|
0.0365
|
0.1171
|
0.0158
|
0.0103
|
Spectral
Bandwidth
|
0.1696
|
0.0647
|
0.0099
|
0.0114
|
Spectral
Flatness
|
0.0247
|
0.0614
|
0.0568
|
0.0040
|
Spectral
Contrast
|
0.0307
|
0.0290
|
0.0106
|
0.0019
|
Spectral
Rolloff
|
0.0299
|
0.1153
|
0.0138
|
0.0111
|
Zero-
crossing Rate
|
0.0217
|
0.0545
|
0.0200
|
0.0081
|
MFCC
|
0.0267
|
0.0272
|
0.0021
|
0.0089
|
△-MFCC
|
0.0084
|
0.0070
|
0.0008
|
0.0015
|
△2-MFCC
|
0.0114
|
0.0072
|
0.0018
|
0.0017
|
RMS
Energy
|
0.0909
|
0.0958
|
0.0068
|
0.0407
|
Onset
|
0.0017
|
0.0229
|
0.0036
|
0.0051
|
3.4 분리도 측정 방법 선정
3가지 분리도 측정 방법 중 가장 적합한 방법을 선택하기 위해 각 방법의 결과에서 상위 3가지 특징벡터를 선정하여 정확도를 측정하였다. 정확도 측정에는
SVM 분류기를 사용하였다. 그 결과, Bhattacharyya distance 방법을 기반으로 한 SVM 정확도가 다른 분리도 측정 방법을 기반으로
한 SVM의 정확도보다 전반적으로 높은 수치를 보였다. 따라서 Bhattacharyya distance 결과를 바탕으로 가장 효과적으로 유사 감정
그룹을 분류하는 특징 집합을 탐색하였다.
표 4. 분리도 측정 방법별 정확도
Table 4. Accuracy by separability measurement method
Emotion
group
Method
|
EmoDB
|
KEMDy19
|
fear
anger
|
sadness
disgust
|
fear
anger
|
sadness
disgust
|
Bhattacharyya
|
1.00
|
0.95
|
0.74
|
0.70
|
Mahalanobis
|
1.00
|
0.95
|
0.74
|
0.66
|
Jensen-
Shannon
|
0.86
|
0.55
|
0.54
|
0.58
|
4. 실험 및 결과
4.1 실험 방법
표 3에 제시된 Bhattacharyya distance의 결과를 기반으로, 다양한 특징 조합을 탐색하였다. 초기에는 상위 1개의 특징만을 조합하여 특징
집합을 구성하였다. 이후 상위 2개, 3개, 4개 등으로 점차 특징의 수를 늘려가며 여러 특징 집합들을 생성하였다. 이렇게 구성된 각각의 특징 집합을
SVM 분류기에 적용하여 감정 분류의 정확도를 측정하였다. 최종적으로, 가장 높은 분류 정확도를 보이는 특징 조합을 선별하여 해당 유사 감정 그룹
분류에 가장 효과적인 특징 조합을 파악하였다.
4.2 실험 결과
표 5와 표 6에서는 각 데이터베이스에 따른 감정 그룹별 특징 집합의 정확도 제시이다. 여기서 “featureset” 뒤의 숫자는 조합한 상위 특징의 개수를 나타내며,
이는 각 감정 그룹별의 정확도 변동성을 설명하는데 사용된다.
우선 EmoDB 데이터를 기준으로 할 때, (fear, anger) 그룹에서는 상위 2개, 3개, 4개의 특징 집합의 정확도는 동일하게 나타났다.
이 결과는 해당 실험 데이터의 수가 부족함으로 인한 것으로 분석된다. 반면, (sadness, disgust) 그룹에서는 상위 2개 및 3개 특징의
집합들이 다른 집합들에 비해 더 높은 정확도를 보였다. KEMDy19 데이터를 살펴보면, (fear, anger) 그룹에서는 상위 3개 및 4개의
특징 집합이 최고의 정확도를 기록했다. 또한, (sadness, disgust) 그룹에서는 상위 3개의 특징 집합이 가장 높은 정확도를 보였다.
이 결과들을 종합하여 감정 그룹별 최적의 특징 벡터를 도출할 수 있었다. EmoDB 데이터의 (fear, anger) 그룹은 데이터의 양이 부족한
관계로 최적의 특징 벡터를 정의하기 어려웠다. 따라서 해당 그룹의 결과는 최적 특징 벡터 선정에서 제외하였다. (sadness, disgust) 그룹에서는
(MFCC+Chroma)과 (MFCC+ Chroma+∆-MFCC) 특징 집합이 가장 적합하였다. KEMDy19 데이터의 (fear, anger) 그룹에서는
(MFCC+Chroma+∆-MFCC)과 (MFCC+Chroma+∆-MFCC+Flatness) 특징 집합이 가장 적합하고, (sad, disgust)
그룹에서는 (MFCC+Chroma+Contrast) 특징 집합이 가장 적합하였다.
표 5. EmoDB 데이터의 감정 그룹별 특징 집합 정확도
Table 5. Accuracy of featureset for EmoDB emotion groups
|
featureset_2
|
featureset_3
|
featureset_4
|
fear
anger
|
1.00
|
1.00
|
1.00
|
|
featureset_1
|
featureset_2,3
|
featureset_4
|
sadness
disgust
|
0.85
|
0.95
|
0.80
|
표 6. KEMDy19 데이터의 감정 그룹별 특징 집합 정확도
Table 6. Accuracy of featureset for KEMDy19 emotion groups
|
featureset_3,4
|
featureset_5
|
featureset_6
|
fear
anger
|
0.74
|
0.73
|
0.72
|
|
featureset_2
|
featureset_3
|
featureset_4
|
sadness
disgust
|
0.68
|
0.70
|
0.69
|
5. 고 찰
본 논문은 유사 감정 그룹을 분류하는데 있어서 음성 데이터에서 추출한 특징 벡터의 유효성을 평가하였다. EmoDB와 KEMDy19라는 두 가지 데이터베이스를
사용하여 실험하였고, 그 결과를 바탕으로 각 감정 그룹에 대한 최적의 특징 벡터 조합을 도출하였다.
EmoDB 데이터에서 (fear, anger) 그룹은 데이터의 수가 상대적으로 부족하였기 때문에 최적의 특징 벡터를 도출하는 것이 어려웠다는 한계점이
있었다. 그러나 이러한 문제는 특징 선택 과정에서 충분한 데이터의 중요성을 재확인시켜 주었다. (sadness, disgust) 그룹에 대해서는 (MFCC+Chroma)와
(MFCC+Chroma+∆-MFCC) 특징 조합이 유의미한 결과를 보여주었다. KEMDy19 데이터를 사용한 실험에서는 또 다른 특징 벡터 집합의
유효성을 확인 할 수 있었다. (fear, anger) 그룹에서는 (MFCC+Chroma+ ∆-MFCC)와 (MFCC+Chroma+∆-MFCC+Flatness)
특징 집합이, (sadness, disgust) 그룹에서는 (MFCC+Chroma+Contrast) 특징 집합이 타 집합의 정확도보다 높은 값이 도출되며
유의미한 결과를 보여주었다. 이를 통해 감정 분류에 있어서 특징 벡터의 조합이 중요하고, 감정 그룹 별로 각각 다른 특징 집합이 최적의 결과를 보여줌으로써
감정 그룹마다 특화된 특징 벡터의 중요성을 강조하였다. 또한, 상위권에 자리한 특징들을 조합했음에도 더 적게 조합한 특징 집합에 결과에 비해 미미한
정확도를 보이는 모습도 보였다. 이는 오히려 추가된 특징의 분리도 값이 미미하여 오히려 정확도 향상을 방해하기 때문이다.
이러한 결과를 종합할 때, 감정 분류에 있어서 음성 데이터의 특징 벡터 선택이 매우 중요하다는 것을 확인할 수 있다. 또한, 최적의 특징 벡터는 사용되는
데이터베이스와 타겟 감정 그룹에 따라 달라질 수 있다는 것을 인지하는 것이 중요하다. 추후 연구에서는 더욱 다양한 데이터베이스와 감정 그룹을 고려하여
특징 벡터의 유효성을 평가하는 방향으로 진행될 것이다.
Acknowledgements
This research was funded by a 2023 Research Grant from Sangmyung University. (2023-A001-0123)
References
Y. U. Kim, 2020, Artificial Intelligence and Power Systems, Trans of the KIEE, Vol.
69, No. 7, pp. 24-30
Guehyun Lee, Weon-Goo Kim, 2015, Emotion recognition using pitch parameters of speech,
Journal of the Korean Institute of Intelligent Systems, Vol. 25, No. 3, pp. 272-278
Mehmet Berkehan Akçay, Kaya Oğuz, 2020, Speech emotion recognition: Emotional models,
databases, features, preprocessing methods, supporting modalities, and classifiers,
Speech Communication, Vol. 116, pp. 56-76
Saranya Rajan, 2019, Facial expression recognition techniques: a comprehensive survey,
IET Image Processing, Vol. 13, No. 7, pp. 1031-1040
Nazmi Sofian Suhaimi, James Mountstephens, Jason Teo, 2020, EEG-based emotion recognition:
A state-of-the-art review of current trends and opportunities, Computational intelligence
and neuroscience
Hyeun-Joo Go, Dae-Jong Lee, Myung-Geun Chun, 2004, An Emotion Recognition Method using
Facial Expression and Speech Signal, Journal of Korea Information Science Society
(KISS), Vol. 31, No. 6, pp. 799-807
Carlos Busso, 2004, Analysis of emotion recognition using facial expressions, speech
and multimodal information, Proceedings of the 6th international conference on Multimodal
interfaces, pp. 205-211
Sung-Woo Byun, Seok-Pil Lee, 2016, Emotion recognition using tone and tempo based
on voice for IoT, The transactions of The Korean Institute of Electrical Engineers,
Vol. 65, No. 1, pp. 116-121
Gi-duk Kim, Mi-sook Kim, Hack-man Lee, 2021, Speech emotion recognition through time
series classification, Proceedings of the Korean Society of Computer Information Conference.
Korean Society of Computer Information, pp. 11-13
Eui-Hwan Han, Hyung-Tai Cha, 2017, A Novel Method for Modeling Emotional Dimensions
using Expansion of Russell's Model, Science of Emotion and Sensibility, Vol. 20, No.
1, pp. 75-82
K. J. Noh, H. Jeong, , KEMDy19, https://nanum.etri.re.kr/share/kjnoh/KEMDy19?lang=ko_KR
Felix Burkhardt, 2005, A database of German emotional speech, Interspeech, Vol. 5,
pp. 1517-1520
Ju-Hee Kim, Seok-Pil Lee, 2021, Multi-modal emotion recognition using speech features
and text embedding, Trans. Korean Inst. Electr. Eng, Vol. 70, pp. 108-113
Euisun Choi, Chulhee Lee, 2003, Feature extraction based on the Bhattacharyya distance,
Pattern Recognition, Vol. 36, No. 8, pp. 1703-1709
Je-Seong Park, 2019, Development of Display Panel Mura Detection Algorithm Using Regression
Analysis and Mahalanobis Distance, Master's thesis, Hoseo University Graduate School
JUNWOO TAK, 2021, Private Information Retrieval with Information Leakage under KL
Divergence and JS Divergence
저자소개
Kyung-Min Roh received a degree in electrical engineering from Sangmyung University,
Seoul, Korea in 2023.
Since 2022, she has been studying for a Master degree in department of computer science
from Sangmyung University.
Her main research interests include signal processing, artificial intelligence, machine
learning.
Da-Eun Chae received B.S. degree in Electronic Engineering from SangMyung University,
Seoul, Korea in 2023.
She is now a Master degree student in department of computer science from SangMyung
University.
Her research interests are signal processing, data science, artificial intelligence.
Seok-Pil Lee received BS and MS degrees in electrical engineering from Yonsei University,
Seoul, Korea, in 1990 and 1992, respectively.
In 1997, he earned a PhD degree in electrical engineering also at Yonsei University.
From 1997 to 2002, he worked as a senior research staff at Daewoo Electronics, Seoul,
Korea.
From 2002 to 2012, he worked as a head of digital media research center of Korea Electronics
Technology Institute.
He worked also as a faculty member at Georgia Tech., Atlanta, USA from 2010 to 2011.
He is currently a professor at the dept. of Intelligent IoT Sangmyung University.
His research interests include artificial intelligence, audio digital processing and
multimedia searching.