์๋ช
์ง
(Myoung-jin Son)
1iD
์ด์ํ
(Seok-pil Lee)
โ iD
-
(Dept. of Computer Science, Sangmyung University, Korea.)
Copyright ยฉ The Korean Institute of Electrical Engineers(KIEE)
Key words
Emotion recognition, Acoustic feature, Facial image, Deep learning
1. ์ ๋ก
์ต๊ทผ ์ฐ๋ฆฌ ์ ๋ณด์ฌํ์ ๊ธฐ์ ๋ฐ๋ฌ๋ก ์ฑ๋ฅ์ด ๋์ ๊ฐ์ธ์ฉ ์ปดํจํฐ๊ฐ ๊ธ์๋๋ก ๋์คํ๋๊ณ ์๋ค. ์ด์ ๋ฐ๋ผ์ ์ธ๊ฐ๊ณผ ์ปดํจํฐ์ฌ์ด์ ์ํธ์์ฉ์ ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๋๊ณ
์์ผ๋ฉฐ, ์ฌ์ฉ์๊ฐ ์ดํดํ๊ณ ์ฌ์ฉํ๊ธฐ ์ฌ์ด ํํ๋ก ๋ฐ์ ํด๋๊ฐ๊ณ ์๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ปดํจํฐ๊ฐ ์ธ๊ฐ์ ๊ฐ์ ์ ๋ ์ ์ดํดํ๋ ๊ฒ์ ์ค์ํ ๋ฌธ์ ๊ฐ ๋์๋ค.
์ฌ์ฉ์์ ๊ฐ์ ์ํ๋ฅผ ์ธ์ํ๊ธฐ ์ํด์๋ ์ธ์ด, ์ผ๊ตด ํ์ , ์์ฑ, ์ ์ค์ฒ, EEG, ์ฌ๋ฐ์ ๋ฑ ์ฌ๋ฌ ์์ฒด ์ ๋ณด๋ฅผ ์์งํด ์ธ์ ์์คํ
์ ์ค๊ณํ๋ ๊ฒ์ด
ํ์ํ๋ค. ๊ทธ๋์ ํนํ ์ ํธ์ฒ๋ฆฌ ๋ถ์ผ์์ ๊ฐ์ ์ธ์์ ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์๋ค (1). ๊ฐ์ ์ธ์ ์ธํฐํ์ด์ค๋ ์ฌ์ฉ์์ ๊ฐ์ ์ํ๋ฅผ ์ ํํ ์ถ์ถํ๊ณ ์ธ์ํ์ฌ, ๊ทธ์ ๋ง๋ ์๋น์ค๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์๋ค. ๊ฐ์ ์ ์ ์ฒด์ ์๊ทน,
์ฌ๋ฆฌ์ ๊ฒฝํ๊ณผ ๊ฐ์ ์ธ๋ถ ์๊ทน์ ๋ํด ๋ณด์ด๋ ๊ฐ์ธ์ ์ฃผ๊ด์ ์ธ ๋๋์ด๊ธฐ ๋๋ฌธ์ ์ฌ์ฉ์์ ๊ฐ์ ์ํ๋ฅผ ์ธ์ํ๊ธฐ ์ํด์๋ ์ฌ์ฉ์์ ์์ฑ ์ ํธ, ์ผ๊ตด ํ์ ,
๋น๋์ค์ ๊ฐ์ ๋ค์ํ ํํ์ ์
๋ ฅ ์ ๋ณด๋ค์ ํจ๊ป ๋ถ์ํ ํ์๊ฐ ์๋ค.
์ต๊ทผ ๋ค์ํ ์ฐ๊ตฌ๋ค์ด ์ผ๊ตด ์ด๋ฏธ์ง์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ๊ฐ์ ์ธ์ ์ฑ๋ฅ์ ๋์ด๊ณ ์๋ค (2-4). ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋ ์ผ๊ตด ๊ฐ์ ์ธ์์ ์ฃผ๋ก 1) ์
๋ ฅ ์ด๋ฏธ์ง์์ ์ผ๊ตด์ ๊ฐ์งํ๋ ๊ฒ, 2) ์ผ๊ตด์ ํน์ง์ ์ถ์ถํ๋ ๊ฒ, 3) ๊ฐ์ ์ ์ธ์ํ๋
๊ฒ ๋ฑ 3๊ฐ์ง์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค. ๊ธฐ์กด์ ๋ฐฉ๋ฒ์์๋ ์ผ๊ตด ์ด๋ฏธ์ง์์ ์ ์ ํ ๊ฐ์ ์ ํน์ง๋ค์ ์ถ์ถํ๋ ๊ฒ์ด ์ค์ํ๊ณ , ๊ทธ ๊ฐ์ ์ ํน์ง๋ค์ ์๊ฐ์ ์ธ ๋ณํ,
์ฆ ํ์ ๊ทผ์ก๋ค์ ์์ง์๊ณผ ๊ฐ์ ๊ฒ๋ค์ ํฌ์ฐฉํ๋ ๊ฒ์ด ์ธ์๋ฅ ์ ๋์ด๊ธฐ ์ํด ํ์ํ๋ค (5). ์ผ๊ตด ๊ฐ์ ์ธ์์์๋ ์ฃผ๋ก Convolutional Neural Network(CNN)๊ฐ ๋ง์ด ์ฌ์ฉ๋์ด์๋ค. CNN์ ์ฌ๋ฌ ํํฐ๋ค์ ํตํด ์
๋ ฅ
์ด๋ฏธ์ง๋ฅผ ํฉ์ฑํ๊ณ ํน์ง ๋งต์ ์๋์ผ๋ก ๋ง๋ค์ด๋ธ๋ค. ํน์ง ๋งต์ Fully connected layer๋ก ๊ฒฐํฉ๋์ด ํด๋์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ ํํ์ ๋ถ๋ฅํ๊ฒ
๋๋ค (6).
์ธ๊ฐ์ ๊ฐ์ ์ด ๋๋ฌ๋ ์ ์๋ ๋ ๋ค๋ฅธ ๋ฐ์ดํฐ์ธ ์์ฑ์ ํธ ๊ฐ์ ๊ฒฝ์ฐ์๋ ์ธ๊ฐ ์ฌ์ด์ ์ปค๋ฎค๋์ผ์ด์
์ ์์ด์ ๊ฐ์ฅ ์์ฐ์ค๋ฌ์ด ๋งค์ฒด์ด๋ฉฐ ์ธ์ด์ ๋ด์ฉ๊ณผ ์ต์,
ํฌ๊ธฐ, ์๋ ๋ฑ ํ์์ ๊ฐ์ ์ด ๋ดํฌ๋ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค. ๋ฐ๋ผ์ ์์ฑ ๊ฐ์ ์ธ์ ์์คํ
์์ ๊ฐ์ฅ ์ค์ํ ๋ฌธ์ ๋ ์ฌ์ฉ์์ ์์ฑ ์ ํธ์์ ํผ์น, ํฌ๋จผํธ,
์๋์ง์ ๊ฐ์ ์ ์ ํ ์ํฅ์ ํน์ง๋ค์ด ์ถ์ถ๋๊ณ ์ ์ ํ ๋ถ๋ฅ์์ง์ด ํจ๊ป ๋ณ๋ ฌ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋๋ก ํ๋ ๊ฒ์ด๋ค. ์ด ๋ ์ํฅ์ ํน์ง์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ผ๋ก๋
MFCC(Mel- Frequency Cepstrum Coefficients)๊ฐ ์ฃผ๋ก ์ฌ์ฉ๋์ด์๋ค. ํ์ง๋ง ์ฌ์ฉ์์ ๊ฐ์ ์ํ์ ์์ฑ ์ ํธ๋ก๋ถํฐ ๋ฝ์๋ธ
์ํฅ์ ํน์ง ์ฌ์ด์ ๋ถ๋ช
ํ ์ฐ๊ฒฐ๊ณ ๋ฆฌ๋ ์๊ธฐ ๋๋ฌธ์, ์ผ๊ตด ๊ฐ์ ์ธ์๋ฐฉ๋ฒ๊ณผ ๋ค๋ฅธ ํํ์ ๊ฐ์ ์ธ์๋ฐฉ๋ฒ๋ณด๋ค ์๋์ ์ผ๋ก ์ธ์๋ฅ ์ด ๋ฎ๋ค. ๋ฐ๋ผ์ ์ ์ ํ ์ํฅ์
ํน์ง์ ์ถ์ถํ์ฌ ๋ชจ๋ธ์ ๋ฐ์ํ๋ ๊ฒ์ด ์ธ์๋ฅ ์ ๋์ด๊ธฐ ์ํด ์ค์ํ๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ฌ๋๋ค์ ํ๋ณต, ์ฌํ, ๋ถ๋
ธ, ์ค๋ฆฝ๊ณผ ๊ฐ์ ๋ง๊ณผ ํ์ ์ ์ฌ์ฉํ๋ ๋ค๋ฅธ ์ฌ๋๋ค์ ๊ฐ์ ์ ์ธ์ํ๋ค. ์ด์ ์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, ์ธ์ด์ ์์๋ ์ธ๊ฐ
์์ฌ์ํต์ 3๋ถ์ 1์ ์ฐจ์งํ๊ณ , ๋น์ธ์ด์ ์์๋ ์ธ๊ฐ ์์ฌ์ํต์ 3๋ถ์ 2๋ฅผ ์ฐจ์งํ๋ค (7,8). ์ผ๊ตด ํ์ ์ ๋น์ธ์ด์ ์์์ ๋ํ์ ์ธ ์์ด๋ค. ์ธ๊ฐ์ ์ง๊ฐ์ , ์ธ์ง์ ์ธก๋ฉด์์ ์ปดํจํฐ๊ฐ ์ธ๊ฐ์ ๊ฐ์ ์ ์ํฅ์ ์ค ๋ ์์ฑ ์ ํธ์ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ
๋์์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ณด๋ค ์ ํํ๊ณ ์์ฐ์ค๋ฌ์ด ๊ฐ์ ์ธ์์ ๋์์ ์ค ์ ์๋ ๊ฒ์ ๋น์ฐํ๋ค. ํ์ง๋ง ์์ฑ ์ ํธ์ ์ผ๊ตด ์ด๋ฏธ์ง ์ํ์ค์์ ๊ฐ๊ฐ ๊ฐ์ ์
์ธ์ํ๋ ๋ฐฉ๋ฒ์ ํน์ฑ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ๋ ์
๋ ฅ์ ๊ฒฐํฉํ๋ ๊ฒ์ ์ฌ์ ํ ๊ฐ์ ์ธ์ ๋ถ์ผ์์ ์ฐ๊ตฌ๋๊ณ ์๋ ๋ถ๋ถ์ด๋ค. ๋ฐ๋ผ์ ๋ณธ ๋
ผ๋ฌธ์์๋ ์์ฑ ์ ํธ์
์ผ๊ตด ์ด๋ฏธ์ง ์ํ์ค๋ฅผ Joint Fine-Tuning๋ฐฉ๋ฒ์ผ๋ก ์ตํฉํด ๊ฐ์ ์ธ์์์์ ์ธ์๋ฅ ์ ๋์ด๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋ ์
๋ ฅ์ ๊ฒฐํฉํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 3๊ฐ์ง ์ฌ์ธต ๋คํธ์ํฌ๋ฅผ ์ค๊ณํ๋ค. ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ์ ์ผ๊ตดํ์ ์ ๋ณํ๋ฅผ ํฌ์ฐฉํ ์ ์๋๋ก
์ผ๊ตด ์ด๋ฏธ์ง ์ํ์ค๋ฅผ ์ด์ฉํด ํ์ต์ํจ๋ค. ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ ๋ฒ์งธ ๋ชจ๋ธ์ Face landmark๋ฅผ ์ด์ฉํ์ฌ ์ผ๊ตด์ ์์ง์์ ๋ฐ์ํ ์ ์๋๋ก
ํ์ต๋๊ณ , ์์ฑ ์ ํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ธ ๋ฒ์งธ ๋ชจ๋ธ์ ์ด๋ฏธ์ง ์ํ์ค๋ฅผ ๋๊ธฐํํ๋ฉด์ ์ํฅ์ ํน์ง์ผ๋ก ๋ณํ๋์ด ํ์ต๋๋ค. ์ด 3๊ฐ์ง ๋ชจ๋ธ์ Joint fine-tuning๋ฐฉ๋ฒ์ผ๋ก
ํตํฉ์ํจ๋ค. ๊ทธ ๊ฒฐ๊ณผ 86.08%๋ผ๋ ๋์ ์ธ์๋ฅ ์ ์ป์๋ค.
๋ณธ ๋
ผ๋ฌธ์ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค. 2์ ์์๋ ์ฐ๊ตฌ์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋ํด์ ์ค๋ช
ํ๊ณ , 3์ ์์๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ, ์ค๊ณํ 3๊ฐ์ง ๋ชจ๋ธ๊ณผ
๊ทธ ๋ชจ๋ธ๋ค์ ํตํฉํ๋ Joint Fine-Tuning๋ฐฉ๋ฒ์ ๋ํด์ ์ค๋ช
ํ๋ค. 4์ ์์๋ ์คํ ํ๊ฒฝ๊ณผ ๋ฐฉ๋ฒ, ๋ชจ๋ธ์ ๋ฐ๋ฅธ ์ ํ๋๋ฅผ ๋น๊ตํ๊ณ , 5์ ์์
๊ฒฐ๋ก ์ผ๋ก ๋ง๋ฌด๋ฆฌ ์ง๋๋ค.
2. ๋ฐ์ดํฐ ๋ฒ ์ด์ค
๋ณธ ๋
ผ๋ฌธ์์๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ก Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS)
(9)๋ฅผ ์ฌ์ฉํ์๋ค. ์ด ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ neutral, calm, happy, sad, angry, fearful, disgust, surprised๋ก
์ด๋ฃจ์ด์ง 8๊ฐ์ ๊ฐ์ ์ํ๋ฅผ ๋ถ๋ฅํด ํํํ๋ค. ๋ฐฐ์ฐ๊ฐ ๊ฐ๊ฐ์ ๊ฐ์ ์ ๋ด์ ํ์ ์ ์ง์ผ๋ฉด์ ๋์ฌ๋ฅผ ๋งํ๋ ์์์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ ์ธ์ด๋ ๋ถ๋ฏธ ์์ด๋ก
๋์ด์์ผ๋ฉฐ, ์ด 24๋ช
์ ๋ฐฐ์ฐ๋ก ๊ตฌ์ฑ๋์ด์๋ค. ๊ฐ๊ฐ์ ์์๋ฐ์ดํฐ๋ audio-visual(AV), video-only(VO), audio-only(AO)
3๊ฐ์ง ํ์์ผ๋ก ์ด์ฉํ ์ ์๊ณ 104๊ฐ์ audio-visual(AV)๋ฐ์ดํฐ์ song๋ฐ์ดํฐ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
์ด ์ค์ 4,320๊ฐ์ audio-visual(AV)๋ฐ์ดํฐ๊ฐ ๋ณธ ๋
ผ๋ฌธ์์ ์ฌ์ฉ๋์๋ค. Neutral์ ์ ์ธํ ๋ชจ๋ ๊ฐ์ ๋ค์ ๊ฐ์ ์ ๊ฐ๋๊ฐ ๋์ ๊ฐ์ ์
์์๋ถํฐ ์ผ์์ํ์์ ๋ฐ๊ฒฌ๋ ์ ์๋ ๋ค์ ๋ฎ์ ๊ฐ๋์ ๊ฐ์ ์ ์์๊น์ง ํฌํจ์ํค๊ธฐ ์ํด์ normal๊ณผ strong์ผ๋ก ๊ฐ์ ์ ๊ฐ๋ ๋จ๊ณ๋ฅผ ๋๋์ด
ํํ๋์ด์๋ค. Neutral๊ณผ calm ๊ฐ์ ๊ฐ์ ๊ฒฝ์ฐ์๋ ๋ฒ ์ด์ค๋ผ์ธ ๊ฐ์ ์ผ๋ก ์ ํ๋์๋๋ฐ, ์ด๋ neutral์ด๋ผ๋ ๊ฐ์ ์ ์ฝ๊ฐ์ ๋ถ์ ์ ์ธ ๊ฐ์ ์ด
ํผํฉ๋์ด์๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ ์ค๋ฆฝ์ด๋ผ๋ ๊ฐ์ ์ ์ ์ ๋ฌํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๊ฐ์ ์ ์ธ ๊ท ํ์ ๋ง์ถ๊ธฐ ์ํด์ ์ฝ๊ฐ์ ๊ธ์ ์ ๊ฐ์ ์ด ํผํฉ๋์ด์๋ calm์ด๋ผ๋
๊ฐ์ ์ด ์ถ๊ฐ์ ์ผ๋ก ์ ํ๋์๋ค.
์ด ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ 247๋ช
์ ํ๊ฐ์๊ฐ ๊ฐ๊ฐ 7,356๊ฐ์ ํ์ผ์ ํ์์งํฉ์ ํ๊ฐํ๊ณ , ์ ๋ขฐ์ฑ์ 72๋ช
์ ํ๊ฐ์๊ฐ ํ๊ฐ์ ๋ด test-retest ๋ฐ์ดํฐ๋ฅผ
์ ๊ณตํ๋ค. ๊ฒ์ฆ์ ํ๊ฐ์๋ค์๊ฒ ํํ๋ ๊ฐ์ ์ ๋ผ๋ฒจ์ ๋ถ์ด๋๋ก ํ๋ค. RAVDESS์์๋ ๊ธฐ์กด์ ์ผ๊ตด ๊ฐ์ ์ธ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ค์ ๊ฒ์ฆ๋ฐฉ๋ฒ๊ณผ๋ ๋ค๋ฅด๊ฒ,
์ดํ์ ์ธ ๋ด์ฉ์ด ๋ค์ด์๋ ์์ง์๊ณผ ๊ฐ์ ์ ํํ๊ณผ ๊ด๋ จ๋ ์์ง์์ด ์ํธ์์ฉํ๋ orofacial ์์ง์์ ๊ฒ์ฆํด์ผํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ ์๊ทน์ ๋ํ ๊ฐ์
์ ํ๋, ๊ฐ๋ ๋ฐ ์ง์ฑ(์ง์ค์ฑ)์ ์ธก์ ํ๋๋ก ์ ์๋์ด์๋ค. ์ ์ ํ ์๊ทน ์ ํ์ ์ํด Goodness์ ์๋ฅผ ๋ถ๊ณผํ๋๋ฐ, Goodness score๋
0๊ณผ 10์ฌ์ด์ ๋ฒ์๋ก, ํ๊ท ์ ํ๋, ๊ฐ๋ ๋ฐ ์ง์ฑ ์ธก์ ์ ๊ฐ์ค์น ํฉ์ด๋ค. ์ด ๋ฐฉ์ ์์ ์ ํ๋, ๊ฐ๋ ๋ฐ ์ง์ฑ์ ๋ ๋์ ์ธก์ ๊ฐ์ ๋ฐ๋ ์๊ทน์ ๋
๋์ Goodness score๋ฅผ ๋ถ์ฌํ๋๋ก ์ ์๋์ด์๋ค.
๊ทธ๋ฆผ. 1. ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ด๋ฏธ์ง ์์
Fig. 1. Examples from the RAVDESS dataset
3. ์ ์ํ๋ ๋ฐฉ๋ฒ
3.1 Preprocessing
๊ทธ๋ฆผ 2์์ ์์ด ์๋ ๋ถ๋ถ์ ๋ฐฐ์ฐ๊ฐ ๊ฐ์ ์ ํํํ๋ ๊ฒ์ ์ค๋นํ๊ฑฐ๋, ๋ง์น๋ ๋น์์ฑ๊ตฌ๊ฐ์ด๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ๋ฐฐ์ฐ๊ฐ ๊ฐ์ ์ ํํํ๋ ๋ถ๋ถ, ์ฆ ๋งํ๋ ๋ถ๋ถ์
์ผ๊ตด ์ด๋ฏธ์ง์ ์์ฑ ์ ํธ๊ฐ ํ์ํ๋ค. ๋ณธ ๋
ผ๋ฌธ์๋ ๋ฐฐ์ฐ๊ฐ ๊ฐ์ ์ ํํํ๋ ๋ถ๋ถ, ์ฆ ๋งํ๋ ๋ถ๋ถ์ ์ผ๊ตด ์ด๋ฏธ์ง์ ์์ฑ ์ ํธ๊ฐ ํ์ํ๋ค. ๊ทธ๋ฆผ 2๋ฅผ ๋ณด๋ฉด ์์ฑ์ ํธ๋ ๋ฐฐ์ฐ๊ฐ ๊ฐ์ ์ ํํํ๋ ๋ถ๋ถ๊ณผ ํํํ์ง ์๋ ๋ถ๋ถ์ผ๋ก ๋๋์ด์ง๋ค. ๊ฐ์ ์ ํํํ์ง ์๋ ๋ถ๋ถ์ ๋ถํ์ํ ์ ๋ณด๋ก ๋ชจ๋ธ์ ์ ํ๋๊ฐ
๋ฌ๋ผ์ง ์ ์๊ธฐ ๋๋ฌธ์ ์ ํ๋๋ฅผ ๋์ด๊ธฐ ์ํด ์ด ๋ถ๋ถ์ ์ ๊ฑฐํ๋ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ด ํ์ํ๋ค. ์์ฑ์ ํธ์์ ์์ฑ๊ตฌ๊ฐ์ ๋น์์ฑ๊ตฌ๊ฐ๋ณด๋ค ์๋์ง ๊ฐ์ด ํฌ๊ธฐ ๋๋ฌธ์
๋ ๊ตฌ๊ฐ์ ๊ตฌ๋ถํ ์ ์๋๋ก Integrate Absolute Value(IAV) ํน์ง๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๊ณ ์์ ๋ค์๊ณผ ๊ฐ๋ค (10).
์ฌ๊ธฐ์์, X : ์ธก์ ๋ ์ ํธ
โณt : ์ํ๋ง ์๊ฐ ๊ฐ๊ฒฉ
N : ์ํ์ ์
i : ์ํ์ ์์
๊ทธ๋ฆผ. 2. ๋น๋์ค์ ์ด๋ฏธ์ง ์ํ์ค์ ์์ฑ์ ํธ
Fig. 2. Speech signal and image sequence from a video
์ฐ์ , ์ ํธ์์ ์๋์ง์ ์ต๋๊ฐ๊ณผ ์ต์๊ฐ์ธ ๋ถ๋ถ์ ์ฐพ์์ ์ต์๊ฐ๋ณด๋ค ์ต๋๊ฐ๊ณผ ์ต์๊ฐ์ ์ฐจ์ด์ 10%๋งํผ ์๋์ง๊ฐ ํฐ ๋ถ๋ถ์ IAV ์๊ณ๊ฐ์ผ๋ก ์ค์ ํ๋ค.
๋ง์ฝ์ ์ต๋๊ฐ์ 70%๊ฐ ์ต์๊ฐ๋ณด๋ค ์์ผ๋ฉด ์๊ณ๊ฐ์ ์ต๋๊ฐ์ 20% ์๋๋ก ์ค์ ํ๋ค. ๊ทธ ๊ณผ์ ์ ์์๋ ๊ทธ๋ฆผ 3๊ณผ ๊ฐ๋ค.
๊ทธ๋ฆผ. 3. IAV ์๊ณ๊ฐ ์ค์ ์์
Fig. 3. An examples of determining the threshold
์์ฑ๊ตฌ๊ฐ์ ํ๋ ์๋จ์๋ก ํด๋น ํ๋ ์ ๋ด์์ ์๊ณ๊ฐ๋ณด๋ค ์ปค์ง๋ ์ง์ ์ ์์์ ์ผ๋ก ํ๊ณ ์์์ ๋ถํฐ ์๊ณ์น๊ฐ ์์์ง๋ ๊ตฌ๊ฐ์ด ๋์ค๋ฉด ๊ทธ ์ง์ ์ ๋ ์ ์ผ๋ก
ํ๊ฒ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ ํํ ์์ฑ๊ตฌ๊ฐ์ ์ถ์ถํ์๊ณ , ๊ทธ ์์ฑ๊ตฌ๊ฐ์ ๋ง์ถ์ด ์ด๋ฏธ์ง ์ํ์ค๋ฅผ ์ํ๋ง ํ์๋ค. ์ด๋ฏธ์ง ์ํ์ค์ sampling
rate๋ 30Hz์ผ๋ก ํ๋ค. ๊ทธ๋ฌ๋ฉด 33.33ms๋จ์๋ก ๋ถ์ํ๊ฒ ๋๊ธฐ ๋๋ฌธ์ 48000Hz๋ก ์ํ๋ง๋ ์์ฑ์ ํธ์ ์๋์ฐ ํฌ๊ธฐ๋ ์ด๋ฏธ์ง ์ํ์ค์ ์ํ๋ง
์ฃผํ์์ ๋ง์ถ์ด 1,600์ผ๋ก ํ๋ค.
3.2 ๊ฐ์ ์ธ์๋ชจ๋ธ
๋ณธ ๋
ผ๋ฌธ์์๋ 3๊ฐ์ง ๋ชจ๋ธ์ ์ค๊ณํ๊ณ ํตํฉํ๋ค. ์ด๋ฏธ์ง ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ก์ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ์
๋ ฅ์ผ๋ก ํ ๋ชจ๋ธ๊ณผ Face land- mark์ ์
๋ ฅ์ผ๋ก ํ
๋ชจ๋ธ์ ์ค๊ณํ๋ค. ๊ทธ๋ฆฌ๊ณ ์์ฑ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ค๊ณํ๋๋ฐ, ์ด ๋ ์ด ๋ชจ๋ธ์ ์
๋ ฅ์ Acoustic feature๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ํ๊ธฐ ์ํด์ ์์ฑ ๊ฐ์ ์ธ์
์ฐ๊ตฌ๋ค (15,16)์์ ๋ง์ด ์ฌ์ฉ๋๋ Acoustic feature๋ค์ ๋ฐํ์ผ๋ก ์ฌ์กฐํฉํ์ฌ ์ต์ ์ ํน์ง ์กฐํฉ์ ๊ตฌ์ฑํ์๋ค. ๋ํ ์ด 3๊ฐ์ง ๋ชจ๋ธ์ ํตํฉํ๊ธฐ ์ํด Joint
Fine-Tuning (11) ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
3.2.1 ์ผ๊ตด ์ด๋ฏธ์ง ๋ชจ๋ธ
๊ทธ๋ฆผ. 4. ์ผ๊ตด ์ด๋ฏธ์ง ์ํ์ค๋ฅผ ์
๋ ฅ์ผ๋ก ํ ์ด๋ฏธ์ง ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ
Fig. 4. Structure of Image based model for a Face image sequence
๋ชจ๋ธ์ CNN์ ๊ธฐ๋ฐ์ผ๋ก ์ผ๊ตด ์ด๋ฏธ์ง ์ํ์ค๋ฅผ ์
๋ ฅ์ผ๋ก ์ผ๊ตด์ ๋ณํ๋ฅผ ์ธ์ํ๋ค. ๋ชจ๋ ์ด๋ฏธ์ง๋ ๊ทธ๋ ์ด ์ค์ผ์ผ๋ก ๋ณํ๋๊ณ 64x64 px ํฌ๊ธฐ๋ก ๊ณ ์ ๋๋ค.
๊ฐ Convolution layer๋ 2D-CNN layer์ด๊ณ ์ปค๋ ์ฌ์ด์ฆ๋ (3, 3)์ผ๋ก ํ๋ค. ํ์ฑํจ์๋ก๋ ReLU๋ฅผ ์ฌ์ฉํ๋ค. Timestep์
10์ผ๋ก ์ค์ ํ์ฌ ํ๋ฒ์ 10์ฅ์ ์ด๋ฏธ์ง๊ฐ Convolution layer์ ๋ค์ด๊ฐ ์ฒ๋ฆฌ๋๋๋ฐ, ์๊ฐ์ถ์ ๋ฐ๋ผ์ ๊ฐ์ค์น๋ฅผ ๊ณต์ ํ์ง ์๊ณ ์
๋ ฅ๋์๊ธฐ
๋๋ฌธ์ ๊ฐ ์ปค๋๋ค์ ์๊ฐ์ ๋ฐ๋ผ์ ๋ค๋ฅธ ํน์ง ๋งต์ ์์ฑํ๊ฒ ๋๋ค. ๊ทธ ํน์ง ๋งต๋ค์ Stack์ ์์ด๊ณ ๊ทธ๋๋ก LSTM layer๋ก ๋ค์ด๊ฐ ์ฒ๋ฆฌ๋๋ค.
๊ทธ ์ถ๋ ฅ๊ฐ์ Fully connected layer์ ์ฐ๊ฒฐ๋์ด ๋ง์ง๋ง Softmax layer๋ฅผ ํตํด ๊ฐ์ ์ ํ๋ฅ ์ ์ถ๋ก ํ๋ค. ๋ํ Regulari-
zation์ ์ํด Weight-decay ๋ฐฉ๋ฒ๊ณผ Dropout ๋ฐฉ๋ฒ์ด ์ฌ์ฉ๋์๋ค.
์ฌ๊ธฐ์ Regularization์ ํ์ต์์ ๋ฐ์ํ๋ ์๋ฌ ์ธ์ ํ๊ฐ๋ฅผ ์ํ ํ
์คํธ์์์ ๋ฐ์ํ๋ ์๋ฌ๋ฅผ ์ค์ด๊ธฐ ์ํด ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์์ ํ๋ ๋ฐฉ๋ฒ์ด๊ณ ,
๊ทธ ๋ฐฉ๋ฒ์ผ๋ก Weight-decay์ Dropout์ด ์๋ค. Weight-decay๋ weight๋ค์ ๊ฐ์ด ์ฆ๊ฐํ๋ ๊ฒ์ ์ ํํจ์ผ๋ก์จ ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ
๊ฐ์์์ผ ์ ํํ๋ ๊ธฐ๋ฒ์ด๊ณ , Dropout์ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์์ ์ ์ฒด ์ค์ ์ผ์ ํ ๋น์จ์ ๋
ธ๋๋ฅผ ํ์ตํ์ง ์์ ์ค๋ฒํผํ
์ด ๋ฐ์ํ์ง ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
3.2.2 Face landmark ๋ชจ๋ธ
๊ทธ๋ฆผ. 5. Face landmark๋ฅผ ์
๋ ฅ์ผ๋ก ํ ์ด๋ฏธ์ง ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ
Fig. 5. Structure of Image based model for a Face landmark
Face landmark๋ ์ผ๊ตด์ ์์ง์์ ํฌ์ฐฉํด ์ผ๊ตด ํ์ ์ ์ ์ถํ ์ ์๋๋ก ํ๋ค. Face landmark๋ ์์ ์ผ๊ตด ์ด๋ฏธ์ง ๊ตฌ๊ฐ๊ณผ ๋์ผํ
๊ตฌ๊ฐ์์ ๊ณ ์ฑ๋ฅ ์ผ๊ตด ์ธ์ c++ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ธ dlib ์ ๊ณตํ๋ 68๊ฐ์ landmark๋ค ์ค์ ์ค๊ณฝ 17๊ฐ์ ์
์ ์๋ ์์ชฝ landmark 2๊ฐ๋ฅผ
์ ์ธํ 49๊ฐ๋ง์ ๋ณธ ๋
ผ๋ฌธ์์ ์ฌ์ฉํ๋ค. ์ผ๊ตด ์ค๊ณฝ๊ฐ์ ๊ฒฝ์ฐ์๋ ์ฌ๋์ ํ์ ์ ์ธ์ํ๋๋ฐ ์ ์ฐ์ด์ง ์๊ณ , ์
์ ์ ์๋๊ณผ ์
์ ์ ๊ฐ์ด๋ฐ ๋ถ๋ถ์ผ๋ก ์ถฉ๋ถํ
์
๋ชจ์์ ์ธ์ํ ์ ์์ด ์
์ ์๋ ์์ชฝ landmark๋ ์ ์ธํ์๋ค. Timestep์ 10์ผ๋ก ํ์ฌ 10์ฅ์ ์ด๋ฏธ์ง์์ ๊ฐ๊ฐ ๋ฝ์ 49๊ฐ์ landmark๋
๊ฐ๊ฐ x,y ์ขํ๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ , Face landmark ๋ฒกํฐ๋ 1์ฐจ์์ผ๋ก ๋์ด๋์ด ์
๋ ฅ๋๊ธฐ ๋๋ฌธ์ ์ด 980๊ฐ์ ํน์ง์ ๋ฒกํฐ๊ฐ Fully connected
layer๋ก ๋ค์ด๊ฐ์ ์ฒ๋ฆฌ๋๋ค. ํ์ฑํจ์๋ก๋ ReLU๋ฅผ ์ฌ์ฉํ๋ค. Regularization์ ์ํด์๋ Dropout ๋ฐฉ๋ฒ์ด ์ฌ์ฉ๋์๋ค.
3.2.3 ์์ฑ ๊ธฐ๋ฐ์ ๋ชจ๋ธ
์์ฑ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์
๋ ฅ์ ์ ์ํ๋๋ฐ Acoustic feature๋ฅผ ์ฌ์ฉํ์๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ Acoustic feature๋ค์ ์กฐํฉํ ๋, ์ด์
๊ฐ์ ์ธ์ ์ฐ๊ตฌ๋ค์์๋ ์ ์ฌ์ฉ๋์ง ์์๋ ์์ฑ์ ํ์์ ์ ๋ฐ์ํด์ฃผ๋ harmonic ๊ด๋ จ ํน์ง์์๋ฅผ ํฌํจ์์ผฐ๋ค. ์ต์ ์ ํน์ง ์กฐํฉ์ ์ ๋ณํ๊ธฐ ์ํด
์์ฑ ๊ฐ์ ์ธ์์ฐ๊ตฌ๋ค์์ ๋ง์ด ์ฌ์ฉ๋์๋ ํน์ง๋ค์ ์กฐ์ฌํ๊ณ , ๊ฐ ํน์ง ์์๋ค์ ๊ฐ๋ณ์ ์ผ๋ก ๋ถ์ํ๊ณ ํต๊ณ์ ์ผ๋ก ๊ฐ์ ๋ถ๋ฅ์ ํนํ๋ ํน์ง๋ค์ ์ ๋ณํ๊ณ ๋ค์
์กฐํฉํ์ฌ ์ต์ ์ ํน์ง ์กฐํฉ์ ์ฐพ์๋ค. ์ ๋ณ๋ 43๊ฐ์ Acoustic feature์ ๋ค์๊ณผ ๊ฐ๋ค.
โ 13 MFCCs
โ 11 Spectral feature: spectral centroid, spectral bandwidth, 7 spectral contrast,
spectral flatness, spectral roll-off
โ 12 Chroma: 12-dimensional Chroma vector
โ 7 harmonic feature: inharmonicity, 3 tristimulus, harmonic energy, noise energy,
noiseness
์์ฑ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
๊ทธ๋ฆผ. 6. ์์ฑ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ
Fig. 6. Structure of Speech-based model
์์ฑ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์์ ๋ ๋ชจ๋ธ๊ณผ ๊ฐ์ด Timestep์ 10์ผ๋ก ํ๊ณ ๊ฐ๊ฐ์ ์ ํธ์์ 43๊ฐ์ Acoustic feature๋ฅผ ๋ฝ์๋ธ๋ค. ์ด 430๊ฐ์
feature ๋ฒกํฐ๋ค์ LSTM layer์ ์
๋ ฅ๋๋ค. ๋ํ ๊ทธ ์ถ๋ ฅ๊ฐ์ Fully connected layer์ ์ฐ๊ฒฐ๋๊ณ ๋ง์ง๋ง layer๋ Softmax๋ฅผ
ํตํด ๊ฐ ๊ฐ์ ์ ํ๋ฅ ์ ์ถ๋ก ํ๋ค. ๊ฐ layer์๋ Regularization์ ์ํด 0.5๋ก Dropoutํ์๋ค.
3.2.4 Joint Fine-Tuning
๊ทธ๋ฆผ. 7. Joint Fine-Tuning๋ฐฉ๋ฒ์ผ๋ก 3๊ฐ์ง ๋ชจ๋ธ์ ํตํฉํ ๊ทธ๋ฆผ
Fig. 7. A figure that integrated three models with Joint Fine-Tuning
๋ณธ ๋
ผ๋ฌธ์์๋ ์ด 3๊ฐ์ง ๋ชจ๋ธ์ ๊ฒฐํฉํ๊ธฐ ์ํด์ ๊ธฐ์กด ์ฐ๊ตฌ (11)์์ ์ฌ์ฉํ Joint Fine-Tuning๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ์ฐ์ , ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๋ง์ง๋ง layer๋ฅผ softmax๋ก ํ์ฌ ๋ฏธ๋ฆฌ ํ๋ จ์ํจ๋ค. ๊ทธ๋ฆฌ๊ณ
๊ฐ๊ฐ ํ๋ จ์ด ๋๋๊ณ ๋์จ Fully connected layer๋ค๋ง์ ์๋ก์ด ํตํฉ๋ชจ๋ธ๋ก ์ฌ์ฉํ๊ฒ ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์์ ํ๋ จ๋ ๋ชจ๋ธ๋ค์ weight๊ฐ์
freeze๋๋ค. ์ต์ข
์ ์ผ๋ก 3๊ฐ์ Fully connected layer๋ฅผ ์ฌํ๋ จํ๊ณ ํตํฉ๋ชจ๋ธ์ ์๋ ํ๋์ Softmax layer์ ์ฐ๊ฒฐํด ๊ฐ์ ์
ํ๋ฅ ์ ์ถ๋ก ํ๊ฒ ๋๋ค.
4. ์ค ํ
๋ณธ ์ฐ๊ตฌ์์๋ ์ ์ํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ, ์์ฑ ์ ํธ๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ, ์ด๋ฏธ์ง์ ์์ฑ ์ ํธ๋ฅผ ํจ๊ป ์ฌ์ฉํ ๋ชจ๋ธ๊ณผ์ ๋น๊ต
์คํ์ ์ํํ์๋ค. Jung et al. (11)์ ์ด๋ฏธ์ง ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ผ๊ตด ์ด๋ฏธ์ง์ Face landmark๋ฅผ ๊ฒฐํฉํ์ฌ ์ธ์ํ์๊ณ , Wang et al. (12), Ma et al. (13), ๊ทธ๋ฆฌ๊ณ Hossain et al. (14)์ ์์ฑ ์ ํธ๋ฅผ Mel-frequency spectrum์ผ๋ก ๋ณํํ์ฌ CNN ๋ชจ๋ธ์ ์ผ๊ตด ์ด๋ฏธ์ง์ ๊ฒฐํฉํ์ฌ ๊ฐ์ ์ ์ธ์ํ์๋ค. ๋ํ, Zamil et
al. (15)๊ณผ Shaqra et al. (16)์ Speech signal๋ก ๋ถํฐ Acoustic feature๋ฅผ ์ถ์ถํ์ฌ ๊ฐ๊ฐ Logistic model tree์ multilayer perceptron
neural network์ ์ฌ์ฉํ์ฌ ๊ฐ์ ์ ์ธ์ํ์๋ค. ์คํ์ ๊ฐ ๋ชจ๋ธ ๋ชจ๋ ๊ฐ์ ํ๊ฒฝ์์ ์ํ ๋์์ผ๋ฉฐ, ์ฌ์ฉ๋ ์ํํธ์จ์ด์ ํ๋์จ์ด ์ฌ์์ ํ 1๊ณผ ๊ฐ๋ค.
ํ 1. ์คํ์ ์ฌ์ฉ๋ Software์ Hardware์ ๊ท๊ฒฉ
Table 1. Specifications of Software and Hardware used in the experiment
|
๊ท ๊ฒฉ
|
Operating system
|
Ubuntu 18.04 LTS
|
Tensorflow
|
1.15
|
Cuda
|
10.1
|
CPU
|
intel Core i7-4770
|
GPU
|
GeForce GTX 1080Ti x 1
|
RAM
|
16GB
|
ํ 2. ๋ชจ๋ธ์ ๋ฐ๋ฅธ ์ ํ๋ ๋น๊ต
Table 2. Model accuracy comparison
Model
|
Input
|
Accuracy
|
(11)
|
Image
|
g82.816%
|
(12)
|
Image, Speech
|
77.66%
|
(13)
|
Image, Speech
|
77.31%
|
(14)
|
Image, Speech
|
75.62%
|
Proposed model
|
Image, Speech
|
86.06%
|
(15)
|
Speech
|
67.14%
|
(16)
|
Speech
|
74%
|
๊ธฐ์กด์ ๊ฐ์ ์ธ์ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ๊ธฐ ์ํด RAVDESS ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ์ฌ์ฉํ์ฌ ๋น๊ต ํ์๋ค. 2์ ์์ ์ธ๊ธํ ๊ฒ๊ณผ ๊ฐ์ด RAVDESS ๋ฐ์ดํฐ๋ฒ ์ด์ค๋
AV ๋ฐ์ดํฐ, VO ๋ฐ์ดํฐ ๊ทธ๋ฆฌ๊ณ AO 3๊ฐ์ง ํ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๊ธฐ์กด ๋ชจ๋ธ์ ์
๋ ฅ์ ๋ง๊ฒ ๋ฐ์ดํฐ ์
์ ํ์ฉ ํ์์ผ๋ฉฐ, ์ ์ํ๋ ๋ชจ๋ธ์ ์ด๋ฏธ์ง์
์์ฑ์ ๋ชจ๋ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ AV ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต ๋ฐ ํ
์คํธ๋ฅผ ์ํํ์๋ค. ๋ฐ์ดํฐ๋ ์ด 4,320๊ฐ๋ก ๊ตฌ์ฑ ๋์ด ์์ผ๋ฉฐ, ๊ฒ์ฆ์ ์ํด 10-fold
validation ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์์ผ๋ฉฐ, ํ์ต 90%, ํ
์คํธ 10%์ฉ ๋ฐ์ดํฐ๋ฅผ ์์๋ก ๋๋์ด ์ด 10๋ฒ ์ํํ์๋ค. ๋ฐ๋ผ์ ๋ชจ๋ ๋ฐ์ดํฐ ์
์ ํ๊ฐ์
ํ๋ จ์ ํ์ฉํ์ฌ ์ ๋ขฐ์ฑ์ ๋์๋ค. ๋ชจ๋ธ์ ๊ฐ๊ฐ 10๋ฒ์ ์ ํ๋๋ฅผ ๊ตฌํ๊ณ ๊ทธ ์ ํ๋์ ํ๊ท ์ ๊ตฌํ์ฌ ์ต์ข
์ ํ๋๋ฅผ ์ธก์ ํ์๋ค. ์คํ ๊ฒฐ๊ณผ๋ ํ 2์ ๊ฐ๋ค.
๋ณธ ๋
ผ๋ฌธ์์ ์ ์๋ ๋ชจ๋ธ์ Joint Fine-Tuning๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ผ๊ตด ์ด๋ฏธ์ง์ Face landmark์ ์์ฑ ์ ํธ๋ฅผ ํตํฉํ์ฌ ํ์ต์์ผฐ์
๋ 86.06%์ ์ ํ๋๋ฅผ ๋ณด์๋ค. ์ ์๋ ๋ชจ๋ธ๊ณผ ๊ฐ์ ํตํฉ๋ฐฉ๋ฒ์ ์ฌ์ฉํ (11)์ ์์ฑ ์ ํธ๋ ์ฌ์ฉํ์ง ์์๊ณ , 82.816%์ ์ ํ๋๋ฅผ ๋ณด์๋ค. ์ด๊ฒ์ ํ 2์์ ๋ณด์ด๋ฏ์ด ์ ์๋ ๋ชจ๋ธ๋ณด๋ค 3.2% ๋ฎ์ ๊ฐ์ ์ ํ๋์๋ค. (12-14)๋ ์ ์๋ ๋ชจ๋ธ์ฒ๋ผ ๋ฏธ์ง์ ์์ฑ ์ ํธ๋ฅผ ์ฌ์ฉํ์์ง๋ง ์ ์๋ ๋ชจ๋ธ๊ณผ๋ ํตํฉ๋ฐฉ๋ฒ์ด ๋ฌ๋๊ณ , Face landmark ๋ฐ์ดํฐ๋ ์ฌ์ฉํ์ง ์์๋ค. ๋ฐ๋ผ์
75%์์ 77%์ ๋ ๋ฎ์ ๊ฐ์ ์ ํ๋๋ฅผ ๋ณด์๋ค. ์ ์๋ ๋ชจ๋ธ์ ์์ ์ธ๊ธํ๋ฏ์ด ์ฐ๊ตฌ๋ฅผ ํตํด 43๊ฐ์ Acoustic feature๋ฅผ ์ถ์ถํด ์ฌ์ฉํ๋ค.
๊ทธ๋์ ์ ์ํ ๋ฐฉ๋ฒ๋ณด๋ค ๋ ๋ฎ์ ์ ํ๋์ธ 67.14%๋ฅผ ๋ณด์๋ค. (16)๋ ์์ฑ์ ํธ๋ง์ ์ฌ์ฉํด Acoustic feature ์ถ์ถ ๋๊ตฌ์ธ Opensmile์ ์ด์ฉํ์ฌ feature๋ฅผ ์ถ์ถํ์ฌ ๋ชจ๋ธ์ ์ค๊ณํ๋ค. ์ด ๋ชจ๋ธ์
์ ์ํ ๋ชจ๋ธ๋ณด๋ค ๋ฎ์ ์ ํ๋์ธ 74%๋ฅผ ๋ณด์๋ค. ๋ฐ๋ผ์ ํ 2๋ฅผ ๋ณด๋ฉด ์ ์๋ ๋ชจ๋ธ์ด ๊ฐ์ฅ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์์ ์ ์ ์๋ค.
5. ๊ฒฐ ๋ก
์์ฒด์ ํธ๋ค์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์ฌ๋ฌ ๊ฐ์ ์ธ์๋ฐฉ๋ฒ๋ค์ด ์์ง๋ง ์ผ๋ฐ์ ์ธ ์์ฌ์ํต์ ์ํฉ์์ ์ฌ๋๋ค์ ํ์ธ์ ๊ฐ์ ์ ์ธ์ํ๊ธฐ ์ํด ์๋ก์ ์ฌ๋ฐ์๋ฅผ ์ฌ๋ ๋ฑ์
ํ์๋ก ๊ฐ์ ์ ์ธ์ํ์ง๋ ์๋๋ค. ์ฌ๋๋ค์ ๋ค๋ฅธ ์ฌ๋๋ค์ด ํ๋ ๋ง๊ณผ ์ผ๊ตด ํ์ ์ผ๋ก ์ฃผ๋ก ๊ฐ์ ์ ์ธ์ํ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ฌ๋์ ์์ฑ๊ณผ ์ผ๊ตด ํ์ ์ผ๋ก
๊ฐ์ ์ ์ธ์ํ๋ ๊ฒ์ ๋ง ๊ทธ๋๋ก ์ธ๊ฐ์ ์ธ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ํ ์ ์๋ค.
๋ณธ ๋
ผ๋ฌธ์์๋ ์ผ๊ตด ์ด๋ฏธ์ง๋ง์ผ๋ก ๊ฐ์ ์ ์ธ์ํ๋ ๊ฒ์์ ๋ ๋์๊ฐ ์์ฑ ์ ํธ์ ๊ฒฐํฉํ์ฌ ๊ฐ์ ์ธ์์ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. ์ผ๊ตด์ ์ ์ฒด์ ์ธ ๋ณํ๋ฅผ ๊ฐ์งํ๋
์ผ๊ตด ์ด๋ฏธ์ง๊ธฐ๋ฐ์ ๋ชจ๋ธ, ์ผ๊ตด์์ ํ์ ๊ณผ ๊ด๋ จ๋ ํน์ง ์ ๋ค์ ์์ง์์ ํ์
ํ๋ Face landmark ๊ธฐ๋ฐ์ ๋ชจ๋ธ, ๊ฐ์ ๋ถ๋ฅ์ ํนํ๋ ํน์ง์ ์ถ์ถํ์ฌ
์
๋ ฅ์ ์ ์ํ ์์ฑ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ค๊ณํ์ฌ ์ต์ข
์ ์ผ๋ก ํตํฉํด ๊ฐ ์
๋ ฅ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ฐ์ํ์๋ค. ์ถํ์๋ ์ธ์๋ฅ ์ ๋ ๋์ด๊ธฐ ์ํด์ ๋ชจ๋ธ๊ฐ์ ๊ฒฐํฉ์
๋ํด์ ๋ ์ฐ๊ตฌํ ์์ ์ด๋ค.
Acknowledgements
This work was supported by the National Research Foundation of Korea(NRF) grant funded
by the Korea government(MSIT) (No. NRF-2019R1F1A1050052).
References
S. Zhang, S. Zhang, T. Huang, W. Gao, 2008, Speech emotion recognition using deep
convolutional neural network and discriminant temporal pyramid matching, IEEE Trans
Multi- med 20:1576-1590
S. Li, W. Deng, 2020, Deep facial expression recognition: A survey, IEEE Trans Affective
Comp (Early Access)
N. Sun, L. Qi, R. Huan, J. Liu, G. Han, 2019, Deep spatial- temporal feature fusion
for facial expression recognition in static images, Pattern Recognit Lett 119, pp.
49-61
Myeong Oh Lee, Ui Nyoung Yoon, Seunghyun Ko, Geun- Sik Jo, 2019. 12, Efficient CNNs
with Channel Attention and Group Convolution for Facial Expression Recognition, Journal
of KIISE, Vol. 46, Vol. 12, No. 46, pp. 1241-1248
J. Hamm, C. G. Kohler, R. C. Gur, R. Verma, 2011, Automated facial action coding system
for dynamic analysis of facial expressions in neuropsychiatric disorders., J Neurosci
Methods, 200, pp. 237-256
B. C. Ko, 2018, A brief review of facial emotion recognition based on visual information,
Sensors 18
A. Mehrabian, 1968, Communication without words, Psychol Today 2, pp. 53-56
K. Kaulard, D. W. Cunningham, H. H. Blthoff, C. Wallraven, 2012, The MPI facial expression
database-A validated database of emotional and conversational facial expressions,
PLoS ONE 7, pp. e32321
R. Livingstone Steven, A. Russo1 Frank, 2018, The Ryerson Audio-Visual Database of
Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal
expressions in North American English, PloS one, Vol. 13, No. 5, pp. e0196391
Sung-Woo Byun, Seok-Pil Lee, 2016, Emotion Recognition Using Tone and Tempo Based
on Voice for IoT, The Tran- sactions of the Korean Institute of Electrical Engineers,
Vol. 65, No. 1
H. Jung, S. Lee, J. Yim, S. Park, J. Kim, 2015, Joint fine-tuning in deep neural networks
for facial expression recognition, 2015 IEEE Int Conf Comput Vision (ICCV)
Wang Xusheng, Chen Xing, Cao Congjun, , Human emotion recognition by optimally fusing
facial expression and speech feature
Y. Ma, Y. Hao, M. Chen, J. Chen, P. Lu, A. Kosir, 2019, Audiovisual emotion fusion
(AVEF): A deep efficient weighted approach, Inf Fusion 46, pp. 184-192
M. S. Hossain, G. Muhammad, 2019, Emotion recognition using deep learning approach
from audio-visual emotional big data, Inf Fusion 49, pp. 69-78
A. A. A. Zamil, S Hasan, S. J. Baki, J. Adam, I. Zaman, 2019, Emotion detection from
speech signals using voting mechan- ism on classified frames, 2019 Int Conf Robotics,
Electr Signal Processing Technol (ICREST)
F. A. Shaqr, R. Duwairi, M. Al-Ayyou, 2019, Recognizing emotion from speech based
on age and gender using hierarchical models, Procedia Comput Sci 151, pp. 37-44
์ ์์๊ฐ
์๋ช
์ง (Myoung-jin Son)
Son received BS degree in Computer Science from SangMyung University, Seoul, Korea
in 2018.
She is now a Master degree student in department of computer science from Sang-
Myung University.
Her main research interests include signal processing, artificial intelligence,
audio digital processing.
Seok-Pil Lee received BS and MS degrees in electrical engineering from Yonsei University,
Seoul, Korea, in 1990 and 1992, respectively.
In 1997, he earned a PhD degree in electrical engineering also at Yonsei University.
From 1997 to 2002, he worked as a senior research staff at Daewoo Electronics, Seoul,
Korea.
From 2002 to 2012, he worked as a head of digital media research center of Korea
Elec- tronics Technology Institute. He worked also as a research staff at Georgia
Tech., Atlanta, USA from 2010 to 2011.
He is currently a professor at the dept. of electronic engineering, SangMyung University.
His research interests include artificial intelligence, audio digital pro- cessing
and multimedia searching.