计算机与信息工程学院认知与情感计算研究团队赵子平老师在基于语音信号的情感计算研究中取得进展
日前,计算机与信息工程学院赵子平老师及其合作者在《Neural Networks》上发表了题为“Combininga parallel 2D CNN with a self-attention Dilated Residual Network for CTC-based discrete speech emotion recognition”的学术论文。
该文提出了一种联合并行卷积神经网络和自注意力残差卷积网络搭配CTC(Connectionist temporal classification)损失函数的语音情感识别方法。首先,将原始的语音信号转化成对数梅尔频谱图然后做二阶差分组成3维的对数梅尔频谱图,以获取它们动态的时间和频率信息。其次,利用并行的卷积网络进行空间特征提取,再次,使用残差扩张卷积网络来学习语音特征种的长时动态特征。接下来,研究了一种自注意机制,该机制在信号帧和通道两个层次上聚合情感信息,最后使用CTC损失作为优化目标,解码得到情感类别。本方法在国际公开的情感数据集IEMOCAP (Interactive Emotional Dyadic Motion Capture)和FAU-AEC (FAU-Aibo Emotion corpus)进行实验验证,实验结果表明,该方法能够有效地提升情感识别的性能。该文具有很强的综合性,充分利用了深度学习中的各种方法,体现了认知与情感计算团队的研究特色。
计算机与信息工程学院副院长赵子平老师是该文的第一作者,指导的硕士研究生李启飞为该文的共同第一作者。该研究得到国家自然科学面上项目(No:62071330)、国家自然科学基金青年项目(No:61702370)与天津市自然科学基金重点项目(No:18JCZDJC36300)等项目资助。
论文链接:https://doi.org/10.1016/j.neunet.2021.03.013
【关闭】