基于卷积神经网络的藏语语音情感识别  被引量:2

在线阅读下载全文

作  者:王希 王君堡 边巴旺堆 WANG Xi;WANG Junbao;BIANBA Wangdui

机构地区:[1]西藏大学信息科学技术学院,西藏拉萨850000 [2]西藏大学信息技术学院国家级实验教学示范中心,西藏拉萨850000

出  处:《信息技术与信息化》2022年第11期202-206,共5页Information Technology and Informatization

基  金:西藏自治区高原通信科研创新团队(No.XZ2017ZR G-10);西藏大学研究生高水平人才培养计划项目(2020-GSP-S168)。

摘  要:语音情感识别(speech emotion recognition,SER)是人机交互中的热点研究技术,但基于藏语的SER研究少有学者涉足。在构建了一个五千条藏语拉萨方言的语音情感语料库TSEC5000的基础上,将卷积神经网络(convolutional neural network,CNN)用于实现藏语语音情感的识别,并通过改变CNN的层数来改进说话人相关、说话人无关的SER性能。实验结果表明,对于藏语说话人相关的SER在4层卷积网络上获得89%的识别率,基于TSEC5000说话人无关SER在5层网络上获得最好的识别率为76%。

关 键 词:藏语语音情感识别 语音情感语料库 卷积神经网络 

分 类 号:H214[语言文字—少数民族语言] TN912.34[电子电信—通信与信息系统] TP183[电子电信—信息与通信工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象