基于双向长短时记忆网络的藏语语音情感识别  

在线阅读下载全文

作  者:李珊珊 边巴旺堆 LI Shanshan;BIANBA Wangdui

机构地区:[1]西藏大学信息科学技术学院,西藏拉萨850000 [2]西藏大学信息技术国家级实验教学示范中心,西藏拉萨850000

出  处:《信息技术与信息化》2024年第10期12-15,共4页Information Technology and Informatization

基  金:00061250/004/藏财预指[2024]1号中央支持-重点科研平台建设-信息技术国家级实验教学示范中心支持。

摘  要:为提高藏语拉萨方言的语音情感识别准确度,构建了一个包含6000条语音样本的语料库,采用了改进的MFCC特征提取方法和双向长短时记忆网络(BiLSTM)模型。改进的MFCC特征能更有效地表征藏语中的情感信息,而BiLSTM模型则能有效捕捉语音序列中的长期依赖关系,这对于情感识别任务尤为重要。研究结果显示,所设计的方法达到了81%的准确率,相较于传统方法有显著提升,在处理藏语情感识别方面具有很高的效果和潜力。未来的研究方向包括进一步优化模型结构,探索更多的深度学习架构,改进语音特征提取技术,以进一步提高模型的准确率和泛化能力,为语音情感识别技术在藏语等少数民族语言中的应用奠定重要的基础。

关 键 词:藏语情感识别 MFCC特征 长短时记忆网络 语音情感分析 深度学习 

分 类 号:TN912.34[电子电信—通信与信息系统] TP183[电子电信—信息与通信工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象