一种多尺度特征融合TDNN的声纹识别方法

A Voiceprint Recognition Method with Multi-scale Feature Fusion in TDNN

作　　者：叶贤胜高勇[1] YE Xiansheng;GAO Yong(College of Electronics and Information Engineering,Sichuan University,Chengdu Sichuan 610065,China)

机构地区：[1]四川大学电子信息学院,四川成都610065

出　　处：《通信技术》2024年第6期551-555,共5页Communications Technology

摘　　要：为了有效提高声纹识别的性能,改进了一种时延神经网络(Time Delay Neural Network,TDNN)架构,通过引入多尺度频率通道注意力(Multi-scale Frequency-channel Attention,MFA)以及多尺度通道注意力模块(Multi-scale Channel Attention Module,MS-CAM),从而增强模型对不同尺度特征的学习能力。MFA模块通过引入频率通道关注机制,有针对性地强化关键信息;MS-CAM模块进一步加强了对多尺度信息的融合,能更好地获得局部与全局的特征。结果表明,所使用的模型在声纹识别测试数据集VOXCELEB1的等错误率和最小检测代价函数2项指标分别为0.96和0.064,与基线系统相比下降幅度分别为8.6%和19%。To effectively enhance the performance of voiceprint recognition,this paper improves a TDNN(Time Delay Neural Network)architecture,which enhances the model’s ability to learn features at different scales by introducing MFA(Multi-scale Frequency-channel Attention)and MS-CAM(Multi-scale Channel Attention Module).By introducing a frequency channel attention mechanism,the MFA module selectively strengthens the crucial information;the MS-CAM module further enhances the fusion of multi-scale information,obtaining better local and global features.The results indicate that the utilized model achieves metrics such as an error rate of 0.96 and a minimum detection cost function of 0.064 on the voiceprint recognition test dataset VOXCELEB1.These metrics represent a reduction of 8.6%and 19%,respectively,

关键词：声纹识别多尺度频率通道注意力多尺度通道注意力多尺度信息融合

分类号：TN912.34[电子电信—通信与信息系统]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种多尺度特征融合TDNN的声纹识别方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种多尺度特征融合TDNN的声纹识别方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索