一种多尺度特征融合TDNN的声纹识别方法  

A Voiceprint Recognition Method with Multi-scale Feature Fusion in TDNN

在线阅读下载全文

作  者:叶贤胜 高勇[1] YE Xiansheng;GAO Yong(College of Electronics and Information Engineering,Sichuan University,Chengdu Sichuan 610065,China)

机构地区:[1]四川大学电子信息学院,四川成都610065

出  处:《通信技术》2024年第6期551-555,共5页Communications Technology

摘  要:为了有效提高声纹识别的性能,改进了一种时延神经网络(Time Delay Neural Network,TDNN)架构,通过引入多尺度频率通道注意力(Multi-scale Frequency-channel Attention,MFA)以及多尺度通道注意力模块(Multi-scale Channel Attention Module,MS-CAM),从而增强模型对不同尺度特征的学习能力。MFA模块通过引入频率通道关注机制,有针对性地强化关键信息;MS-CAM模块进一步加强了对多尺度信息的融合,能更好地获得局部与全局的特征。结果表明,所使用的模型在声纹识别测试数据集VOXCELEB1的等错误率和最小检测代价函数2项指标分别为0.96和0.064,与基线系统相比下降幅度分别为8.6%和19%。To effectively enhance the performance of voiceprint recognition,this paper improves a TDNN(Time Delay Neural Network)architecture,which enhances the model’s ability to learn features at different scales by introducing MFA(Multi-scale Frequency-channel Attention)and MS-CAM(Multi-scale Channel Attention Module).By introducing a frequency channel attention mechanism,the MFA module selectively strengthens the crucial information;the MS-CAM module further enhances the fusion of multi-scale information,obtaining better local and global features.The results indicate that the utilized model achieves metrics such as an error rate of 0.96 and a minimum detection cost function of 0.064 on the voiceprint recognition test dataset VOXCELEB1.These metrics represent a reduction of 8.6%and 19%,respectively,

关 键 词:声纹识别 多尺度频率通道注意力 多尺度通道注意力 多尺度信息融合 

分 类 号:TN912.34[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象