检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:叶贤胜 高勇[1] YE Xiansheng;GAO Yong(College of Electronics and Information Engineering,Sichuan University,Chengdu Sichuan 610065,China)
出 处:《通信技术》2024年第6期551-555,共5页Communications Technology
摘 要:为了有效提高声纹识别的性能,改进了一种时延神经网络(Time Delay Neural Network,TDNN)架构,通过引入多尺度频率通道注意力(Multi-scale Frequency-channel Attention,MFA)以及多尺度通道注意力模块(Multi-scale Channel Attention Module,MS-CAM),从而增强模型对不同尺度特征的学习能力。MFA模块通过引入频率通道关注机制,有针对性地强化关键信息;MS-CAM模块进一步加强了对多尺度信息的融合,能更好地获得局部与全局的特征。结果表明,所使用的模型在声纹识别测试数据集VOXCELEB1的等错误率和最小检测代价函数2项指标分别为0.96和0.064,与基线系统相比下降幅度分别为8.6%和19%。To effectively enhance the performance of voiceprint recognition,this paper improves a TDNN(Time Delay Neural Network)architecture,which enhances the model’s ability to learn features at different scales by introducing MFA(Multi-scale Frequency-channel Attention)and MS-CAM(Multi-scale Channel Attention Module).By introducing a frequency channel attention mechanism,the MFA module selectively strengthens the crucial information;the MS-CAM module further enhances the fusion of multi-scale information,obtaining better local and global features.The results indicate that the utilized model achieves metrics such as an error rate of 0.96 and a minimum detection cost function of 0.064 on the voiceprint recognition test dataset VOXCELEB1.These metrics represent a reduction of 8.6%and 19%,respectively,
关 键 词:声纹识别 多尺度频率通道注意力 多尺度通道注意力 多尺度信息融合
分 类 号:TN912.34[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222