检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:和椿皓 常铁原[1] 潘立冬[1] HE Chunhao;CHANG Tieyuan;PAN Lidong(College of Electronic Information Engineering,Hebei University,Baoding 071000,China)
出 处:《应用声学》2024年第5期949-955,共7页Journal of Applied Acoustics
摘 要:时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进一步提升小体积模型对说话人特征的提取能力。在使用密集连接实现特征重用的基础上,并行多分支结构能同时对同一输入在不同分辨率下进行特征提取。在VoxCeleb1测试集、VoxCeleb1-H、VoxCeleb1-E上进行测试表明,该网络能在模型参数量较小的前提下实现准确的说话人识别,以便应用在一些存储空间受限的本地说话人识别场景中。Time delay neural networks are a class of neural networks that have been applied in the field of speaker recognition for a long time.To achieve better recognition performance,some improvement works in recent years revolve around deepening or widening their network structures.Based on the study of densely connected convolutional networks and multi-branch network structures,a dense multi-branch time delay neural network is proposed to further improve the speaker feature extraction capability of small volume models.On the basis of feature reuse using dense connections,the parallel multi-branch structure enables simultaneous feature extraction on the same input at different resolutions.Tests on the VoxCeleb1 test set,VoxCeleb1-H,and VoxCeleb1-E show that the network can achieve accurate speaker recognition with a small number of model parameters for application in some local speaker recognition scenarios where storage space is limited.
关 键 词:说话人识别 时延神经网络 多分支神经网络 密集连接 深度学习
分 类 号:TN912.34[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49