检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]桂林电子科技大学电子工程与自动化学院,广西桂林541004
出 处:《物联网技术》2024年第2期3-7,10,共6页Internet of things technologies
摘 要:声纹身份验证技术越来越多的应用于IoT智能设备中,针对多说话人语音环境,应用传统VAD模块的声纹验证系统错误拒绝率严重升高,甚至无法工作。本文从语音分离技术入手,设计实现了一种只对目标说话人触发的轻量化SD-VAD模型。首先,通过在基线模型中引入CNN和BiLSTM结构,使神经网络获得更强大的特征提取能力和上下文依赖性。其次,重新定义类内加权损失,对不同的分类混淆错误施加不同的惩罚,使模型重点关注目标说话人相关的分类,最大程度保留目标语音的完整性。最后,本文将SD-VAD应用于声纹验证模型的前端。实验结果表明,本文改进的结构相较于基线模型,mAP提升了1.5%,目标说话人类的AP提升了1.9%。相较于传统VAD模块,使基于ECAPA-TDNN的声纹验证系统错误拒绝率(FRR)降低了13.95%,较大提升了声纹验证系统的鲁棒性和使用灵活性。
关 键 词:物联网 声纹验证 语音分离 多说话人环境 语音活动检测(VAD) ECAPA-TDNN
分 类 号:TP391.4[自动化与计算机技术—计算机应用技术] TN912-34[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.120