多说话人语音环境下目标说话人声纹验证方法研究  被引量:2

在线阅读下载全文

作  者:陈家峥 张斌 李雅明 

机构地区:[1]桂林电子科技大学电子工程与自动化学院,广西桂林541004

出  处:《物联网技术》2024年第2期3-7,10,共6页Internet of things technologies

摘  要:声纹身份验证技术越来越多的应用于IoT智能设备中,针对多说话人语音环境,应用传统VAD模块的声纹验证系统错误拒绝率严重升高,甚至无法工作。本文从语音分离技术入手,设计实现了一种只对目标说话人触发的轻量化SD-VAD模型。首先,通过在基线模型中引入CNN和BiLSTM结构,使神经网络获得更强大的特征提取能力和上下文依赖性。其次,重新定义类内加权损失,对不同的分类混淆错误施加不同的惩罚,使模型重点关注目标说话人相关的分类,最大程度保留目标语音的完整性。最后,本文将SD-VAD应用于声纹验证模型的前端。实验结果表明,本文改进的结构相较于基线模型,mAP提升了1.5%,目标说话人类的AP提升了1.9%。相较于传统VAD模块,使基于ECAPA-TDNN的声纹验证系统错误拒绝率(FRR)降低了13.95%,较大提升了声纹验证系统的鲁棒性和使用灵活性。

关 键 词:物联网 声纹验证 语音分离 多说话人环境 语音活动检测(VAD) ECAPA-TDNN 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术] TN912-34[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象