基于双路Conformer的目标说话人提取网络  

作  者:丁鑫 夏秀渝[1] 

机构地区:[1]四川大学电子信息学院,四川成都610065

出  处:《电子制作》2025年第3期32-37,共6页Practical Electronics

摘  要:目标说话人提取指从混合语音中提取出特定目标说话人的语音,而忽略其他干扰音及背景噪声。这一技术在语音信号处理领域具有重要的实际意义和广泛的应用价值。本文提出了一种基于双路Conformer的目标说话人提取网络。该网络由编码器、说话人编码器、语音提取器和解码器四部分组成。首先,将目标说话人的参考语音送入编码器和说话人编码器,提取出目标说话人的特征,这些特征表征了目标说话人的个性化信息。接着,将混合语音送入编码器,得到相应的语音特征。再将混合语音的语音特征送入到语音提取器,同时嵌入目标说话人的特征,通过这一步骤,语音提取器可以估计出与目标说话人对应的掩码。将获得的掩码与语音特征进行逐元素相乘,即可分离出目标说话人的语音特征。最后,将分离出的目标语音特征送入解码器进行解码,即可恢复出目标说话人的清晰语音。实验结果表明,与主流的语音分离网络Conv-TasNet、DPRNN以及目标说话人提取网络SpEx+相比,该网络在尺度不变信号失真比上分别提升了41.4%,24.9%,4.1%,在短时客观可懂度上分别提升了8.9%,6.2%,1.2%。

关 键 词:深度学习 目标说话人提取 CONFORMER 双路径网络 多任务学习 

分 类 号:TN912.3[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象