检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《电子制作》2025年第3期32-37,共6页Practical Electronics
摘 要:目标说话人提取指从混合语音中提取出特定目标说话人的语音,而忽略其他干扰音及背景噪声。这一技术在语音信号处理领域具有重要的实际意义和广泛的应用价值。本文提出了一种基于双路Conformer的目标说话人提取网络。该网络由编码器、说话人编码器、语音提取器和解码器四部分组成。首先,将目标说话人的参考语音送入编码器和说话人编码器,提取出目标说话人的特征,这些特征表征了目标说话人的个性化信息。接着,将混合语音送入编码器,得到相应的语音特征。再将混合语音的语音特征送入到语音提取器,同时嵌入目标说话人的特征,通过这一步骤,语音提取器可以估计出与目标说话人对应的掩码。将获得的掩码与语音特征进行逐元素相乘,即可分离出目标说话人的语音特征。最后,将分离出的目标语音特征送入解码器进行解码,即可恢复出目标说话人的清晰语音。实验结果表明,与主流的语音分离网络Conv-TasNet、DPRNN以及目标说话人提取网络SpEx+相比,该网络在尺度不变信号失真比上分别提升了41.4%,24.9%,4.1%,在短时客观可懂度上分别提升了8.9%,6.2%,1.2%。
关 键 词:深度学习 目标说话人提取 CONFORMER 双路径网络 多任务学习
分 类 号:TN912.3[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.23.166