检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王志雄
机构地区:[1]湖南财经工业职业技术学院汽车工程学院,湖南衡阳421002
出 处:《电脑知识与技术》2024年第10期37-40,共4页Computer Knowledge and Technology
摘 要:人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音,而现有机器技术尚未完全达到这一水平。针对这一实际应用场景,本文提出了一种时域目标说话人语音提取网络架构,该架构无需将混合语音分解为幅度谱和相位谱,而是直接将其转换为嵌入系数,从而规避了复杂的相位估计。该网络由四个关键部分构成,即说话人辅助网络、语音编码器、目标说话人语音提取器以及语音解码器。具体而言,语音编码器负责将混合语音转化为嵌入系数;说话人辅助网络则通过学习以说话人嵌入形式表示目标说话人特征;目标说话人语音提取器以嵌入系数与目标说话人嵌入作为输入,进而估计出一个接收掩模;最后,语音解码器根据处理过的嵌入系数重新构造出目标说话人的语音。实验结果显示,在开放评测环境下,相较于基准模型,所提方法在SDR(Signal-to-Distortion Ratio)和SI-SDR(Source-to-Interference Signal-to-Distortion Ratio)指标上分别取得了相对提升2.62dB和2.52dB的成绩。实验结果有力证明了该方法具有更好的抗干扰性和泛化性能。
关 键 词:单通道 目标说话人语音提取 时域语音信号 泛化性 语音编码器 语音解码器
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.239