检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王玫 李江和 宋浠瑜[2] 刘小娟 WANG Mei;LI Jianghe;SONG Xiyu;LIU Xiaojuan(School of Information Science and Engineering,Guilin University of Technology,Guilin 541004,China;Provincial Ministry of Education Key Laboratory of Cognitive Radio and Signal Processing,Guilin University of Electronic Technology,Guilin 541004,China)
机构地区:[1]桂林理工大学信息科学与工程学院,桂林541004 [2]桂林电子科技大学认知无线电与信息处理省部共建教育部重点实验室,桂林541004
出 处:《应用声学》2023年第3期652-658,共7页Journal of Applied Acoustics
基 金:国家自然科学基金项目(62071135);广西自然科学基金项目(2019GXNSFBA245103);认知无线电与信息处理教育部重点实验室基金项目(CRKL200111)。
摘 要:针对在基于深度学习语声增强方法中因采用因果式的网络输入导致语声增强性能下降的问题,提出了一种基于轻量级卷积门控循环神经网络的语声增强方法。门控循环神经网络能够建模语声信号的时间相关性,但是其全连接结构忽略了语声信号的时频结构特征,并且参数数量庞大,不利于网络的训练。对此,该文采用卷积核替代门控循环神经网络中的全连接结构,在对语声信号时间相关性建模的同时保留了语声信号的时频结构特征,同时降低了网络的参数数量。为充分利用先前帧的特征信息,该网络单元当前时刻的输入融合了上一时刻的输入与输出。针对网络训练过程中容易产生过拟合的问题,该文采用了线性门控机制来控制信息的传输,这缓解了网络训练过程中的过拟合问题,提高了网络的语声增强性能。实验结果表明,该文所提出的网络结构在增强后的语声感知质量、语声短时客观可懂度、分段信噪比等指标上均优于传统的网络结构。Aiming at the problem of speech enhancement performance degradation because of causal-input,a method based on lightweight convolution gated recurrent neural network(LCGRU)is proposed.Gated recurrent neural network can model the time correlation,but its full connection structure ignores the timefrequency structure of speech,and the parameters are huge,which is not conducive to training of the network.In this paper,the convolution kernel is used to replace the full connection structure.While modeling the time correlation of speech,the time-frequency structure is retained,and the network parameters are reduced.To make full use of the characteristic of the previous frames,the input of the network at the current time combines the input and output of the previous time.This paper uses the linear gating mechanism to control the transmission of information,which alleviates the over fitting problem of the network and improves the speech enhancement performance.The experimental results show that the network proposed has higher scores than the traditional networks in PESQ,STOI and SSNR.
关 键 词:卷积门控循环神经网络 固定时延 因果式语声增强 语声质量 语声可懂度
分 类 号:TN912[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.225.175.56