基于尺度相关-双向长短期记忆网络模型的说话人识别  被引量:1

Speaker Recognition Based on Scale Correlation-Bidirectional Long Short-Term Memory Network Model

在线阅读下载全文

作  者:曹书鑫 冯藤藤 葛凤培 梁春燕[1] CAO Shuxin;FENG Tengteng;GE Fengpei;LIANG Chunyan(School of Computer Science and Technology,Shandong University of Technology,Zibo 255049,Shandong,China;Library,Beijing University of Posts and Telecommunications,Beijing 100876,China)

机构地区:[1]山东理工大学计算机科学与技术学院,山东淄博255049 [2]北京邮电大学图书馆,北京100876

出  处:《计算机工程》2023年第4期289-296,共8页Computer Engineering

基  金:国家自然科学基金(11704229)。

摘  要:说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%。ion of each layer to capture the scale feature information composed of scale correlation blocks.Simultaneously,the BiLSTM network is introduced to retain and learn the multi-scale feature information of speech data,and the context information of time-frequency domain features is extracted to the maximum extent.The experimental results which obtained after 50000 iterations show that the Equal Error Rate(EER)of the SCCNN-BiLSTM network model is 7.21%and 6.55%on the LibriSpeech and AISHELL-1 datasets,respectively.Compared with the Residual CNN(ResCNN)baseline network model,the EER of the SCCNN-BiLSTM network model increases by 25.3%and 41.0%,respectively.

关 键 词:说话人识别 深度学习 尺度相关卷积 感受野 长短期记忆网络 

分 类 号:TP391.42[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象