基于深度神经网络的维语语音关键词检索  被引量:3

Uyghur speech keyword retrieval based on deep neural network

在线阅读下载全文

作  者:张伟涛 米吉提·阿不里米提[1] 郑方 艾斯卡尔·艾木都拉[1] Zhang Weitao;Mijit Ablimit;Zheng Fang;Askar Hamdulla(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)

机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046

出  处:《计算机时代》2021年第11期21-24,29,共5页Computer Era

基  金:国家重点研发计划(No.2017YFC0820602)。

摘  要:语音识别中的一个重要的分支就是关键词检索。虽然在英语上的关键词检索已经成熟,但是低资源的语音,比如维语的语音关键词检索研究缓慢,仍需要更深入的研究。文章在维吾尔语语数据集thuyg20上,先在GMM-HMM(Gaussian Mixture Model Hidden Markov Model)声学模型,DNN-HMM(Hidden Markov Model Deep Neural Network)声学模型,LSTM-HMM(Long Short-term Memory Hidden Markov Model)声学模型解码产生的网格lattice上捕捉关键词,将DNN-HMM和LSTM-HMM解码产生的网格进行融合,再在融合的网格lattice上进行关键词检索。实验结果表明,融合后的结果在准确率和召回率方面要优于DNN-HMM和LSTM-HMM模型的检索性能。An important branch of speech recognition is keyword retrieval. Although keyword retrieval in English has become mature, the research on low-resource speech,such as Uyghur speech keyword retrieval, is slow and still needs more in-depth research. On the Uyghur language data set thuyg20, the keywords are captured on the lattice generated by decoding with the acoustic models of GMM-HMM (Gaussian Mixture Model Hidden Markov Model) acoustic model, DNN-HMM (Hidden Markov Model Deep Neural Network) acoustic model and LSTM-HMM (Long Short-term Memory Hidden Markov Model), merge the lattices generated by the DNN-HMM and LSTM-HMM decoding, and then perform keyword search on the merged lattice. The experimental results show that the fusion result is better than the retrieval performance of the DNN-HMM and LSTM-HMM models in terms of accuracy and recall.

关 键 词:维吾尔语 低资源 语音关键词检索 深度神经网络 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象