检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张济民 早克热·卡德尔[1,2] 艾山·吾买尔[1,2] 申云飞 汪烈军 ZHANG Jimin;ZAOKERE Kadeer;AISHAN Wumaier;SHEN Yunfei;WANG Liejun(School of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830001,China;Key Laboratory of Multilingual Information Technology in Xinjiang Uyghur Autonomous Region,Urumqi,Xinjiang 830001,China;School of Software,Xinjiang University,Urumqi,Xinjiang 830001,China)
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830001 [2]新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830001 [3]新疆大学软件学院,新疆乌鲁木齐830001
出 处:《中文信息学报》2024年第4期156-164,共9页Journal of Chinese Information Processing
基 金:新疆维吾尔自治区科技创新领军人才项目——高层次领军人才(2022TSYCLJ0036)。
摘 要:目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。The open source Chinese speech recognition data sets are usually developed for the general domain.This paper constructs a news-oriented Chinese speech recognition data set named CH_NEWS_ASR,and verifies the validity of the data set by the RNN,Transformer and Conformer models under ESPNET-0.9.6 framework.As news broadcasters speak relatively fast,the average text length in this dataset is 28 characters,which is 2 times of the average text length of Aishell_1 dataset.In this paper,we propose a sentence-level consistency module combined with the Conformer model to directly reduce the representation differences between source speech and target text.Experiments demonstrate that,on the Aishell_1 dataset,the CER is reduced by 0.4%and the SER by 2%;on the CH_NEWS_ASR dataset,the CER is reduced by 0.9%and the SER by 3%.
关 键 词:端到端语音识别 CONFORMER 句子层级一致性
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.189.184.208