检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨兴耀[1] 卢进堂 肖瑞 张利飞 曾利文 YANG Xing-yao;LU Jin-tang;XIAO Rui;ZHANG Li-fei;ZENG Li-wen(School of Software,Xinjiang University,Urumqi 830008,China;College of Information Science and Engineering,Xinjiang University,Urumqi 830049,China)
机构地区:[1]新疆大学软件学院,新疆乌鲁木齐830008 [2]新疆大学信息科学与工程学院,新疆乌鲁木齐830049
出 处:《东北师大学报(自然科学版)》2024年第1期87-95,共9页Journal of Northeast Normal University(Natural Science Edition)
基 金:新疆维吾尔自治区自然科学基金资助项目(2023D01C17);新疆大学博士科研启动基金资助项目(BS150257);新疆维吾尔自治区教育厅项目(XJEDU2016S035)。
摘 要:提出CTC与Transformer结合的端到端模型,使用多编码器和字层级一致的方法,降低在复杂录制环境下的识别错误率.该端到端模型在自建数据集PSC_Monosyllable的测试集上的词错误率为5.6%.通过预训练,可以实现发音错误检测的正误分类,且比传统机器学习模型检测结果性能提升了16%,有效地提升了发音错误检出率,得出了较好的结果,检测率为0.589.At present,in the PSC test,manual scoring is still the main method of scoring the test questions.The development of oral evaluation technology has greatly reduced the manual scoring labor.As the core of spoken language evaluation technology,the end-to-end model combining CTC and Transformer proposed in this paper uses multi-encoder and word-level consistent methods to reduce the recognition error rate in complex recording environments.The word error rate on the test set is 5.6%.Through pre-training,the end-to-end model can achieve correct and incorrect classification of mis-pronunciation detection and diagnosis,and its performance is improved by 16%compared with the detection results of the better traditional machine learning model.Effectively improve the mis-pronunciation detection and diagnosis rate,and get a better result of 0.589.
关 键 词:语音识别 发音错误检测 语料库建设 深度学习 TRANSFORMER
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43