检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李卓茜 高镇 王化 刘俊南 朱光旭 LI Zhuoxi;GAO Zhen;WANG Hua;LIU Junnan;ZHU Guangxu(School of Electrical Automation and Information Engineering,Tianjin University,Tianjin 300072,China;Innovem,Tianjin 300392,China)
机构地区:[1]天津大学电气自动化与信息工程学院,天津300072 [2]因诺微科技(天津)有限公司,天津300392
出 处:《中文信息学报》2019年第10期135-142,共8页Journal of Chinese Information Processing
基 金:天津市科委“面向多语种的智能信息系统研究”(17ZXRGGX00160)
摘 要:该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。Focused on language recognition on short utterances(with a duration less than or equal to 1 s)and confusing speech,this paper investigates the performance of phoneme log likelihood ratio feature,the Mel frequency cepstral coefficient feature,and the deep bottleneck feature(DBF),revealing that the DBF performs best in both tasks.To further improve recognition accuracy,the paper proposes an improved DBF-I-VECTOR system which,compared with the baseline of DBF-I-VECTOR on the Oriental Multilingual Recognition Competition Data,reduces the optimal equal error rate(EER)of short-term task from 12.26%to 10.55%,and the confusing task from 5.53%to2.86%in respectively.It is also revealed that the Random Forest(RF)has the best classification performance in short-term task,and the Support Vector Machine(SVM)has the best classification performance in confusing task when compared with Cosine Distance Scoring(CDS),Probabilistic Discriminant Analysis(PLDA),Extreme Gradient Boosting(XGBoost).
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249