检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学电子工程系,清华信息科学与技术国家实验室,北京100084
出 处:《清华大学学报(自然科学版)》2011年第2期161-165,共5页Journal of Tsinghua University(Science and Technology)
基 金:国家自然科学基金资助项目(60776800,60931160443);国家“八六三”高技术项目(2006AA010101,2007AA04Z223,2008AA02Z414,2008AA040201)
摘 要:针对语种识别中大规模数据库的训练问题,提出一种基于局部多样性建模的向量空间模型。首先将训练数据库分成若干个小数据库,然后利用每个小数据库来训练不同的向量空间模型,最后对不同的模型进行加权组合。为了有效地对不同模型进行组合,需要对模型的加权系数进行优化。对模型组合算法从理论上进行推导,在模型权重与分数线性融合系数之间建立起对应的数学关系,并提出采用逻辑回归方法对不同模型的权重进行估计。在美国国家标准技术局(NIST)2009年度语种识别测试库上的实验结果表明:所提方法不仅能够处理大规模的训练数据,而且相比传统方法识别性能也有了一定程度的提高,系统的等错误率在30 s、10 s和3 s的测试条件下分别下降了8.44%、5.91%以及3.45%。A local diversity vector space model(LDVSM) was developed for large scale dataset classification problems.The training dataset is first split into several small blocks with local vector space models(VSM) built using these dataset blocks.The local VSMs are then integrated via the model weighting method.The weighting coefficients are optimized to efficiently integrate the different local VSM.A mathematical relationship is developed between the model weighting coefficients and the score fusion coefficients.The logistic regression method is then used to optimize the model weighting coefficients.Tests on the NIST 2009 language recognition(LRE 2009) test set show that the algorithm efficiently handles large datasets with the equal error rate(EER) reduced by 8.44%,5.91%,and 3.45% compared with the traditional method for the 30 s,10 s,and 3 s test conditions.
关 键 词:语种识别 向量空间模型 局部多样性 模型加权 逻辑回归
分 类 号:TN912.3[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:13.58.117.102