语种识别中基于局部多样性建模的向量空间模型  被引量:1

Language recognition using local diversity vector space model

在线阅读下载全文

作  者:邓妍[1] 张卫强[1] 刘加[1] 

机构地区:[1]清华大学电子工程系,清华信息科学与技术国家实验室,北京100084

出  处:《清华大学学报(自然科学版)》2011年第2期161-165,共5页Journal of Tsinghua University(Science and Technology)

基  金:国家自然科学基金资助项目(60776800,60931160443);国家“八六三”高技术项目(2006AA010101,2007AA04Z223,2008AA02Z414,2008AA040201)

摘  要:针对语种识别中大规模数据库的训练问题,提出一种基于局部多样性建模的向量空间模型。首先将训练数据库分成若干个小数据库,然后利用每个小数据库来训练不同的向量空间模型,最后对不同的模型进行加权组合。为了有效地对不同模型进行组合,需要对模型的加权系数进行优化。对模型组合算法从理论上进行推导,在模型权重与分数线性融合系数之间建立起对应的数学关系,并提出采用逻辑回归方法对不同模型的权重进行估计。在美国国家标准技术局(NIST)2009年度语种识别测试库上的实验结果表明:所提方法不仅能够处理大规模的训练数据,而且相比传统方法识别性能也有了一定程度的提高,系统的等错误率在30 s、10 s和3 s的测试条件下分别下降了8.44%、5.91%以及3.45%。A local diversity vector space model(LDVSM) was developed for large scale dataset classification problems.The training dataset is first split into several small blocks with local vector space models(VSM) built using these dataset blocks.The local VSMs are then integrated via the model weighting method.The weighting coefficients are optimized to efficiently integrate the different local VSM.A mathematical relationship is developed between the model weighting coefficients and the score fusion coefficients.The logistic regression method is then used to optimize the model weighting coefficients.Tests on the NIST 2009 language recognition(LRE 2009) test set show that the algorithm efficiently handles large datasets with the equal error rate(EER) reduced by 8.44%,5.91%,and 3.45% compared with the traditional method for the 30 s,10 s,and 3 s test conditions.

关 键 词:语种识别 向量空间模型 局部多样性 模型加权 逻辑回归 

分 类 号:TN912.3[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象