应用于语种识别的加权音素对数似然比特征  被引量:4

Weighted phone log-likelihood ratio feature for spoken language recognition

在线阅读下载全文

作  者:张健[1] 徐杰[2] 包秀国[2] 周若华[1] 颜永红[1] 

机构地区:[1]中国科学院声学研究所,北京100190 [2]国家计算机网络应急技术处理协调中心,北京100029

出  处:《清华大学学报(自然科学版)》2017年第10期1038-1041,1047,共5页Journal of Tsinghua University(Science and Technology)

基  金:国家自然科学基金资助项目(11461141004;91120001;61271426);国家"八六三"高技术项目(2012AA012503);中国科学院战略性先导科技专项(XDA06030100;XDA06030500);中科院重点部署项目(KGZD-EW-103-2)

摘  要:语种识别的关键问题之一是提取语音信号中的语种鉴别性信息。近期,音素对数似然比(phone log-likelihood ratio,PLLR)的新特征被引入语种识别领域,并表现出了优异的性能。该文利用F比方法分析了PLLR特征向量各维的语种鉴别性大小,提出了加权音素对数似然比(weighted PLLR,WPLLR)特征,赋予PLLR特征中含有较多语种鉴别性信息的分量较高的权重。在美国国家标准技术署(National Institute of Standards and Technology,NIST)2007年语种识别测试集上的实验结果表明:相比于原PLLR特征,该文所提出的WPLLR特征在平均检测代价和等错率2个指标上都显著降低。The extraction of linguistic discriminative features is one of the fundamental issues in spoken language recognition (SLR). The frame level phone log-likelihood ratio (PLLR) has been recently introduced to improve language recognition. In this paper, the F ratio analysis method is used to analyze the contributions of different SLR feature vector dimensions. Then, a weighted phone log likelihood ratio (WPLLR) feature is used to more heavily weight those dimensions with high F-ratio values. Tests on the National Institute of Standards and Technology (NIST) 2007 dataset for SLR show the effectiveness of this feature, with significant relative improvements in the average cost performance and equal error rate compared with the PI.LR feature.

关 键 词:语音信号处理 语种识别 语种鉴别性 加权音素对数似然比(WPLLR) F比 

分 类 号:TN912.3[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象