一种基于段级特征和自动标识的语言辨识算法

A Language Identification algorithm based on segmental feature and automatic tokenization

作　　者：张文林[1] 屈丹[1] 李弼程[1] 王波[1] 王炳锡[1]

出　　处：《信号处理》2008年第4期655-658,共4页Journal of Signal Processing

基　　金：国家自然科学基金项目(No.60372038)

摘　　要：本文研究了一种结合"声学信息"和"音素配位学信息"进行语言辨识的新算法,首先在预处理中对语音进行自动分段,在特征层上引入带有长时信息的段级特征参数——段级移位差分倒谱,在模型层上利用高斯混合模型(Gaussi- an Mixture Model,GMM)将语音信号自动标识为符号序列,进而引入多元语言模型(Multi-gram Language Model,MLM)来对"音素配位学信息"进行建模,最后将"GMM得分"和"MLM得分"送入后端多分类支持向量机模型得到最终识别结果。相关实验表明,新系统不需手工标识的语料,识别速度快,对OGI标准语料库中的五种语言获得了开集正识率为78.84%的结果。we present a new framework for language identification using acoustic and phonotactics information of specch. First,an automatic speech segmentation algorithm is performed in the preprocessing stage,then at the feature stage the segmental shift delta eepsturm feature which carry long-term information is introduced ,at the model stage a multigram language model is developed based on the using of traditional GMM for speech tokenization. A multi-class support vector machine is used for the backend classification. Experiment results demonstrate that the new system yields good performance in the language identification task of five languages in the OGITS database.

关键词：语言辨识移位差分倒谱段级特征参数高斯混合模型多元语言模型支持向量机

分类号：TN912.34[电子电信—通信与信息系统] TP273[电子电信—信息与通信工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于段级特征和自动标识的语言辨识算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于段级特征和自动标识的语言辨识算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索