汉语连续语音识别中的分级聚类算法的研究和应用  被引量:2

A Hierarchical Clustering Algorithm in Continuous Mandarin Speech Recognition

在线阅读下载全文

作  者:徐向华[1] 朱杰[1] 郭强[1] 

机构地区:[1]上海交通大学电子工程系,上海200030

出  处:《信号处理》2004年第5期497-500,共4页Journal of Signal Processing

基  金:上海市科委重点基金项目资助(01JC14033)

摘  要:针对汉语语音单音节结构的特点,考虑音节间协同发音的现象,本文提出了一种对三音子模型进行分级聚类的方法。与传统的基于决策树的状态聚类算法相比,该方法通过对稀少三音子模型聚类,更充分地利用训练数据,减少稀少三音子对状态聚类的影响,从而提高声学模型的鲁棒性。实验结果表明:大词汇量连续语音识别器采用这种分级聚类方法,不仅可以大大减少模型及其参数的数量,还可使系统识别率有所提高,其中误识率相对于传统的决策树状态聚类系统降低了4.93%。Based on the single syllable characteristics of Mandarin and considering the inter-syllable coarticulatory phenomena, a new hierarchical clustering algorithm is proposed. Compared with the traditional decision-tree based state-tying, the algorithm can take better use of training data and lessen the impact of rare triphones to state-tying. Experiments on large vocabulary continuous Mandarin speech recognition system show that the method can get better performance (about 4.93% word error rate reduction) with even fewer parameters.

关 键 词:状态聚类 决策树 训练数据 聚类算法 三音子 鲁棒性 聚类方法 汉语连续语音识别 协同发音 误识率 

分 类 号:TP391.43[自动化与计算机技术—计算机应用技术] TN912.34[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象