基于综合因素的汉语连续语音库语料自动选取  被引量:3

Automatic Text Selection for Continuous Speech Database of Standard Chinese Based on Comprehensive Factors

在线阅读下载全文

作  者:康恒[1] 刘文举[1] 

机构地区:[1]中国科学院自动化研究所模式识别国家重点实验室,北京100080

出  处:《中文信息学报》2003年第4期27-32,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目 (6 0 172 0 5 5 ) ;国家"86 3"资助项目 (2 0 0 1AA114 181) ;北京市自然科学基金资助项目 (40 0 2 0 12 )

摘  要:大词汇量连续语音识别系统的性能很大程度上取决于语音库的质量 ,而语音库设计的中心环节就是语料选取。但是传统语料选取方法往往考虑因素单一 ,不利于语音识别系统有效利用语言信息。本语音库的语料选取方法综合考虑了多种因素 :三音子覆盖率、三音子覆盖效率、三音子稀疏度、常用词分布等 ,并完全实现程序自动选取 ,充分利用了原始语料 ,使选取结果的信息量更加丰富。程序自动选取结果可以覆盖94 1%的三音子 ,75 4 %的最常用词 ,覆盖效率和稀疏度也比传统方法有了较大改善。The performance of continuous speech recognition systems depends much on speech database. Text selection is the key step in designing of the speech database. Conventional text selection methods consider too few factors for the recognition systems to use linguistic information effectually. This paper describes a method which can select text automatically and consider multiple factors: triphone covering rate, triphone covering efficiency, triphone sparse rate and distribution of commonly used words, etc. The set of selected text covers 94.1% triphones, 75.4% most commonly used words, and also the covering rate and sparse rate are improved than that of conventional methods.

关 键 词:语音识别系统 语料选取 程序自动选取 覆盖效率 稀疏度 综合因素 三音子 高频词 

分 类 号:TN912.34[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象