汉语统计语言模型训练样本容量的定量化度量被引量：1

Quantitative Measurement of Training Sample Capacity for Chinese Statistical Language Model

作　　者：张仰森[1]

出　　处：《计算机科学》2009年第10期222-224,249,共4页Computer Science

基　　金：国家自然科学基金(60873013);北京市自然科学基金B类重点项目(KZ200811232019);中国科学院自动化研究所模式识别国家重点实验室开放基金;北京市属市管高校人才强教计划项目资助

摘　　要：统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一。应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样本容量下界的估算方法及量化估算公式,可根据模型参数估计的误差要求计算出模型训练所需的样本容量。The training of statistical language model parameter is the key of language modeling. Chooseing how many training samples to meet the demand of the model parameter estimation error is one of concern problems of language modeling theory. We applied mathematical statistics theory to give the estimating method for training samples lower bound capability for chinese model, the quantification estimation formula was suggested. By using this formula, the corpus sample capability needed to train model parameters can be calculated according to the demand of parameter estimation error.

关键词：汉语统计语言模型训练语料样本样本容量相对误差

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

汉语统计语言模型训练样本容量的定量化度量被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

汉语统计语言模型训练样本容量的定量化度量 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

汉语统计语言模型训练样本容量的定量化度量被引量：1