基于互信息的统计语言模型平滑技术  被引量:8

A Smoothing Technique for Statistical Language Model Based on Mutual Information

在线阅读下载全文

作  者:黄永文[1] 何中市[1] 

机构地区:[1]重庆大学计算机学院,重庆400030

出  处:《中文信息学报》2005年第4期46-51,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60173060)

摘  要:数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题。现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析。本文则针对二元模型,提出了一种基于互信息的平滑技术,其基本思想是根据模型中每个二元对的互信息的高低对其概率进行折扣或补偿,并用极小化困惑度原则体现了模型的合理性。实验结果表明该技术优于目前常用的Katz平滑技术。Smoothing techniques are mainly used to solve the problem of sparse data for statistical language model. The present smoothing techniques have solved the data sparse problem effectively but have not further analyzed the reasonableness for the frequency distribution of events occurring. This paper presents a new kind of smoothing technique based on the mutual information for Bi-gram model. The model parameters, probabilities for bigram, are discounted or compensated according to the mutual information, whose rationality is indicated by minimizing the perplexity. The experimental results show that this technique outperforms the commonly used Katz smoothing technique.

关 键 词:计算机应用 中文信息处理 统计语言模型 平滑技术 互信息 困惑度 

分 类 号:TP309[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象