基于特征缺失补偿最大熵模型的文本分类  被引量:2

Text Classification Algorithm Based on Maximum Entropy and Compensation Strategy for Unseen Features

在线阅读下载全文

作  者:祁瑞华[1,2] 杨德礼[2] 胡润波[2] 

机构地区:[1]大连外国语学院现代教育技术中心,大连116044 [2]大连理工大学管理学院系统工程研究所,大连116024

出  处:《情报杂志》2010年第5期141-143,147,共4页Journal of Intelligence

基  金:国家自然科学基金项目"移动电子商务支付模式及安全性能分析研究"(编号:70672092);国家自然科学基金重大项目"面向服务的商务智能与知识管理方法研究"(编号:708890080)

摘  要:针对自然语言处理中普遍存在的特征缺失问题,提出了基于特征缺失补偿最大熵模型的文本分类方法。为避免数据稀疏时出现训练过适应,采用高斯先验平滑进行特征补偿,并提出基于条件最大熵计算增益和基于特征频数的混合特征选择方法。通过实验将本方法与中心法、最近邻、贝叶斯、SVM和平滑前的最大熵文本分类器进行了比较,实验结果表明基于特征缺失补偿最大熵模型分类器的综合性能超过以上算法。

关 键 词:特征缺失 最大熵 文本分类 特征选择 

分 类 号:TP182[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象