基于互信息的不平衡Web文本分类方法研究  被引量:1

Imbalanced Web Text Classification Method Based on Mutual Information

在线阅读下载全文

作  者:刘忠宝[1] 赵文娟[2] 

机构地区:[1]中北大学计算机与控制工程学院,山西太原030051 [2]山西大学商务学院信息学院,山西太原030031

出  处:《情报科学》2015年第10期23-26,共4页Information Science

基  金:山西省高等学校科技创新项目(2014142);全国教育信息技术研究十二五规划课题(146241697);"山西省哲学社会科学"十二五"规划2014年度课题

摘  要:当前主流的Web文本分类方法无法有效解决不平衡文本分类问题。本文在经典C4.5决策树算法基础上,借鉴信息论最新研究成果,提出基于互信息的不平衡Web文本分类方法。该方法与代价信息无关,在深入分析互信息与C4.5决策树之间关系的基础上,通过最大化预测类别和真实类别之间互信息,可以为其他代价敏感学习方法提供重要参数,也可以独立运行并得到分类结果。搜狗实验室真实数据集上的实验表明所提方法的有效性。Many Web test classification methods can not deal with the imbalanced text classification prob-lem. In view of this, imbalanced Web text classification method based on mutual information is proposedin this paper. The proposed method is based on C4.5 decision tree and has nothing to do with cost informa-tion. It provides some important parameters to cost-sensitive learning methods through maximizing themutual information between the forecasted class and the true class. Meanwhile, it can also run indepen-dently and obtain acceptable results. Experiments on real datasets of Sougou Lab verify the effectivenessof the proposed method in this paper.

关 键 词:互信息 不平衡Web文本 决策树 代价缺失学习 

分 类 号:G254[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象