检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中北大学计算机与控制工程学院,山西太原030051 [2]山西大学商务学院信息学院,山西太原030031
出 处:《情报科学》2015年第10期23-26,共4页Information Science
基 金:山西省高等学校科技创新项目(2014142);全国教育信息技术研究十二五规划课题(146241697);"山西省哲学社会科学"十二五"规划2014年度课题
摘 要:当前主流的Web文本分类方法无法有效解决不平衡文本分类问题。本文在经典C4.5决策树算法基础上,借鉴信息论最新研究成果,提出基于互信息的不平衡Web文本分类方法。该方法与代价信息无关,在深入分析互信息与C4.5决策树之间关系的基础上,通过最大化预测类别和真实类别之间互信息,可以为其他代价敏感学习方法提供重要参数,也可以独立运行并得到分类结果。搜狗实验室真实数据集上的实验表明所提方法的有效性。Many Web test classification methods can not deal with the imbalanced text classification prob-lem. In view of this, imbalanced Web text classification method based on mutual information is proposedin this paper. The proposed method is based on C4.5 decision tree and has nothing to do with cost informa-tion. It provides some important parameters to cost-sensitive learning methods through maximizing themutual information between the forecasted class and the true class. Meanwhile, it can also run indepen-dently and obtain acceptable results. Experiments on real datasets of Sougou Lab verify the effectivenessof the proposed method in this paper.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.133.122.83