检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张翔[1,2] 周明全[3] 董丽丽[1] 闫清波[1]
机构地区:[1]西安建筑科技大学信息与控制工程学院,陕西西安710055 [2]西北大学信息科学与技术学院,陕西西安710127 [3]北京师范大学信息科学与技术学院,北京100875
出 处:《计算机应用与软件》2011年第1期32-34,共3页Computer Applications and Software
基 金:国家自然科学基金项目(60873094)
摘 要:介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。This paper introduces the flow of Chinese text categorisation and the relevant technologies.A text categorisation approach based on the combination of rough set and ensemble learning is proposed on the basis of analyzing the disadvantage of traditional feature selection,the feature selection of the text is executed through the rough set,and an ensemble learning algorithm AdaBoost.M1 is employed to improve the categorising performance of weak classifier to categorise the Chinese text.Experiment indicates that this method has a more excellent classification performance with its F1 value of the categorised outcome higher than that of the C4.5 and the kNN classifiers.
关 键 词:中文文本分类 粗糙集 集成学习 AdaBoost.M1
分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249