结合粗糙集与集成学习的中文文本分类方法研究  被引量:1

ON CHINESE TEXT CATEGORIZATION BASED ON ROUGH SET AND ENSEMBLE LEARNING

在线阅读下载全文

作  者:张翔[1,2] 周明全[3] 董丽丽[1] 闫清波[1] 

机构地区:[1]西安建筑科技大学信息与控制工程学院,陕西西安710055 [2]西北大学信息科学与技术学院,陕西西安710127 [3]北京师范大学信息科学与技术学院,北京100875

出  处:《计算机应用与软件》2011年第1期32-34,共3页Computer Applications and Software

基  金:国家自然科学基金项目(60873094)

摘  要:介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。This paper introduces the flow of Chinese text categorisation and the relevant technologies.A text categorisation approach based on the combination of rough set and ensemble learning is proposed on the basis of analyzing the disadvantage of traditional feature selection,the feature selection of the text is executed through the rough set,and an ensemble learning algorithm AdaBoost.M1 is employed to improve the categorising performance of weak classifier to categorise the Chinese text.Experiment indicates that this method has a more excellent classification performance with its F1 value of the categorised outcome higher than that of the C4.5 and the kNN classifiers.

关 键 词:中文文本分类 粗糙集 集成学习 AdaBoost.M1 

分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象