检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西北大学可视化技术研究所,陕西西安710127 [2]西安建筑科技大学信息与控制工程学院,陕西西安710055 [3]北京师范大学信息科学与技术学院,北京100875
出 处:《小型微型计算机系统》2010年第2期281-284,共4页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(60736008)资助
摘 要:在文本分类研究中,集成学习是一种提高分类器性能的有效方法.Bagging算法是目前流行的一种集成学习算法.针对Bagging算法弱分类器具有相同权重问题,提出一种改进的Bagging算法.该方法通过对弱分类器分类结果进行可信度计算得到投票权重,应用于Attribute Bagging算法设计了一个中文文本自动分类器.采用kNN作为弱分类器基本模型对Sogou实验室提供的新闻集进行分类.实验表明该算法比Attribute Bagging有更好的分类精度.In text categorization ensemble learning is one of the methods for improvign the predictive power of classifier.Bagging algorithm is a popular ensemble learning now. Aiming at the problem that weaker classifiers of Bagging have the same weights,an improved Bagging algorithm is developed. The confidence of weaker text classifiers are gained through the result of weaker classifier and the weights of voting is obtained by confidence. The algorithm is applied in Attribute Bagging algorithm to design a Chinese text classifier. Using kNN as the weaker classifier model,which classify news corpus of Sogou lab. The result of experiment shows that this algorithm performs better than Attribute Bagging with more accuracy.
关 键 词:中文文本分类 可信度 ATTRIBUTE BAGGING
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.23.92.44