检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学深圳研究生院,深圳518055 [2]清华大学自动化系,北京100084
出 处:《计算机工程》2008年第1期61-63,共3页Computer Engineering
摘 要:提出一个文本分类器性能评价模型,对文本分类结果的可信度进行了估计,给出计算可信度的公式。将每一个子分类器的可信度指标用于Bagging集成学习算法,得到了改进的基于子分类器性能评价的Bagging算法(PBagging)。应用支持向量机作为子分类器基本模型,对日本共同社大样本新闻集进行分类。实验表明,与Bagging算法相比,PBagging算法分类准确率有了明显提高。This paper presents an evaluation model for the text classifier. The reliability of classifying result of a classifier is computed according to its learning result and naive Bayesian. Based on the performance evaluation model, Performance Bagging(PBagging), an improved text classification algorithm is proposed. In the algorithm, the reliability is served as the weight of sub-classifier's result when using Bagging, an ensemble learning method. Using SVM as the sub-classifier model, it applies the PBagging algorithm to classify news corpus in kyodo news agent, the result shows that PBagging performs better than Bagging with more accuracy.
关 键 词:文本分类 分类器性能 评价模型 BAGGING算法
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.231