检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王行恒[1] 曹军[2] 邓学[1] 刘垚[1] 高适[1]
机构地区:[1]华东师范大学信息科学技术学院,上海200062 [2]上海外国语大学图书馆,上海200083
出 处:《计算机应用与软件》2012年第11期305-308,共4页Computer Applications and Software
摘 要:文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的分类。采用支持向量机分类器对文本分类。通过对大批量的数据集测试,该算法显示出较好的特征选择效果,能够有效地提高分类精度。Text clustering refers to automatically classifying the text collection into different categories,and its application covers a wide range.However the research reveals that traditional TFIDF text classification has many deficiencies,and in this paper we propose the improvement to make up them.By using the cyclical iteration algorithm,we incessantly optimise the selection of feature words according to their distribution situation within and between categories,and obtain the continually improving classification.Support vector machine classifier is used for the text classification.Through large number of data set tests,the improved method demonstrates a better feature selection performance,which can improve the classification accuracy effectively.
关 键 词:TFIDF 文本聚类 文本分类 VSM 支持向量机 SVM 迭代算法
分 类 号:TP3[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.139.55.72