检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]桂林电子科技大学计算机与信息安全学院,广西桂林541004 [2]桂林电子科技大学广西可信软件重点实验室,广西桂林541004
出 处:《计算机工程与设计》2018年第3期880-884,共5页Computer Engineering and Design
基 金:广西科技攻关计划基金项目(桂科攻1598019-6);桂林市科技攻关计划基金项目(2016010406-4);桂林电子科技大学研究生教育创新计划基金项目(2016YJCX65)
摘 要:针对KNN文本分类时间效率低的缺点,提出一种结合文本信息量和聚类的文本裁剪算法。考虑到训练文本中存在类别相关性弱的文本,计算每条文本包含的信息量并排序,对向量空间模型利用聚类删除噪声文本,结合文本的重要性在各类别中筛选出代表文本构建新的样本空间,在新样本空间上进行分类。实验结果表明,该方法能合理有效地裁剪文本集,提高分类效率。Aiming at inefficiency of KNN te x t classification, the te x t cut algorithm combining proposed. Considering some of the training texts wi th l i t t le correlation w i th classification, the te x t information was calculatedand the importance of the texts was sorted. Considering the existence of th e n o is e texts removed using cluster. The representative texts were screened out to bui ld a new space fo r training samples, in which classifica-tion was realized. Experiment verifies t hf t the proposed method can reasonably and effectively efficiency of classification.
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.120