结合文本信息量和聚类的文本裁剪算法  被引量:2

Text reducing algorithm combining text information and cluster

在线阅读下载全文

作  者:谢攀 邓珍荣 朱益立[1] 

机构地区:[1]桂林电子科技大学计算机与信息安全学院,广西桂林541004 [2]桂林电子科技大学广西可信软件重点实验室,广西桂林541004

出  处:《计算机工程与设计》2018年第3期880-884,共5页Computer Engineering and Design

基  金:广西科技攻关计划基金项目(桂科攻1598019-6);桂林市科技攻关计划基金项目(2016010406-4);桂林电子科技大学研究生教育创新计划基金项目(2016YJCX65)

摘  要:针对KNN文本分类时间效率低的缺点,提出一种结合文本信息量和聚类的文本裁剪算法。考虑到训练文本中存在类别相关性弱的文本,计算每条文本包含的信息量并排序,对向量空间模型利用聚类删除噪声文本,结合文本的重要性在各类别中筛选出代表文本构建新的样本空间,在新样本空间上进行分类。实验结果表明,该方法能合理有效地裁剪文本集,提高分类效率。Aiming at inefficiency of KNN te x t classification, the te x t cut algorithm combining proposed. Considering some of the training texts wi th l i t t le correlation w i th classification, the te x t information was calculatedand the importance of the texts was sorted. Considering the existence of th e n o is e texts removed using cluster. The representative texts were screened out to bui ld a new space fo r training samples, in which classifica-tion was realized. Experiment verifies t hf t the proposed method can reasonably and effectively efficiency of classification.

关 键 词:文本分类 最邻近 文本信息量 聚类 样本裁剪 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象