结合文本信息量和聚类的文本裁剪算法被引量：2

Text reducing algorithm combining text information and cluster

机构地区：[1]桂林电子科技大学计算机与信息安全学院,广西桂林541004 [2]桂林电子科技大学广西可信软件重点实验室,广西桂林541004

出　　处：《计算机工程与设计》2018年第3期880-884,共5页Computer Engineering and Design

基　　金：广西科技攻关计划基金项目(桂科攻1598019-6);桂林市科技攻关计划基金项目(2016010406-4);桂林电子科技大学研究生教育创新计划基金项目(2016YJCX65)

摘　　要：针对KNN文本分类时间效率低的缺点,提出一种结合文本信息量和聚类的文本裁剪算法。考虑到训练文本中存在类别相关性弱的文本,计算每条文本包含的信息量并排序,对向量空间模型利用聚类删除噪声文本,结合文本的重要性在各类别中筛选出代表文本构建新的样本空间,在新样本空间上进行分类。实验结果表明,该方法能合理有效地裁剪文本集,提高分类效率。Aiming at inefficiency of KNN te x t classification, the te x t cut algorithm combining proposed. Considering some of the training texts wi th l i t t le correlation w i th classification, the te x t information was calculatedand the importance of the texts was sorted. Considering the existence of th e n o is e texts removed using cluster. The representative texts were screened out to bui ld a new space fo r training samples, in which classifica-tion was realized. Experiment verifies t hf t the proposed method can reasonably and effectively efficiency of classification.

关键词：文本分类最邻近文本信息量聚类样本裁剪

分类号：TP301.6[自动化与计算机技术—计算机系统结构]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

结合文本信息量和聚类的文本裁剪算法被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

结合文本信息量和聚类的文本裁剪算法 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

结合文本信息量和聚类的文本裁剪算法被引量：2