改进的基于词集距离的FTC聚类算法被引量：1

Improved FTC clustering algorithm based on word set distance

作　　者：王秀慧[1] 赵治军 WANG Xiu-hui;ZHAO Zhi-jun(Institute of Education Science and Technology,Shanxi Datong University,Datong 037009,China;Information Center of Datong People's Government,Datong 037009,China)

机构地区：[1]山西大同大学教育科学与技术学院,山西大同037009 [2]大同市人民政府信息化中心,山西大同037009

出　　处：《计算机工程与设计》2019年第11期3175-3179,共5页Computer Engineering and Design

基　　金：大同市科技计划基金项目(2018187);山西省教育科学"十二五"规划基金项目(GH-13091);山西大同大学青年基金项目(2016Q9)

摘　　要：针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类。实验结果表明,WSD-FTC具有更好的聚类效果及更优的时间开销。Focusing on neglecting the word sequence in the document while clustering in FTC,and combining with the time complexity,a WSD-FTC text clustering algorithm based on word set distance was proposed.While mining the frequent item sets using the FP-Growth algorithm,higher quality and fewer frequent itemsets were obtained by restricting the word set distance,which were used as the basis of clustering.At the same time,by defining similarity coefficients between clusters,multi-topic document was grouped into different clusters to achieve a certain degree of soft clustering.Experimental results show that WSDFTC has better clustering results and better efficiency.

关键词：频繁项集聚类词集距离簇间相似系数软聚类

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

改进的基于词集距离的FTC聚类算法被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

改进的基于词集距离的FTC聚类算法 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

改进的基于词集距离的FTC聚类算法被引量：1