改进的基于词集距离的FTC聚类算法  被引量:1

Improved FTC clustering algorithm based on word set distance

在线阅读下载全文

作  者:王秀慧[1] 赵治军 WANG Xiu-hui;ZHAO Zhi-jun(Institute of Education Science and Technology,Shanxi Datong University,Datong 037009,China;Information Center of Datong People's Government,Datong 037009,China)

机构地区:[1]山西大同大学教育科学与技术学院,山西大同037009 [2]大同市人民政府信息化中心,山西大同037009

出  处:《计算机工程与设计》2019年第11期3175-3179,共5页Computer Engineering and Design

基  金:大同市科技计划基金项目(2018187);山西省教育科学"十二五"规划基金项目(GH-13091);山西大同大学青年基金项目(2016Q9)

摘  要:针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类。实验结果表明,WSD-FTC具有更好的聚类效果及更优的时间开销。Focusing on neglecting the word sequence in the document while clustering in FTC,and combining with the time complexity,a WSD-FTC text clustering algorithm based on word set distance was proposed.While mining the frequent item sets using the FP-Growth algorithm,higher quality and fewer frequent itemsets were obtained by restricting the word set distance,which were used as the basis of clustering.At the same time,by defining similarity coefficients between clusters,multi-topic document was grouped into different clusters to achieve a certain degree of soft clustering.Experimental results show that WSDFTC has better clustering results and better efficiency.

关 键 词:频繁项集 聚类 词集距离 簇间相似系数 软聚类 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象