检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王秀慧[1] 赵治军 WANG Xiu-hui;ZHAO Zhi-jun(Institute of Education Science and Technology,Shanxi Datong University,Datong 037009,China;Information Center of Datong People's Government,Datong 037009,China)
机构地区:[1]山西大同大学教育科学与技术学院,山西大同037009 [2]大同市人民政府信息化中心,山西大同037009
出 处:《计算机工程与设计》2019年第11期3175-3179,共5页Computer Engineering and Design
基 金:大同市科技计划基金项目(2018187);山西省教育科学"十二五"规划基金项目(GH-13091);山西大同大学青年基金项目(2016Q9)
摘 要:针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类。实验结果表明,WSD-FTC具有更好的聚类效果及更优的时间开销。Focusing on neglecting the word sequence in the document while clustering in FTC,and combining with the time complexity,a WSD-FTC text clustering algorithm based on word set distance was proposed.While mining the frequent item sets using the FP-Growth algorithm,higher quality and fewer frequent itemsets were obtained by restricting the word set distance,which were used as the basis of clustering.At the same time,by defining similarity coefficients between clusters,multi-topic document was grouped into different clusters to achieve a certain degree of soft clustering.Experimental results show that WSDFTC has better clustering results and better efficiency.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.198