检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《软件》2011年第4期84-86,90,共4页Software
基 金:湖南省教育厅资助科研项目(项目编号:09C1163)~~
摘 要:短文本由于词频过低,使用常规的聚类算法如K-means效果不理想,难得到可接受的准确度。而最近结合使用生物启发及聚类内部有效性测量改进的方法,能够有效改善短文本的聚类效果。针对短文本聚类,提出了改进Ant-Tree的算法。该算法引入了轮廓系数作为内部效度测量,对K-means算法获得的初始聚类划分计算轮廓系数值,根据各聚簇样本值大小排序,将排序结果应用于Ant-Tree算法的初始化步骤中,使Ant-Tree算法性能得到提高。实验结果表明,该算法准确度超过了其它的算法。Short-text document clustering is considered more difficult than general document due to the low frequencies of the terms.Its ruesult is not good or acceptable by the normal clustering algorithm like K-means.However,some recent works,new bioinspired clustering algorithms and novel uses of Internal Clustering Validity Measures have been presented to deal with this difficult problem.In this paper,an improved Ant-Tree algorithm for the short-text clustering is proposed.The algorithm uses K-means algorithm to obtain an initial grouping,sort the them in decreasing order according to the Silhouette Coefficient.The ordering will be used by Ant-Tree's initial step.By this way,the performance of Ant-Tree will be improved.Experimental study shows that this method is more accurate efficient than other algorithms.
关 键 词:短文本聚类 Ant-Tree K-MEANS 轮廓系数
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28