基于Ant-Tree算法的短文本聚类研究  

An Improved Ant-Tree Algorithm for The Short-text Clustering

在线阅读下载全文

作  者:吴勇[1] 李仁发[1] 刘钰峰[1] 

机构地区:[1]湖南大学计算机与通信学院,长沙410082

出  处:《软件》2011年第4期84-86,90,共4页Software

基  金:湖南省教育厅资助科研项目(项目编号:09C1163)~~

摘  要:短文本由于词频过低,使用常规的聚类算法如K-means效果不理想,难得到可接受的准确度。而最近结合使用生物启发及聚类内部有效性测量改进的方法,能够有效改善短文本的聚类效果。针对短文本聚类,提出了改进Ant-Tree的算法。该算法引入了轮廓系数作为内部效度测量,对K-means算法获得的初始聚类划分计算轮廓系数值,根据各聚簇样本值大小排序,将排序结果应用于Ant-Tree算法的初始化步骤中,使Ant-Tree算法性能得到提高。实验结果表明,该算法准确度超过了其它的算法。Short-text document clustering is considered more difficult than general document due to the low frequencies of the terms.Its ruesult is not good or acceptable by the normal clustering algorithm like K-means.However,some recent works,new bioinspired clustering algorithms and novel uses of Internal Clustering Validity Measures have been presented to deal with this difficult problem.In this paper,an improved Ant-Tree algorithm for the short-text clustering is proposed.The algorithm uses K-means algorithm to obtain an initial grouping,sort the them in decreasing order according to the Silhouette Coefficient.The ordering will be used by Ant-Tree's initial step.By this way,the performance of Ant-Tree will be improved.Experimental study shows that this method is more accurate efficient than other algorithms.

关 键 词:短文本聚类 Ant-Tree K-MEANS 轮廓系数 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象