文本聚类算法的设计与实现  被引量:5

Research and implementation of text clustering algorithm

在线阅读下载全文

作  者:石晓敬[1] 韩燮[1] 

机构地区:[1]中北大学电子与计算机科学技术学院,山西太原030051

出  处:《计算机工程与设计》2010年第9期2013-2015,2019,共4页Computer Engineering and Design

摘  要:为了有效地提高文本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法。该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类。实验结果表明,该算法的召回率和正确率更高。To improve the quality and efficiency of text clustering effectively, based on the analysis and research of the hierarchical clustering and k-means algorithms, a kind of text clustering algorithm for a higher-dimensional sparse matrix is designed and implemented for the characteristic of large quantity of internet information and high real-time. The algorithm combines the ideas of the hierarchical clustering and K-means clustering, which controls the selection of clustering algorithm and the establishment of new clusters through a threshold and realizes text clustering through extraction of text feature and calculation of text similarity matrix. Experiments showed that the accuracy and recall rate of this algorithm are higher.

关 键 词:中文文本 文本分类 聚类算法 层次聚类 K-MEANS 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象