一种新的演化文本流聚类算法  

An Algorithm for Clustering Evolving Text Data Stream with Outliers

在线阅读下载全文

作  者:邓维维[1] 彭宏[1] 

机构地区:[1]华南理工大学计算机学院,广州510641

出  处:《计算机科学》2007年第9期125-127,162,共4页Computer Science

基  金:国家自然科学基金(60574078);广东省自然科学基金(31454)

摘  要:数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。As a branch of clustering, data stream clustering has become a hot spot in data mining. Although there are many stream clustering algorithms, they are only suitable for low dimensional numeric data type, and few of them are designed for high dimensional text streams. A novel online micro cluster structure based on the traditional stream clustering framework was proposed and it is suitable for clustering text. Dividing the online micro cluster into potential and outlier micro clusters also brings advantage when outliers appear frequently in stream. Experiments show that these methods bring advancements for processing text streams when compared to others.

关 键 词:聚类 数据流 文本流 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象