检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机科学》2007年第9期125-127,162,共4页Computer Science
基 金:国家自然科学基金(60574078);广东省自然科学基金(31454)
摘 要:数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。As a branch of clustering, data stream clustering has become a hot spot in data mining. Although there are many stream clustering algorithms, they are only suitable for low dimensional numeric data type, and few of them are designed for high dimensional text streams. A novel online micro cluster structure based on the traditional stream clustering framework was proposed and it is suitable for clustering text. Dividing the online micro cluster into potential and outlier micro clusters also brings advantage when outliers appear frequently in stream. Experiments show that these methods bring advancements for processing text streams when compared to others.
分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.143.221.185