检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]重庆邮电大学计算机科学与技术研究所,重庆400065 [2]北京邮电大学计算机科学与技术学院,北京100876
出 处:《计算机应用》2007年第7期1695-1698,共4页journal of Computer Applications
基 金:重庆市自然科学基金资助项目(2005BB2063);重庆市自然科学基金重点项目(2005BA2003);重庆市教委科学技术研究项目(050509)
摘 要:随机抽样技术已经广泛应用于数据挖掘的各类算法中,它在处理分布均匀的数据集时非常有效,但在处理分布比较倾斜的数据集时容易丢失小的聚类。为此提出基于网格的密度偏差抽样算法,仅需要扫描一遍数据集就可以得到近似的密度偏差抽样。经实验测试分析表明,该算法不仅提高了聚类的正确性,而且抗噪声能力强、效率高,是解决海量数据挖掘的一种有效途径。Uniform random sampling is widely applied to many kinds of algorithms in data mining. It processes uniform distribution data set extremely effectively, but easily loses slight cluster and consequently decreases clustering accuracy, when the processing data set is skew distribution. A grid-based density biased sampling algorithm (G_DBS) was proposed. It got approximate density biased samples through scanning data only one time. Our experimental evaluation shows that G_DBS algorithm not only improves the accuracy of clustering, but also is insensitive to noise and has high efficiency. It is one of the effective solutions to mass data mining.
分 类 号:TP274[自动化与计算机技术—检测技术与自动化装置]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.200