密度偏差抽样技术在聚类算法中的应用研究  被引量:7

Applied Research on Clustering Algorithm Using Density Biased Sampling Technology

在线阅读下载全文

作  者:余波[1] 朱东华[1] 刘嵩[1] 郑涛[1] 

机构地区:[1]北京理工大学管理与经济学院,北京100081

出  处:《计算机科学》2009年第2期207-209,264,共4页Computer Science

基  金:国家自然科学基金重点资助项目(70031010);985哲学社会科学创新基地建设研究论文之一;"新世纪优秀人才支持计划"资助

摘  要:针对在大规模数据集上进行聚类困难的问题,分析了抽样技术的优点,研究了数据挖掘领域中的随机抽样的特点,并在此基础上提出了一种基于密度的偏差抽样方法。利用密度偏差抽样所获得的样本数据集能够较准确地反映总体数据集的特征,并且能够灵活地控制对数据集不同区域的抽样率。实验证明,在大规模数据集上进行聚类时,密度偏差抽样在时间复杂度上要优于随机抽样。The advantages of sampling technology were analyzed against the difficulties of clustering on large-scale data set, and study the traits of random sampling in data mining were studied then a biased sampling method based on density was presented. The sample data set using density biased sampling can more accurately reflect the character of the whole data set,and biased sampling can control the sampling rate freely as to different part of the data set. The experimental results show that, density biased sampling is superior to random sampling in time complexity when clustering on large-scale data set.

关 键 词:数据挖掘 聚类 偏差抽样 随机抽样 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象