K-中心点聚类算法优化模型的仿真研究  被引量:10

Research on Optimal Model of K-Means Clustering Algorithm

在线阅读下载全文

作  者:白旭[1,2] 靳志军[3] 

机构地区:[1]河北师范大学物理科学与信息工程学院,河北石家庄050016 [2]河北省新型薄膜材料实验室,河北石家庄050016 [3]河北省图书馆,河北石家庄050011

出  处:《计算机仿真》2011年第1期218-221,共4页Computer Simulation

基  金:河北省科学技术研究与发展计划项目(10213512D)

摘  要:聚类分析是数据挖掘的一项关键技术,对于大数据集,确定聚类中心点集所需的计算时间相当的长,针对K-中心算法是一种经典的聚类算法,K-中心在处理小数据集聚类的的问题时,具有良好准确性和伸缩性。但由于K-中心初始中心点是随机选取,聚类过程缓慢,易陷入局部极值,聚类的准确性大大降低。为了提高聚类速度和准确性,提出一种改进的快速K-中心聚类算法。方法首先将训练数据集转换为标准的单位特征度量空间,然后将数据先粗划分为m组,再对m组的k个中心进行聚类找到最优聚类中心,找到聚类中心进行聚类并得到最终聚类结果。以网络入侵数据为例对算法进行了验证性分析,实验结果表明,相对于基本K-中心聚类算法,在保持相同聚类效果的情况下,快速K-中心聚类新算法能够加快聚类速度,节省约聚类时间。Clustering is an important research direction and the K-center algorithm which is efficient and flexible to handle small data sets, is one of the most important method. Because its initial data center is chosed randomly in K-center algorithm, its main draw back is that it often gets trapped in local optimum and the computing cost is too high for large data sets. In order to improve the quality of intrusion detection, an improved anomaly detection algorithm is proposed in this paper. Firstly, the training data set is converted to the standard unit features metric space, then the improved algorithm is used to divide the data in order to find the clustering center. In the end of this paper, the improved algorithm is analyzed and compared with old algorithm. Experimental results show that the improved algorithm has good stability and can detect intrusions in real network data effectively. It has better scalability on large data set.

关 键 词:数据挖掘 聚类 异常检测 检测率 误警率 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象