面向大规模日志数据的聚类算法研究  被引量:6

Research on Clustering Algorithm for Large Data Sets

在线阅读下载全文

作  者:李清[1] 沈彤[1] 关毅[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

出  处:《智能计算机与应用》2012年第5期42-45,共4页Intelligent Computer and Applications

基  金:国家自然科学基金(60975077)

摘  要:针对大规模日志数据的聚类问题,提出了DBk-means算法。该算法使用Hadoop对原始日志数据进行预处理,并结合了k-means和DBSCAN聚类算法各自的优势。实验结果表明,相比k-means算法进行聚类分析,文中使用DBk-means算法进行聚类,能够取得更好的聚类效果,正确率可以达到83%以上。This paper proposes DBk-means algorithm aiming at the clustering problem for large data sets. By using Hadoop to preprocess the large original log data, the algorithm combines the superiority of k-means algorithm and DBSCAN algorithm. The experimental results of DBk-means algorithm show that this algorithm could achieve a better cluster effect than using k-means algorithm, and its accuracy could reach above 83%.

关 键 词:聚类算法 K-MEANS算法 DBSCAN算法 大规模数据 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象