基于MapReduce与距离的离群数据并行挖掘算法  被引量:4

Parallel Mining of Distance-Based Outliers Using MapReduce

在线阅读下载全文

作  者:任燕 

机构地区:[1]山西省特殊教育中等专业学校,太原030012

出  处:《计算机系统应用》2018年第2期151-156,共6页Computer Systems & Applications

摘  要:数据挖掘技术是解决数据丰富而知识贫乏的有效途径,离群数据挖掘是数据挖掘领域中的重要研究内容之一,己广泛应用于网络入侵检测,信用卡诈骗,垃圾邮件的分析和基因突变分析等领域.在高维海量数据中,由于数据量大和维度高,严重影响了离群数据挖掘的精度和效率.本文在KNN基础上,通过定义"解集"的概念,在MapReduce编程环境下,实现了一种基于距离的离群数据挖掘算法.分别采用人工数据集和UCI数据集,实验验证了该算法在不同条件下,参数对算法性能的影响.Data mining technology is an effective approach to resolve the problem of abundant data and scanty information. Outlier mining is one of the main research topic in the field of data mining, and it has been widely used in network intrusion detection, line card fraud, spam analysis, gene mutation analysis, etc. In high-dimensional data, the data volume and high dimension affect the effects of outlier data mining and efficiency seriously. In view of the high dimensional data, this study adopts the KNN implementing a distance-based outlier data mining algorithms under the MapReduce programming model by defining the "solving set". Using artificial data set and UCI data set, the influence of parameters on the algorithm performance is discussed under different conditions in the experiment.

关 键 词:MAPREDUCE 基于距离 KNN 离群数据挖掘 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象