基于MapReduce的增量式数据集的相似性连接  被引量:2

MapReduce-based similarity join for incremental data set

在线阅读下载全文

作  者:徐媛媛[1] 陈华辉[1] 

机构地区:[1]宁波大学信息科学与工程学院,浙江宁波315211

出  处:《计算机应用研究》2014年第11期3369-3374,3384,共7页Application Research of Computers

基  金:浙江省公益性技术应用研究计划资助项目(2011C21076)

摘  要:相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存在一些不足,如大量的索引加大时间、空间的开销;现有算法不能有效地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究,采用抽样技术得到有效中枢,形成更为合理的分区,建立分区索引和分配原则,完成新增数据的相似性连接操作。实验证明,该算法能够有效地解决海量增量式数据集的相似性连接问题,验证了分区索引的建立,可以提高新增数据的相似性连接操作的效率。Similarity join was namely that using similar function to measure the similarity level of the data set,and then doing the join after meeting the condition.Many effective similarity join algorithms had been in mapreduce,but there were still some insufficiency,such as a lot of indexes increases the overhead of time and space;the existing algorithm couldn’t deal with the similarity computation of the incremental data set effectively,and so on.For massive incremental data set,this paper made use of sampling to get the valid pivots,which established partitions’indexes and distribution principle,then finished the similarity join operation of additional data.The experiments prove that the algorithm can solve the problem of the similarity join of the in-cremental data set effectively,and verify that through creating partitions’indexes,it can improve the efficiency of the similari-ty join operation of additional data.

关 键 词:海量增量式数据集 划分 相似性连接 MAPREDUCE 

分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象