检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]宁波大学信息科学与工程学院,浙江宁波315211
出 处:《计算机应用研究》2014年第11期3369-3374,3384,共7页Application Research of Computers
基 金:浙江省公益性技术应用研究计划资助项目(2011C21076)
摘 要:相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存在一些不足,如大量的索引加大时间、空间的开销;现有算法不能有效地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究,采用抽样技术得到有效中枢,形成更为合理的分区,建立分区索引和分配原则,完成新增数据的相似性连接操作。实验证明,该算法能够有效地解决海量增量式数据集的相似性连接问题,验证了分区索引的建立,可以提高新增数据的相似性连接操作的效率。Similarity join was namely that using similar function to measure the similarity level of the data set,and then doing the join after meeting the condition.Many effective similarity join algorithms had been in mapreduce,but there were still some insufficiency,such as a lot of indexes increases the overhead of time and space;the existing algorithm couldn’t deal with the similarity computation of the incremental data set effectively,and so on.For massive incremental data set,this paper made use of sampling to get the valid pivots,which established partitions’indexes and distribution principle,then finished the similarity join operation of additional data.The experiments prove that the algorithm can solve the problem of the similarity join of the in-cremental data set effectively,and verify that through creating partitions’indexes,it can improve the efficiency of the similari-ty join operation of additional data.
关 键 词:海量增量式数据集 划分 相似性连接 MAPREDUCE
分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.177