相似性连接查询技术研究进展  被引量:15

Research Advance on Similarity Join Queries

在线阅读下载全文

作  者:庞俊[1] 谷峪[1] 许嘉[1] 于戈[1] 

机构地区:[1]东北大学信息科学与工程学院,沈阳110819

出  处:《计算机科学与探索》2013年第1期1-13,共13页Journal of Frontiers of Computer Science and Technology

基  金:国家自然科学基金 Nos.61173027;61272179;国家重点基础研究发展规划(973) No.2012CB316201;中央高校基本科研业务费专项资金 Nos.N110404006;N100704001~~

摘  要:相似性连接查询,即查找相似的数据对象对,具有广泛的应用领域,例如相似网页检测、实体解析、数据清洗和相似图像检索等。相似性连接查询是当前大数据处理领域的热点问题之一。讨论了相似性连接查询面临的挑战;根据不同的标准对现有的相似性连接查询进行了分类;总结并比较了现有的字符串、集合、向量和图相似性连接算法;探讨了今后的研究重点和发展趋势。Similarity join query is to find similar data object pairs for a wide range of applications, such as near duplicate Web page detection, entity resolution, data cleaning and similar image retrieval. Nowadays, similarity join query becomes one of the hot topics in the field of big data processing. This paper discusses the challenges of similarity join query. Meanwhile, it analyzes and classifies the existing similarity join queries according to different standards, then summarizes and compares the existing string, set, vector and graph similarity join algorithms respectively. Finally, it explores the research focus and trend of this area.

关 键 词:相似性连接查询 相似性度量 海量数据 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象