面向基于关键词的相似性搜索的嵌入方法有效性分析  

Effectiveness of embedding methods for keyword-based similarity search

在线阅读下载全文

作  者:王梦红 王骞[1] Wang Menghong Wang Qian(College of Computer, Wuhan University, Wuhan 430072, Chin)

机构地区:[1]武汉大学计算机学院,武汉430072

出  处:《计算机应用研究》2017年第9期2659-2665,共7页Application Research of Computers

基  金:国家自然科学基金资助项目(61373167);国家重点基础研究发展计划资助项目(2014CB340600)

摘  要:FastMap、SparseMap、BoostMap被认为是适用于任何度量空间的嵌入方法。然而之前的研究者高估了它们的适用性,它们在基于关键词的度量空间中并不适用。为了评估它们在关键词空间中的适用性,通过将它们实例化到基于关键词的相似性搜索的场景中,利用嵌入方法与局部敏感哈希相结合的方法,针对它们的嵌入效果进行了研究。重点从精确度、召回率、应力(stress)和距离保存效率方面,给出了它们在不同数据集上的实验结果。发现它们在基于关键词的度量空间中的嵌入效果并不好,得出了它们并不适用于所有的度量空间的结论,并分析了其效果不好的原因。Some researchers consider FastMap, SparseMap and BoostMap are applicable in any metric spaces. However, they overestimated their practicability, and found that they were not applicable in the metric spaces based on keywords. To evaluate their practicability in the keyword space, this paper instantiated them into the scenario of keyword-based similarity search, and used a framework consisting of embedding methods and locality sensitive hash ( LSH), and evaluated them in terms of preci- sion, recall, stress and effectiveness in distance preservation. In addition, it provided some analysis of them. The experiments show that their embedding effectiveness in the keyword space are not good. Thus, this paper concludes that these embedding methods are not applicable for all metric spaces.

关 键 词:嵌入方法 关键词空间 相似性搜索 FastMap SparseMap BoostMap 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象