面向大规模无结构数据的Web方面搜索方法  

Faceted Web search approach for large scale unstructured data

在线阅读下载全文

作  者:朱凡微[1,2] 吴明晖[2,1] 应晶[1,2] 

机构地区:[1]浙江大学计算机科学与技术学院,浙江杭州310027 [2]浙江大学城市学院计算机科学与工程学系,浙江杭州310015

出  处:《浙江大学学报(工学版)》2013年第6期990-999,共10页Journal of Zhejiang University:Engineering Science

基  金:清华-腾讯互联网创新技术基金资助项目(2011-8)

摘  要:针对Web数据的异构性和非结构特征,提出一种最小开销的Web方面实体搜索方法:FacetedWeb.采用命名实体对Web进行结构化的标注,将无结构的Web数据建模为实体元组数据库以支持多类型的实体搜索和动态的方面选择.采用基于随机行走模型的概率排序算法,用结点的个性化PageRank值来衡量结果的相关性,以构造最小开销的方面接口.在真实Web数据集Clueweb上实现了FacetedWeb的原型系统,通过用户评测数据验证了FacetedWeb作为通用Web方面搜索引擎的有效性,并与传统实体搜索算法的进行对比,结果表明FacetedWeb在实体搜索的效率和精确度上具有明显的优势.To tackle the heterogeneous and unstructured characteristic of Web data,a minimum-cost faceted entity search approach,FacetedWeb,was proposed.FacetedWeb leveraged the named entities existed in the Web to model the unstructured web data as a structured entity tuple database.Specifically,by identifying the named entities and gathering the relevant entities as a tuple,an entity tuple database could be built conceptually to support multi-type entity search and dynamic facet selection.A biased random walk model was presented to probabilistically evaluate the relevance of each result in terms of its personalized PageRank score.A prototype system upon a real,large-scale Web corpus: Clueweb was implemented,and comprehensive experiments were conducted to evaluate the quality of FacetedWeb.The experimental results validate the effectiveness and efficiency of the proposed approach.

关 键 词:Web方面搜索 命名实体 随机行走模型 个性化PageRank 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象