检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]浙江大学计算机科学与技术学院,浙江杭州310027 [2]浙江大学城市学院计算机科学与工程学系,浙江杭州310015
出 处:《浙江大学学报(工学版)》2013年第6期990-999,共10页Journal of Zhejiang University:Engineering Science
基 金:清华-腾讯互联网创新技术基金资助项目(2011-8)
摘 要:针对Web数据的异构性和非结构特征,提出一种最小开销的Web方面实体搜索方法:FacetedWeb.采用命名实体对Web进行结构化的标注,将无结构的Web数据建模为实体元组数据库以支持多类型的实体搜索和动态的方面选择.采用基于随机行走模型的概率排序算法,用结点的个性化PageRank值来衡量结果的相关性,以构造最小开销的方面接口.在真实Web数据集Clueweb上实现了FacetedWeb的原型系统,通过用户评测数据验证了FacetedWeb作为通用Web方面搜索引擎的有效性,并与传统实体搜索算法的进行对比,结果表明FacetedWeb在实体搜索的效率和精确度上具有明显的优势.To tackle the heterogeneous and unstructured characteristic of Web data,a minimum-cost faceted entity search approach,FacetedWeb,was proposed.FacetedWeb leveraged the named entities existed in the Web to model the unstructured web data as a structured entity tuple database.Specifically,by identifying the named entities and gathering the relevant entities as a tuple,an entity tuple database could be built conceptually to support multi-type entity search and dynamic facet selection.A biased random walk model was presented to probabilistically evaluate the relevance of each result in terms of its personalized PageRank score.A prototype system upon a real,large-scale Web corpus: Clueweb was implemented,and comprehensive experiments were conducted to evaluate the quality of FacetedWeb.The experimental results validate the effectiveness and efficiency of the proposed approach.
关 键 词:Web方面搜索 命名实体 随机行走模型 个性化PageRank
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15