检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学智能技术与系统国家重点实验室,北京100084 [2]微软亚洲研究院,北京100080
出 处:《计算机研究与发展》2004年第1期221-226,共6页Journal of Computer Research and Development
基 金:国家"九七三"重点基础研究发展规划项目 (G19980 3 0 5 0 9);国家自然科学基金项目 ( 60 2 2 3 0 0 4);国家"八六三"高技术研究发展计划基金项目 ( 2 0 0 1AA114 0 82 )
摘 要:文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页的大规模真实数据集以及TREC2 0 0 1提供的相关文档及评价方法进行测试 ,得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在已知网页定位的任务上能够使系统性能提高 96 % ,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能 ;最后 ,把基于链接描述文本的方法与传统方法相结合 ,能够在检索性能上提高近 16 %One of the most important differences between traditional information retrieval (IR) and web IR lies in the hyperlink structure in web pages. This motivates the so-called link-based retrieval techniques for web IR. The concept of anchor description document is introduced, and then several methods of using anchor text and its context for web IR are proposed. The methods are evaluated using TREC2001 collection which contains over 1.69 million web pages. Several conclusions are drawn: Firstly, anchor text can represent precisely the topic of web page, but is insufficient in describing the web page content. Secondly, comparing with traditional content based IR technique, using anchor text on homepage finding task can get more than 96% improvement in terms of 11-point average precision, while it is not helpful on ad hoc task even with context information. Finally, combining anchor text-based and traditional content-based techniques, more than 16% improvement of performance can be obtained.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145