基于链接的方法进行Web信息检索的TREC实验研究  被引量:1

Study on Link-based Approaches for Web IR in TREC Experiments

在线阅读下载全文

作  者:张敏[1] 马少平[1] 高剑锋[2] 

机构地区:[1]清华大学计算机系智能技术与系统国家重点实验室,北京100084 [2]微软亚洲研究院,北京100080

出  处:《中文信息学报》2003年第1期20-24,31,共6页Journal of Chinese Information Processing

基  金:国家重点基础研究资助项目 (973) (G19980 30 5 0 9) ;自然科学基金资助项目 (6 9836 0 4 0 )

摘  要:本文通过TREC实验研究基于链接信息的检索对Web信息检索的影响 ,包括使用链接描述文本 ,链接结构以及将基于链接的方法和传统基于内容检索的方法合并。得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在网页定位的任务上能够使系统性能提高 96 % ,但是在信息查询任务上没有帮助 ;最后 ,将基于链接信息的检索与传统的基于内容检索技术合并 ,在网页入口定位任务上总能将系统性能提高 4 8%到 12 4 .8% ,而对特定信息查询任务也能在一定程度上改善检索效果。This paper studied the effects of using of link information for Web IR in TREC experiment,including link anchor text,link structure and the combination of link-based retrieval and traditional content-based retrieval.Several conclusions are drawn:Firstly,anchor text can represent precisely the topic of Web page,but insufficient in describing the Web page content.Secondly,comparing with traditional content-based IR technique,using link-based approach on homepage finding task can get more than 96% improvement,while it is not helpful on ad hoc task.Finally,combining link-based and content-based techniques makes consistent 48% to 124.8% improvement on homepage finding task and some progress on ad hoc task.

关 键 词:TREC 实验研究 计算机应用 中文信息处理 WEB信息检索 信息查询 

分 类 号:G354.4[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象