Web信息检索结果融合中的按位加权插入合并算法  

Rank-based Weighted Insertion Results Fusion Algorithm in Web IR

在线阅读下载全文

作  者:张敏[1] 金奕江[1] 马少平[1] 

机构地区:[1]清华大学计算机系智能技术与系统国家重点实验室,北京100084

出  处:《中文信息学报》2004年第2期8-14,共7页Journal of Chinese Information Processing

基  金:国家重点基础研究 (973)资助项目 (G19980 30 5 0 9) ;自然科学基金资助项目 (6 0 2 2 30 0 4 ) ;国家86 3高科技资助项目 (2 0 0 1AA114 0 82 )

摘  要:在Internet中 ,由于海量数据的多样性 ,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此 ,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况 ,本文给出一种新的解决方案 :按位加权插入合并算法。在 18GB的大规模web标准测试集上的实验证明 ,该算法始终能够提高综合检索性能 ,且分布数据集检索结果越好 ,则合并后性能改善越多。其中系统平均精度提高接近 10 %,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限。According to the variety of huge amount of web pages in Internet, it has been necessary to todays Web IR to search effectively on distributed collections. Therefore, the retrieval results fusion problem is derived. In this paper, a novel rank-based weighted insertion results fusion algorithm is proposed. Though it is possible that similarity scores of different results are absolutely incomparable, the proposed algorithm works effectively. Experimental results on 18 GB large-scale Web standard test collection show the weighted insertion result fusion strategy enhances retrieval performance consistently. When the performances of distributed results are improved, the enhancement increases as well, which reaches to 10%. Furthermore, it also breaks the limitation in traditional result fusion studies that the final result merged by distributed collections is always worse than that of using single central database.

关 键 词:计算机应用 中文信息处理 WEB信息检索 数据集选择 结果融合 排序 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象