检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学计算机系智能技术与系统国家重点实验室,北京100084
出 处:《中文信息学报》2004年第2期8-14,共7页Journal of Chinese Information Processing
基 金:国家重点基础研究 (973)资助项目 (G19980 30 5 0 9) ;自然科学基金资助项目 (6 0 2 2 30 0 4 ) ;国家86 3高科技资助项目 (2 0 0 1AA114 0 82 )
摘 要:在Internet中 ,由于海量数据的多样性 ,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式。由此 ,引出多个检索结果的融合问题。对不同检索结果的相似度评分可能完全不可比的情况 ,本文给出一种新的解决方案 :按位加权插入合并算法。在 18GB的大规模web标准测试集上的实验证明 ,该算法始终能够提高综合检索性能 ,且分布数据集检索结果越好 ,则合并后性能改善越多。其中系统平均精度提高接近 10 %,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限。According to the variety of huge amount of web pages in Internet, it has been necessary to todays Web IR to search effectively on distributed collections. Therefore, the retrieval results fusion problem is derived. In this paper, a novel rank-based weighted insertion results fusion algorithm is proposed. Though it is possible that similarity scores of different results are absolutely incomparable, the proposed algorithm works effectively. Experimental results on 18 GB large-scale Web standard test collection show the weighted insertion result fusion strategy enhances retrieval performance consistently. When the performances of distributed results are improved, the enhancement increases as well, which reaches to 10%. Furthermore, it also breaks the limitation in traditional result fusion studies that the final result merged by distributed collections is always worse than that of using single central database.
关 键 词:计算机应用 中文信息处理 WEB信息检索 数据集选择 结果融合 排序
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145