网页去重策略被引量：13

The Strategy on Processing Replicated Web Collections

机构地区：[1]上海交通大学计算机科学与工程系,上海200030 [2]上海远程教育集团,上海200086

出　　处：《上海交通大学学报》2006年第5期775-777,782,共4页Journal of Shanghai Jiaotong University

基　　金：国家高技术研究发展计划(863)项目(2002AA119050)

摘　　要：提出基于同源网页去重与内容去重的策略.通过对网址URL进行哈希散列完成对同源网页的去重,并对内容相同或近似的网页采用基于主题概念的去重判断.实验表明,该方法有效且去重效果良好.基于上述算法实现了教育资源库教育资讯搜索引擎系统.This paper presented techniques on how to build an effective crawler to collect non-replicative Web pages. A novel Hash function was proposed, together with a content-oriented approach, to filter based on URLs and contents. On one hand, this technique can parallelize crawling process while minimize the overlap effectively. On the other hand, it can identify those near-duplicated collections. The experimental results show the feasibility of the approach. On the basis of this work, the implementation of an educational search engine was presented in the end.

关键词：信息检索搜索引擎哈希函数主题概念

分类号：TP393[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网页去重策略被引量：13

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网页去重策略 被引量：13

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

网页去重策略被引量：13