基于Heritrix的网页内容过滤抓取

Web Content Filtering Grab Based on Heritrix

出　　处：《现代计算机》2012年第14期18-22,共5页Modern Computer

摘　　要：在深入研究开源网页爬虫——Heritrix系统框架和源代码的基础上,对其搜索内容和范围增加过滤处理功能。这些功能扩展的实现是通过面向对象分析与设计技术,定义类对Heritrix中相关的类进行继承。在校园网范围内运行Heritrix进行网页收集实验。实验结果表明,新增的过滤功能运行有效。On the basis of in-depth study of the system framework of Web-Crawler, Heritrix and its source code, adds the filtering functions on its target contents as well as the search scope. Realizes the function expansion through object-oriented analysis and design techniques, and constructs some classes that inherit the related classes in Heritrix. Makes Website collection experiment by runnning Hertrix in the campus network, and the result shows that the newly additional functions run well.

关键词：垂直搜索引擎网络爬虫 HERITRIX 内容过滤

分类号：TP393.092[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Heritrix的网页内容过滤抓取

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Heritrix的网页内容过滤抓取

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索