一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例  被引量:5

在线阅读下载全文

作  者:孙庚[1] 冯艳红[1] 于红[1] 史鹏辉[1] 

机构地区:[1]大连水产学院信息与计算机工程学院,辽宁大连116023

出  处:《软件导刊》2010年第5期47-49,共3页Software Guide

摘  要:以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。

关 键 词:定题爬虫 搜索引擎 HERITRIX 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象