基于Heritrix的面向特定主题的聚焦爬虫研究  被引量:7

Research of a Focused Crawler to Specific Topic Based on Heritrix

在线阅读下载全文

作  者:朱敏[1] 罗省贤 

机构地区:[1]成都理工大学信息科学与技术学院,四川成都610059

出  处:《计算机技术与发展》2012年第2期65-68,共4页Computer Technology and Development

摘  要:通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。By analyzing the Heritrix open-source crawler's component architecture,on account of the existed problems of the Heritrix open-source project,the project designs specific capture logics and classes that can directly crawl particular content pages,implements search for particular topic pages;And introduce the BKDRHash algorithms to URL hashing to achieve a particular topic pages for information search and improve the efficiency of the search data,and achieve the purpose of multi-threaded web crawler.Finally,analyse a particular topic pages and capture content,use HTMLParser tool to crawl the web data source into a specific format,the search can provide a data source for the topic-oriented information systems and data mining,prepare a good potential for further research.

关 键 词:聚焦爬虫 HERITRIX BKDRHash算法 HTMLPARSER 搜索引擎 

分 类 号:TP31[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象