基于Heritrix的网络主题爬虫算法研究与应用——以粮食网站交易信息为例  被引量:1

Study And Application Of Focused Web Crawler Algorithm Based On Heritrix——A Food Site Transaction Information

在线阅读下载全文

作  者:樊多妮[1] 李禹生[1] 

机构地区:[1]武汉工业学院数学与计算机学院,湖北武汉430023

出  处:《现代物业(下旬刊)》2012年第9期97-100,共4页Modern Property Management

基  金:项目名称:湖北省教育厅科研项目"基于语义网的半结构化信息抽取技术及其应用研究"。项目编号:D200618003

摘  要:首先对搜索引擎中的主题网络爬虫进行介绍,以Java开源网络爬虫Heritrix为基础,阐述其工作原理及架构。在此基础上通过Internet粮食交易信息网站与爬虫的自动采集技术相结合展开对该领域主题网络爬虫开发的研究。In this paper, the focused web crawler in search engine was firstly introduced ,based on the Java open source Web crawler Heritrix, elaborared it's principle and structure. On this basis, expand the study of the thematic networks in the field of reptile development through the Internet grain trading information site and reptiles of the automatic acquisition technology combining.

关 键 词:网络爬虫 HERITRIX 向量空间模型 匹配算法 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象