基于Heritrix和Jsoup的信息抽取系统的设计与实现被引量：2

DESIGN AND IMPLEMENTATION OF WEB INFORMATION EXTRACTION SYSTEM BASED ON HERITRIX AND JSOUP

机构地区：[1] 山东师范大学信息科学与工程学院,济南250014 [2] 浪潮集团有限公司,济南250101

出　　处：《山东师范大学学报（自然科学版）》2015年第2期16-19,共4页Journal of Shandong Normal University(Natural Science)

摘　　要：应用开源的Heritrix和Jsoup设计了一个通用性强的网络商品信息抽取系统,实现了Web信息的抽取、存储.系统由三个分别独立的功能模块组成,即采集网页模块、抽取信息模块、数据存储模块,并对抽取算法在真实数据页面上进行了验证.实验结果表明系统具有良好的召回率和准确率,抽取效果良好.Heritrix and Jsoup are used to design a general - purpose network commodity information extraction system which achieves the crawler and storage of Web information in this paper. The system is composed of three respective modules： web crawling module , web analysis module and database storage module. It： vetlfies the extraction algorithm in the real data on the page. The experimental results show that the system has good recall rate and precision rate, extraction good results.

关键词：WEB信息抽取 HTML解析器 Jsoup 网络爬虫 Heritirx

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Heritrix和Jsoup的信息抽取系统的设计与实现被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Heritrix和Jsoup的信息抽取系统的设计与实现 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于Heritrix和Jsoup的信息抽取系统的设计与实现被引量：2