基于Heritrix和Jsoup的信息抽取系统的设计与实现  被引量:2

DESIGN AND IMPLEMENTATION OF WEB INFORMATION EXTRACTION SYSTEM BASED ON HERITRIX AND JSOUP

在线阅读下载全文

作  者:刘全志[1] 于治楼 

机构地区:[1] 山东师范大学信息科学与工程学院,济南250014 [2] 浪潮集团有限公司,济南250101

出  处:《山东师范大学学报(自然科学版)》2015年第2期16-19,共4页Journal of Shandong Normal University(Natural Science)

摘  要:应用开源的Heritrix和Jsoup设计了一个通用性强的网络商品信息抽取系统,实现了Web信息的抽取、存储.系统由三个分别独立的功能模块组成,即采集网页模块、抽取信息模块、数据存储模块,并对抽取算法在真实数据页面上进行了验证.实验结果表明系统具有良好的召回率和准确率,抽取效果良好.Heritrix and Jsoup are used to design a general - purpose network commodity information extraction system which achieves the crawler and storage of Web information in this paper. The system is composed of three respective modules: web crawling module , web analysis module and database storage module. It: vetlfies the extraction algorithm in the real data on the page. The experimental results show that the system has good recall rate and precision rate, extraction good results.

关 键 词:WEB信息抽取 HTML解析器 Jsoup 网络爬虫 Heritirx 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象