xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息

xScraper:Bulk-and Deep-extracting Non-structured Web Information Based on Web-Harvest Techniques

出　　处：《计算机科学》2012年第12期145-148,共4页Computer Science

基　　金：中央高校基本科研业务费专项基金(云计算与智能技术;SWJTU11ZT08);铁道部科技研究开发计划重大课题(2011X007)资助

摘　　要：通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为XML标签;(5)实现无结构化多媒体信息的数据库管理。应用结果表明,系统提供了超出Web-Harvest的加值功能,可满足不同的信息提取需求,其简单实用,便于扩展。A system named xScraper was developed based on the data extraction rules investigation in Web-Harvest.5 main functions of this system are（1） flexible specification of extraction rules to meet different application requirements;（2） controllable bulk non-structured data（incl.images） extraction from the same Web site;（3） deep extraction of topic-related information across many Web sites;（4） extraction of metadata from Web sites and transformation in to XML tags;（5） non-structured multi-media information management in databases.xScraper is a simple,practical and extendable system.It provides value-added services over Web-Harvest and can meet different requirements of Web information extraction.

关键词：WEB信息提取 xScraper系统 Web-Harvest内核技术

分类号：TP393.4[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索