xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息  

xScraper:Bulk-and Deep-extracting Non-structured Web Information Based on Web-Harvest Techniques

在线阅读下载全文

作  者:朱焱[1] 朱凯[1] 

机构地区:[1]西南交通大学信息科学与技术学院,成都610031

出  处:《计算机科学》2012年第12期145-148,共4页Computer Science

基  金:中央高校基本科研业务费专项基金(云计算与智能技术;SWJTU11ZT08);铁道部科技研究开发计划重大课题(2011X007)资助

摘  要:通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为XML标签;(5)实现无结构化多媒体信息的数据库管理。应用结果表明,系统提供了超出Web-Harvest的加值功能,可满足不同的信息提取需求,其简单实用,便于扩展。A system named xScraper was developed based on the data extraction rules investigation in Web-Harvest.5 main functions of this system are(1) flexible specification of extraction rules to meet different application requirements;(2) controllable bulk non-structured data(incl.images) extraction from the same Web site;(3) deep extraction of topic-related information across many Web sites;(4) extraction of metadata from Web sites and transformation in to XML tags;(5) non-structured multi-media information management in databases.xScraper is a simple,practical and extendable system.It provides value-added services over Web-Harvest and can meet different requirements of Web information extraction.

关 键 词:WEB信息提取 xScraper系统 Web-Harvest内核技术 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象