检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西南交通大学信息科学与技术学院,成都610031
出 处:《计算机科学》2012年第12期145-148,共4页Computer Science
基 金:中央高校基本科研业务费专项基金(云计算与智能技术;SWJTU11ZT08);铁道部科技研究开发计划重大课题(2011X007)资助
摘 要:通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为XML标签;(5)实现无结构化多媒体信息的数据库管理。应用结果表明,系统提供了超出Web-Harvest的加值功能,可满足不同的信息提取需求,其简单实用,便于扩展。A system named xScraper was developed based on the data extraction rules investigation in Web-Harvest.5 main functions of this system are(1) flexible specification of extraction rules to meet different application requirements;(2) controllable bulk non-structured data(incl.images) extraction from the same Web site;(3) deep extraction of topic-related information across many Web sites;(4) extraction of metadata from Web sites and transformation in to XML tags;(5) non-structured multi-media information management in databases.xScraper is a simple,practical and extendable system.It provides value-added services over Web-Harvest and can meet different requirements of Web information extraction.
关 键 词:WEB信息提取 xScraper系统 Web-Harvest内核技术
分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.93