一种可行的Web数据抽取包装器的设计方法  被引量:3

A PRACTICAL DESIGNING METHOD FOR THE WRAPPER OF WEB DATA EXTRACTION

在线阅读下载全文

作  者:李宏伟[1] 史培中[1] 张素智[1] 

机构地区:[1]郑州轻工业学院计算机与通信工程学院,河南郑州450002

出  处:《计算机应用与软件》2009年第3期110-113,共4页Computer Applications and Software

基  金:河南省自然科学基金资助项目(0411010500)

摘  要:Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。Web Wrapper is a program extracting the data from given Web sources according to corresponding extraction rules of them. Its design is a key technology for Web information extraction and integration. Confronted with the uncertainty and variability of Web pages' structure,in this paper it elucidates the design and implementation process of a kind of the Web Wrapper which is based on pre-defined schema, and validates the data extraction from the Web pages of some publishers with information of new books releasing, the extraction results are analysed with fairly satisfied result. It fully embodies the practicality of this Web Wrapper which has certain efficiency and maintainability. It can be applied for Web data integration based on Wrapper/Mediator.

关 键 词:包装器 抽取规则 信息抽取 WEB数据集成 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP311[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象