基于最大频繁等价类的Web信息自动抽取

Automatic Web Information Extraction Based on Maximal and Frenquent Equivalence Classes

机构地区：[1]厦门大学计算机科学系 [2]福建生态工程职业技术学校福州350008

出　　处：《计算机科学》2006年第12期169-173,202,共6页Computer Science

基　　金：国家自然科学基金(50474033);福建省自然科学基金(A0310008);福建省重点科技项目(2003H043)。

摘　　要：在定义模板的基础上,提出了页面创建模型。该模型描述了如何使用模板将来自于后台数据库的值编码生成页面。基于这个模型,设计了一个基于最大频繁等价类的抽取算法EBMFEC,通过分析给定的数据导向型页面的终端符号的出现情况,找出最大频繁等价类,并推导出用于生成页面的未知模板。然后使用推导出的模板,从输入页面中提取出相关信息。在大量实际HTML页面上的实验证明,EBMFEC在大部分情况下都可以从给定页面中推导出模板,并正确抽取出数据信息。A novel approach based on MFEC （Maximal and Frenquent Equivalence Classes）is proposed to solve the problem of automatically extracting data from data-intensive Web pages. A template is defined and a model of page creation is proposed to describe how values are encoded into pages using the defined template. We present an algorithm, EBMFEC that takes,as input, a set of template-generated pages, analyzes the page-tokens of given pages to discover MFEC, deduces the unknown template used to generate the pages and extracts, as output, the values encoded in the pages. Experiments on a large number of HTML pages indicate that our algorithm correctly extracts data in most cases and the results are also provided.

关键词：等价类信息抽取模式模板

分类号：TP391.2[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于最大频繁等价类的Web信息自动抽取

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于最大频繁等价类的Web信息自动抽取

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索