航班信息抽取规则的自动生成技术被引量：2

Auto Generation Technology for Flight Information Extraction Rules

机构地区：[1]中国民航大学计算机科学与技术学院,天津300300 [2]中国民航信息技术科研基地,天津300300

出　　处：《计算机工程》2011年第6期65-67,共3页Computer Engineering

基　　金：国家"863"计划基金资助重点项目(2006AA12A106);中国民航大学科研基金资助项目(07kym04)

摘　　要：在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。Extraction rule plays an important role in Web information extraction based on wrappers.As the Web pages often change,the rule is updated frequently.However,it is a hard work to find extraction rule by hand.This paper proposes an auto extraction rule generation method,which constructs a semantic TABLE tree after scanning HTML code.The semantic TABLE trees is used to identify the data table,and the extraction rule is generated automatically through a greedy algorithm.Experiment result shows that it has high precision and F-score,and has high rule generation rate to the identified table.

关键词：WEB信息提取抽取规则语义TABLE树贪心算法

分类号：TP311[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

航班信息抽取规则的自动生成技术被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

航班信息抽取规则的自动生成技术 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

航班信息抽取规则的自动生成技术被引量：2