基于XML的自动学习Web信息抽取被引量：10

Auto-learning Web Information Extraction Based on XML

作　　者：冀高峰[1] 汤庸[1] 道炜[1] 吴桂宾[1] 黄帆[1] 王鹏[1]

出　　处：《计算机科学》2008年第3期87-90,共4页Computer Science

基　　金：国家自然科学基金项目(60373081,60673135);广东省自然科学基金项目(04105503,5003348);教育部“新世纪优秀人才支持计划”资助项目

摘　　要：因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息。信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题。通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上。而通过Web信息抽取的自动化实现,可以提高信息获得的效率。信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识。本文分析了基于XML的Web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取模型,通过自动学习来获取信息抽取规则,实现Web信息的自动提取。Intemet provides us explosive information and involves massive important and useful knowledge within the abundant Web resources. Info explosion and knowledge deficiency are big troubles confronting modem civilization due to the inconven-ience of locating the vital data interested by user via search engine. However, the auto-realization of Web info extraction could significantly enhance the efficiency of info,absorbing. It can also discover as well as analyze targeted info, discard redundant data and extract user-knowledge-domain-infcx This article analyzes Web info extraction methodology based on XML, discusses related technology concerning application of such methodology, establishes Web info extraction model in order to realize auto-extraction of Web info via auto-learning the regulations of Web info extraction.

关键词：信息提取半结构化自动学习规则库 XML

分类号：TP392[自动化与计算机技术—计算机应用技术] TP273.2[自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于XML的自动学习Web信息抽取被引量：10

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于XML的自动学习Web信息抽取 被引量：10

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于XML的自动学习Web信息抽取被引量：10