基于分块重要性模型与Xpath的Web信息抽取的研究

Research on Web Information Extraction Based on Combining Block Importance Model and Xpath

出　　处：《计算机与现代化》2009年第8期73-75,79,共4页Computer and Modernization

摘　　要：网页分块方法使得Web信息抽取的单位由页面缩小为块。文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取方法进行分析。结合两者的优势提出一种基于分块重要性模型与Xpath结合的Web信息抽取方法,探讨了其设计过程,并给出形式化描述与实验结果,结果表明该方法适合于抽取多记录型的网页。Approaches of page segment reduce the LUSt of Web information extraction from page to block. This paper studies the main approaches of page segment and the based-learning block importance model, and analyses the approach of Xpath-based Web information extraction. Combining the advantages of the two approaches, this paper proposes a new Web information extraction based on combining block importance model and Xpath, discusses its design process, and gives its formalized description and ex- perimental result. The result shows that this approach is fit for extracting from the Web which has many records.

关键词：网页分块块重要性权重 XPATH WEB信息抽取

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于分块重要性模型与Xpath的Web信息抽取的研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于分块重要性模型与Xpath的Web信息抽取的研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索