基于视觉特征的网页正文提取方法研究被引量：13

The research on vision-based Web page information extraction algorithm

机构地区：[1]中国石油大学(华东)计算机与通信工程学院,山东东营257000

出　　处：《微型机与应用》2010年第3期38-41,共4页Microcomputer & Its Applications

摘　　要：利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是切实可行的。To get the useful information blocks, this paper first segmented the Web page into blocks with its visual features and its DOM tree＇s characteristics, and then deleted the noise blocks. This is a recursive process until no block can be deleted. Then handled the reserved blocks with the VIPS algorithm to get the semantic blocks. At last, got the text content by handling the semantic blocks. Experiment shows that this method is feasible.

关键词：页面分块信息提取视觉特征

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于视觉特征的网页正文提取方法研究被引量：13

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于视觉特征的网页正文提取方法研究 被引量：13

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于视觉特征的网页正文提取方法研究被引量：13