一种基于同层网页相似性去除网页噪音的方法被引量：3

Noise Elimination Method in Web Pages Based on the Similarity of Same Layer Pages

出　　处：《计算机工程》2006年第23期61-63,共3页Computer Engineering

摘　　要：一个普通的Web页面可以被分成信息块和噪音块两部分。基于web信息检索的第1步就是过滤掉网页中的噪音块。通过网页的特性可以看出,同层网页大多具有相似的显示风格和噪音块。在VIPS算法的基础上,该文提出一种基于同层网页相似性的匹配算法,这个算法可以被用来过滤网页中的噪音块。通过实验检测,算法可以达到95%以上的准确率。A common Web page could be separated into two categories： valuable segments and noise segments. The first step of information retrieval on the Web is to eliminate noise segments or blocks. This paper studies the properties of Web pages and finds out that Web pages with a common URL prefix always have the similar presentation styles and noise segments. Based on vision-based page segmentation （VIPS）, it proposes an approximate sub-tree matching algorithm, which could be used to eliminate noise segmentations in a Web page. The implemented algorithm could achieve 95% accurate noise block.

关键词：网页噪音 VIPS算法相似树比较

分类号：TP311[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于同层网页相似性去除网页噪音的方法被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于同层网页相似性去除网页噪音的方法 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种基于同层网页相似性去除网页噪音的方法被引量：3