基于可视布局信息的网页噪音去除算法  被引量:22

An Algorithm for the Elimination of the Noise in Web Pages Based on Visual Layout Information

在线阅读下载全文

作  者:荆涛[1] 左万利[1] 

机构地区:[1]吉林大学计算机科学与技术学院,吉林长春130012

出  处:《华南理工大学学报(自然科学版)》2004年第z1期84-87,98,共5页Journal of South China University of Technology(Natural Science Edition)

基  金:国家自然科学基金资助项目(60373099)

摘  要:主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比,本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音.This paper investigates the elimination of the noise in Web pages. As a singular Web page is of rich visual information, a more precise noise elimination algorithm is put forward. In this algorithm, the layout information of elements contained in the Web page is firstly extracted and then used to segment the Web page. Moreover, the noise infonnadon is eliminated according to the segment partition. Compared with the existing approaches based on 'visual layout information' , the proposed method can extract the layout information more exactly and can deal with dynamic HTML pages. Experimental results show that the proposed algorithm is effective and better than the existing algorithms.

关 键 词:网页 噪音 页面布局 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象