检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]吉林大学计算机科学与技术学院,吉林长春130012
出 处:《华南理工大学学报(自然科学版)》2004年第z1期84-87,98,共5页Journal of South China University of Technology(Natural Science Edition)
基 金:国家自然科学基金资助项目(60373099)
摘 要:主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比,本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音.This paper investigates the elimination of the noise in Web pages. As a singular Web page is of rich visual information, a more precise noise elimination algorithm is put forward. In this algorithm, the layout information of elements contained in the Web page is firstly extracted and then used to segment the Web page. Moreover, the noise infonnadon is eliminated according to the segment partition. Compared with the existing approaches based on 'visual layout information' , the proposed method can extract the layout information more exactly and can deal with dynamic HTML pages. Experimental results show that the proposed algorithm is effective and better than the existing algorithms.
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222