检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胡飞[1] 杨华千[1] 韦鹏程 彭涛[1] 蒲昌玖[1]
机构地区:[1]重庆第二师范学院网络中心,重庆400065 [2]数学与信息工程系,重庆400065
出 处:《科学技术与工程》2012年第35期9556-9561,共6页Science Technology and Engineering
基 金:重庆第二师范学院研究项目(KY201176C、KY201175C)资助
摘 要:新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实验证明方法实现简单、净化效果明显,特别是对新闻类主题文字网页净化效果显著。A news web page has a lot of paragraph tags, most of which exist in topic zones, and a little in noise zones. According to this feature, a novel purification approach is proposd based on the local optimal DOM tree algorithm. Through searching sibling nodes for the one with the most number of paragraph tags, eliminating the other nodes, a purified DOM tree is got. That is the tree for the purified Web page. This approach is simple and significant, especially to the topic text Web pages.
关 键 词:网页净化 信息提取 HTML标签 局部最优 网页噪音
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.225.56.198