网页净化

作品数:17被引量:89H指数:4
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:刘军谢华胡飞李连霞马军更多>>
相关机构:浙江工商大学北京大学中南大学中国人民解放军南昌陆军学院更多>>
相关期刊:《重庆师范大学学报(自然科学版)》《科学技术与工程》《计算机系统应用》《计算机技术与发展》更多>>
相关基金:浙江省自然科学基金国家科技支撑计划国家重点基础研究发展计划安徽省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于模式匹配的网页净化方法
《重庆师范大学学报(自然科学版)》2015年第6期103-108,共6页曾蒸 马燕 
重庆市教育委员会高等教育教学改革项目(No.143031)
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,...
关键词:网页噪音 网页净化 信息提取 
网页信息提取技术被引量:1
《计算机技术与发展》2013年第9期36-38,42,共4页邵振凯 
安徽省自然科学基金(11040606M135)
随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析...
关键词:DOM 标签提取 信息提取 网页净化 
网页净化及去重研究综述被引量:1
《现代计算机》2013年第10期3-7,12,共6页罗元 
随着互联网的快速发展与搜索引擎的广泛使用,网页数据已经成为各种应用与研究的重要数据源之一。然而由于网页的特殊性,它所包含的信息并非都是各种应用所必需,例如:广告,导航条等。它们的存在会对各种应用产生不利影响。此外,网页检索...
关键词:网页去重 网页净化 信息检索 万维网 
基于统计的网页净化模板生成算法
《科学技术与工程》2013年第4期1060-1063,共4页胡飞 黄军建 成平广 席海 李军 
重庆教育学院研究项目(KY201176C)资助
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树...
关键词:网页净化 信息提取 单边子树 
基于局部最优标签树的网页净化方法
《科学技术与工程》2012年第35期9556-9561,共6页胡飞 杨华千 韦鹏程 彭涛 蒲昌玖 
重庆第二师范学院研究项目(KY201176C、KY201175C)资助
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实...
关键词:网页净化 信息提取 HTML标签 局部最优 网页噪音 
一种基于单模型的网页净化方法
《计算机与现代化》2012年第2期128-130,共3页干文敏 李俊 李剑 
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络...
关键词:网页净化 DOM树 内容块 神经网络 
基于DOM和神经网络的网页净化应用被引量:2
《电子科技》2012年第1期105-107,共3页李剑 
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个...
关键词:网页净化 DOM树 内容块 神经网络 
一种新的用于数据挖掘工具的网页净化算法
《郑州轻工业学院学报(自然科学版)》2011年第3期85-87,91,共4页孙楠 张华伟 
为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在标记和

标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页...

关键词:网页净化 网页噪声 文档对象模型 阈值 
互联网视频摘要信息自动抽取
《计算机系统应用》2010年第10期237-241,共5页易荣锋 朱六璋 尹文科 
国家高技术研究发展计划(863)(2008AA01A318;2008AA01Z408)
提出一种识别视频播放页,并从中抽取视频摘要信息的方法,播放页的自动识别是通过三个判定要素的运用来实现,播放页内摘要信息的抽取是通过依次去除背景噪声、随机噪声、残留噪声来实现。有关实验结果表明,该方法具有较好的通用性。
关键词:摘要信息抽取 互联网视频 网页净化 
基于网页分块的搜索引擎排序算法改进
《浙江工业大学学报》2009年第5期495-498,共4页高乐 张健 钱杰 
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定...
关键词:网页噪音 网页分块 网页净化 排序算法 VIPS