网页噪音

作品数:10被引量:47H指数:3
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:左万利荆涛刘同来杨志豪林鸿飞更多>>
相关机构:吉林大学大连理工大学哈尔滨工程大学桂林电子科技大学更多>>
相关期刊:《计算机工程与设计》《重庆师范大学学报(自然科学版)》《科学技术与工程》《网络安全技术与应用》更多>>
相关基金:国家自然科学基金国家重点基础研究发展计划新世纪高等教育教学改革工程广西壮族自治区自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于模式匹配的网页净化方法
《重庆师范大学学报(自然科学版)》2015年第6期103-108,共6页曾蒸 马燕 
重庆市教育委员会高等教育教学改革项目(No.143031)
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,...
关键词:网页噪音 网页净化 信息提取 
基于局部最优标签树的网页净化方法
《科学技术与工程》2012年第35期9556-9561,共6页胡飞 杨华千 韦鹏程 彭涛 蒲昌玖 
重庆第二师范学院研究项目(KY201176C、KY201175C)资助
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实...
关键词:网页净化 信息提取 HTML标签 局部最优 网页噪音 
基于信息量衰减幅度的网页正文提取被引量:1
《计算机工程与设计》2012年第7期2555-2560,共6页陈阳 陈兴蜀 吴麒 
国家973重点基础研究发展计划基金项目(2007CB311106);国家信息安全专项(242项目)基金项目((242)2009A82)
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅...
关键词:网页正文提取 标签树 主题区域子树 信息抽取 网页噪音 
一种基于数据库去除网页噪音的有效方法
《桂林电子科技大学学报》2010年第1期54-58,共5页刘同来 蒋华 张万桢 
广西自然科学基金(0991071)
由于网页中大都包含有如广告、版权信息、导航链接等噪音,严重影响了网页数据的自动收集和挖掘。通过一种基于数据库去除网页噪音的有效方法,对网页噪音的处理不用将内容全部放入内存中,而是根据数据库中保存的table和div容器包含内容...
关键词:数据库 网页噪音 类别空间模型 
基于网页分块的搜索引擎排序算法改进
《浙江工业大学学报》2009年第5期495-498,共4页高乐 张健 钱杰 
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定...
关键词:网页噪音 网页分块 网页净化 排序算法 VIPS 
基于主题的网页噪音去除机制被引量:8
《计算机工程与设计》2008年第8期2072-2074,2084,共4页万乐 左万利 高金 
国家自然科学基金项目(60373099);教育部"符号计算与知识工程"重点实验室基金项目(93K-17)
由于主题的缺失,传统的网页噪音去除算法均是通过一些启发式的规则判断哪些是有用信息,哪些是噪音信息。而在主题爬行的环境下,由于有了明确的主题,可以使用一些不同的方法来发现网页噪音。提出了一种基于主题的网页噪音去除算法,通过...
关键词:WEB网页 噪音去除 信息提取 预处理 
基于网页框架和规则的网页噪音去除方法被引量:17
《计算机工程》2007年第19期276-278,共3页时达明 林鸿飞 杨志豪 
国家自然科学基金资助项目(60373095)
提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的...
关键词:信息检索 网页噪音 页面框架 
基于改进kNN算法的网页分类系统设计
《网络安全技术与应用》2007年第11期51-52,81,共3页李军杰 刘克胜 赵有才 
本文阐述了一个网页自动分类系统的设计和实现。设计了一种有效的网页噪音数据过滤算法,并针对kNN算法的主要缺陷进行了改进,提出一种基于中心文本的kNN算法,通过中心文本的获取提高了算法的效率。实验结果表明这两种算法可以改善分类...
关键词:网页分类 网页噪音 中心文本 
一种基于同层网页相似性去除网页噪音的方法被引量:3
《计算机工程》2006年第23期61-63,共3页袁明轩 张选平 蒋宇 赵仲孟 
一个普通的Web页面可以被分成信息块和噪音块两部分。基于web信息检索的第1步就是过滤掉网页中的噪音块。通过网页的特性可以看出,同层网页大多具有相似的显示风格和噪音块。在VIPS算法的基础上,该文提出一种基于同层网页相似性的匹配算...
关键词:网页噪音 VIPS算法 相似树比较 
基于可视布局信息的网页噪音去除算法被引量:22
《华南理工大学学报(自然科学版)》2004年第z1期84-87,98,共5页荆涛 左万利 
国家自然科学基金资助项目(60373099)
主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比,...
关键词:网页 噪音 页面布局