网页去噪

作品数:32被引量:110H指数:7
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:宋鳌周军罗传飞苏秀芝王运锋更多>>
相关机构:上海交通大学北京邮电大学国防科学技术大学四川大学更多>>
相关期刊:《电视技术》《莆田学院学报》《中小企业管理与科技》《软件》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划内蒙古自治区自然科学基金国家重点基础研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于模板和SVM协同工作的网页去噪方法
《计算机科学与应用》2020年第1期51-59,共9页严金承 王运锋 
成都市科技计划项目资助(2019-RK00-00015-ZF).
本文提出一种基于模板和支持向量机(SVM)协同工作的网页去噪方法。该方法将网页噪声分为公共噪声和个性化噪声两类。首先从网页集合中建立模板库,利用模板去除网页公共噪声。对于剩下的个性化噪声,先计算块级标签特征,利用这些特征训练...
关键词:网页去噪 模板 SVM 
基于排序学习的网络爬虫实现设计
《青年与社会》2019年第12期218-219,共2页陈泽 
网络爬虫是计算机搜索领域内一块非常核心的内容,带偏好的网络爬虫则是目前搜索领域中的一大热点,也是目前较难解决的问题之一。现有的大多数爬虫算法都是根据关键词对网页链接进行搜索遍历,直接将结果展示出来,这种方法随着互联网上数...
关键词:网络爬虫 深度宽度优先算法 网页去噪 
网页去噪算法研究与应用被引量:1
《信息记录材料》2018年第11期65-66,共2页孙竹君 
本文首先对网页去噪的研究意义作了概述,简明扼要的阐述了目前较为常用的三种网页去噪技术:基于分块的网页去噪算法、基于统计的网页正文信息去噪算法和基于网页框架和规则的网页去噪算法。在此基础上,进一步明确了网页去噪算法的实用...
关键词:网页去噪 算法 
基于文本频率页面分割算法对论坛正文提取
《中国水运(下半月)》2018年第2期78-79,共2页马凯凯 钱亚赫 阮东跃 
如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页...
关键词:网页链接相似度 文本频率 正则表达式 网页去噪 
基于节点权重的网页去噪方法的研究被引量:2
《计算机技术与发展》2017年第10期83-86,共4页王健 张金 
教育部专项研究项目(2013116)
随着网络信息的不断增多,网页信息不仅成为用户的重要信息来源,同时也是数据挖掘、信息检索等研究的重要数据来源。为提供高质量的文本信息源,页面去噪已经成为网页处理中不可忽视的步骤。随着网页制作技术的不断提升,页面中的视觉元素...
关键词:视觉特性 节点权重 准确率 召回率 
基于文本行特征的网页正文信息抽取方法研究
《软件导刊》2017年第10期15-18,共4页刘志杰 潘洋 
目前互联网上网页来源众多、结构各异,针对网页正文信息抽取精度及通用性问题,提出一种基于文本行特征的网页正文信息抽取方法。首先根据正文特征将明显不是正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据网页正文文...
关键词:网页信息抽取 正文特征 网页去噪 正文抽取 
基于网络爬虫和改进的LCS算法的网站更新监测被引量:2
《计算机应用与软件》2017年第1期222-229,共8页周孝锞 郭克华 
国家自然科学基金项目(61202341);高维信息智能感知与系统教育部重点实验室创新基金项目(JYB201502);科技部国家国际科技合作专项项目(2013DFB10070);湖南省创新平台专项项目(2012GK4106);中南大学创新驱动计划;中南大学升华育英计划
互联网时代,信息爆炸式增长,用户需要方便及时地获取自己所需的信息。传统的搜索引擎和以RSS为代表的订阅具有一些缺陷,难以满足用户高质量需求。在此基础上,利用网络爬虫和文本对比,提出一种新型网站更新监测与订阅的通用方法。该方法...
关键词:网络爬虫 网页去噪 网站订阅 文本对比 更新监测 
基于网页DOM树节点路径相似度的正文抽取被引量:4
《微型机与应用》2016年第19期74-77,共4页潘心宇 陈长福 刘蓉 王美清 
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路...
关键词:DOM树 信息抽取 HTML标签 网页去噪 正文抽取 
基于标题与文本相似度的网页正文提取算法被引量:1
《科技创新与应用》2016年第25期57-58,共2页苏秀芝 
湖南省教育厅科学研究一般项目"校园网搜索引擎中网页正文提取技术的研究"(15c0745)
主题型网页标题是网页正文内容的高度概括,利于标题与正文相似性之间的关系,提出了基于标题与文本相似度的网页正文提取算法。该算法首先把网页解析成DOM树,再生成STU-DOM,接着对STU-DOM进行粗剪枝。对剪枝后的语义树通过Shingle算法对...
关键词:网页去噪 DOM STU Shingle DICE 
一种新闻网页关键信息的提取算法被引量:6
《计算机应用》2016年第8期2082-2086,2120,共6页向菁菁 耿光刚 李晓东 
国家自然科学基金面上项目(61375039);中国科学院网络中心一三五重点项目(CNIC_PY_1402)~~
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文...
关键词:网页信息提取 新闻信息提取 网页去噪 
检索报告 对象比较 聚类工具 使用帮助 返回顶部