网页消重

作品数:15被引量:17H指数:3
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:李先国李加才让谢蕙秦杰刘书一更多>>
相关机构:北京京东世纪贸易有限公司北京京东尚科信息技术有限公司北京交通大学武汉理工大学更多>>
相关期刊:《计算机工程》《计算机工程与设计》《现代教育技术》《科学技术与工程》更多>>
相关基金:国家自然科学基金河南省教育厅基金山东省高等学校科技计划项目山东省科技攻关计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于文档摘要的藏文网页消重研究
《电子技术与软件工程》2018年第10期148-148,213,共2页李加才让 安见才让 
网页消重一方面能解决互联网上存在的信息冗余问题,另一方面能减轻用户的浏览负担,对提高搜索引擎工作效率起着至关重要的作用。藏文网页亦不例外。此文以文档摘要为特征,计算文档摘要的信息指纹。信息指纹转换成固定位数的二进制数值...
关键词:自动摘要 藏文网页 信息指纹 相似度 
基于字集特征向量的网页消重改进算法
《计算机工程与应用》2017年第2期53-57,共5页李洪奇 冯海波 张伟 杨中国 宋伟城 
国家"十五"科技攻关项目(No.2001BA605A09)
基于MD5算法计算数字指纹的网页消重算法简单而高效,在网页消重领域应用比较广泛。但是由于MD5算法是一种严格的信息加密算法,在文章内容变动很少的情况下得出的指纹结果完全不同,导致基于这种算法的网页消重技术召回率不是很高。提出...
关键词:字集向量 机器码向量 网页消重 数字指纹 MD5 
布隆过滤器在网页消重中的应用被引量:2
《软件》2015年第12期166-170,共5页潘昊 鄂海红 宋美娜 
随着互联网的发展,网络信息呈爆炸性的增长。大量的信息一方面给人们带来了更多的消息来源,而另一方面也给人们搜索有用的信息带来巨大的负担。根据2015年11月的最新数据,互联网上活动网站的数量达到了902,997,800个。因此如何更有效的...
关键词:算法理论 多维布隆过滤器 布隆过滤器 网页消重 
一种中文网页消重算法的设计与实现
《电子技术(上海)》2013年第9期29-31,共3页杨俊峰 
本文给出了一种中文网页消重算法,具体研究了该算法中用到的网页主体指纹获取和重复性判断的方法,并采用二叉排序树存储结构实现中文网页消重算法。实验证明该算法能够有效地提高检索的质量,返回给用户更为精确的结果。
关键词:网页消重 网页主体 网页主体指纹 二叉排序树 
一种两阶段的多媒体教育资源网页消重方法
《现代教育技术》2012年第9期93-96,共4页杨晓娟 廖晨辉 
山东省高等学校科技计划项目"面向中国文化贸易领域基于语义本体的垂直搜索系统关键技术研究课题"(课题编号:J12LN20);山东省科技攻关项目"基于本体的Flash内容管理和搜索引擎系统的研究与开发"(课题编号:2008GG30001007)资助
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的...
关键词:开放教育资源 基于签名的消重方法 基于关键词的消重方法 Shingling算法 
基于特征词群的新闻类重复网页和近似网页识别算法
《成都信息工程学院学报》2012年第4期374-379,共6页程芃森 安俊秀 
四川省科技厅软科学计划资助项目(2011ZR0058);成都信息工程学院自然科学与技术发展基金项目(CSRF201002)对本文的资助
新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取...
关键词:计算机应用 网页消重 词性分类 特征词群 
基于净化网页的改进消重算法
《计算机系统应用》2011年第12期197-199,共3页虞曼 熊前兴 
互联网的迅猛发展导致网络中的网页呈指数级别爆炸式增长。为解决在海量网页中寻找信息的问题,搜索引擎成为了人们使用互联网的重要工具。提出了一种基于净化网页的改进消重算法,并将它与传统的消重算法进行了比较。该算法结合关键字搜...
关键词:网页消重 净化网页 关键字 签名 
基于文本相似度的网页消重策略被引量:6
《计算机应用与软件》2011年第11期228-229,278,共3页刘书一 
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基...
关键词:网页消重 网页特征码 文本相似度 编辑距离 
分布式网络机器人的设计与实现
《计算机工程与设计》2010年第3期591-594,共4页李广丽 张红斌 刘觉夫 
江西省教育厅基金项目(赣教技字[2006]177号);华东交通大学校立基金项目(08XX05)
为了改善网络机器人的爬行性能以及提高系统体系结构的通用性,提出了基于Web Service的新型分布式网络机器人体系架构。分析了分布式网络机器人软件中的关键数据操作,并将这些功能封装在Web Service中,基于Web向网络机器人客户结点提供...
关键词:分布式网络机器人 WEB服务 体系架构 均衡负载 网页消重 
基于网页内容的网页消重高效检测算法研究被引量:1
《佳木斯大学学报(自然科学版)》2010年第1期22-24,共3页王祖析 
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实...
关键词:搜索引擎 网页消重 MD5指纹 算法分析 
检索报告 对象比较 聚类工具 使用帮助 返回顶部