网页去重

作品数:56被引量:101H指数:7
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:樊勇郑家恒曹玉娟张永奎罗永莲更多>>
相关机构:山西大学哈尔滨工业大学北京理工大学广西大学更多>>
相关期刊:《软件导刊》《数字技术与应用》《电气工程与自动化(中英文版)》《微型电脑应用》更多>>
相关基金:国家自然科学基金山西省自然科学基金山西省回国留学人员科研经费资助项目国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
网络内容的去重算法与语义量化研究
《现代计算机》2024年第17期1-6,12,共7页谢志豪 杨贤 
广东省哲学社会科学“十三五”规划一般项目(GD20CTS07)。
为降低网站对用户的影响,同时提升去除重复的能力,设计了一种能够应用在大型网站的去除重复的创新方案。首先,利用文本预处理技术提取网页正文内容关键词和长句特征码;其次,使用Simhash算法把特征码映射成指纹,并构建关键词指向文档的...
关键词:网页去重 语义量化 特征指纹 长句 关键词 
基于BM25-IWF特征提取的改进Simhash算法被引量:1
《移动信息》2021年第5期7-10,共4页黄迎春 王港 
辽宁省自然科学基金项目(项目编号:20180550216);沈阳理工大学大学生创新训练计划项目(项目编号:S202010144005)。
传统的Simhash 网页去重是基于词频文档逆频率(TF-IDF)提取特征词的算法,存在会将部分停用词权重放大、文章长度影响特征词的权重以及同类语料库中特征词的权重被稀释的问题。基于此,文章提出了一种基于惩罚因子词语逆频率(BM25-IWF)的S...
关键词:网页去重 Simhash算法 BM25-IWF 特征提取 
基于布隆过滤算法的五台山数据分析应用研究被引量:1
《忻州师范学院学报》2020年第5期1-4,共4页赵青杉 段宗娟 胡玉兰 
山西省大学生科技创新项目(2019511)。
随着互联网的发展,网络信息呈爆炸性增长,其中有很多有用的信息,但是也充斥着许多重复的信息。针对这一问题,提出了一种基于布隆过滤器算法的数据挖掘与分析方法。首先在分析五台山url特征基础上采用布隆过滤器算法实现对五台山重复url...
关键词:数据挖掘 布隆算法 五台山 网页去重 
基于Counting Bloom Filter的海量网页快速去重研究被引量:1
《电力大数据》2018年第12期37-42,共6页吴家奇 刘年国 李雪 谢翔 王涛 
网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,可以有效地减少检索和存储的压力。其中基于同源网页的URL去重方法、基于网页结构和特征的抽取指纹方法和基于网页内容的聚类方法的研...
关键词:网页去重 MD5指纹库 COUNTING BLOOM filter IMP-CM Filter算法 
贵州省涉农网络信息抽取系统的研究与应用被引量:1
《中国科技成果》2017年第13期50-54,共5页罗曦 张淼 杨晓虎 
贵州农经网,作为贵州省委、省政府为促进农业增效,促进农民增收而建立的农村综合经济信息网,始终为广大“三农”提供政策、科技、市场、文化等信息,通过信息服务加快程业科技推广、加速涉农产品流通,有效促进农村经济发展和农村社...
关键词:网页分析 数据挖掘 信息检索 文本抓取 网页去重 WEKA 
Hadoop下改进布隆过滤器算法的网页去重被引量:1
《计算机工程与科学》2017年第2期285-290,共6页黄伟建 杨海龙 
河北省自然科学基金(F2015402077);河北省重点基础研究项目(14964206D)
针对服务器中存储的大量重复和相似数据造成的空间浪费问题,改进的布隆过滤器(Bloom Filter)算法通过增加位数组并根据位数组的重复命中次数所计算的权重来动态优化重复数据的副本数,然后在Hadoop分布式集群下对改进的算法进行并行实现...
关键词:HADOOP 布隆过滤器 副本数 MAP REDUCE 
基于Counting Bloom Filter的海量网页快速去重研究
《安徽电气工程职业技术学院学报》2016年第3期92-97,共6页刘年国 王芬 吴家奇 李雪 陶涛 
网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发展,但是针对海量网页去重问题,目前还没有很好的解决方案,文章在基于MD5指纹库网...
关键词:网页去重 MD5指纹库 COUNTING BLOOM Filter IMP-CBFilter算法 
网页去重中的关键词和特征串提取被引量:1
《电子技术与软件工程》2016年第17期28-29,共2页符于江 
本文首先描述基于关键字和特征码的网页去重算法思想,然后对算法中的关键词提取问题,特征串提取问题和特征串相似度计算问题进行了分析和研究。
关键词:特征码 算法 
近似镜像网页去重方法研究
《电气工程与自动化(中英文版)》2016年第2期56-61,共6页陈剑 史有群 陶然 
受上海市“科技创新行动计划”高新技术领域项目支持资助(项目编号:16511100903).
因特网上大量近似镜像网页的存在已经成为人们快速获取有效讯息的最大阻碍.为了解决网络上存在大量近似镜像网页的问题,研究人员提出了多种网页去重算法,但这些算法在网页噪声抵抗方面的表现并不令人满意.针对此问题,本文提出一种基于Si...
关键词:近似镜像网页 Simhash 长句提取 噪声规避 
一种面向大规模网页去重的三层分布式架构被引量:2
《计算机与数字工程》2015年第10期1751-1755,共5页贲兴龙 贾大文 袁林 
去除重复网页是网页爬取过程中必要的步骤,目前人们对网页去重方法的研究集中在基于网页内容相似的去重算法本身的准确性和算法复杂度上。论文提出一种面向大规模网页去重的三层分布式架构,其利用本地缓存、分布式缓存及分布式索引高效...
关键词:网页去重 网络爬虫 分布式架构 
检索报告 对象比较 聚类工具 使用帮助 返回顶部