重复网页

作品数:8被引量:26H指数:4
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:韦永壮程芃森安俊秀黄宜华袁春风更多>>
相关机构:南京大学成都信息工程大学北京大学华南师范大学更多>>
相关期刊:《计算机研究与发展》《计算机应用》《软件导刊》《科技信息》更多>>
相关基金:教育部科学技术研究重点项目国家自然科学基金浙江省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-8
视图:
排序:
基于SVM的重复网页检测算法
《软件导刊》2015年第3期57-58,共2页冯金波 
互联网中存在大量重复网页,降低了用户体验并使搜索变得复杂化。为解决这些问题,把相似网页的比较转换成二元分类问题,使用监督学习算法构造判别函数,避免人为设定相似度阈值所带来的误差;通过SVM训练出的判别函数检测网页对,以此检测...
关键词:SVM 重复网页 支持向量机 编辑距离 最长公共子串 
CCDet:一种高效的大规模中文重复网页检测方法被引量:4
《计算机研究与发展》2013年第S2期140-152,共13页韦永壮 袁春风 黄宜华 
国家自然科学基金项目(61072152);江苏省工业支撑计划基金项目(BE2011172)
重复文档检测是信息检索领域中一个非常重要的问题.由于网页结构和内容的复杂性,现有方法在网页查重上没有达到很好的准确性,且只有少量工作用于处理包含关系网页检测问题;同时,由于网页数量的巨大,重复网页检测处理时需要考虑大规模数...
关键词:CCDet算法 重复网页检测 中文句号特征 索引剪切 
基于内容特征码的重复网页检测方法探析
《科技信息》2012年第26期162-163,共2页符于江 
重复网页检测的关键问题是如何有效地提取相似网页内容的特征并对特征进行相似度比较。本文概述了重复网页的定义、检测流程,对重复网页的特征提取方法和比较算法进行了分析,并对目前常用的基于特征的检测算法进行了比较,总结了当前常...
关键词:重复网页 相似网页 特征码 算法 
基于特征词群的新闻类重复网页和近似网页识别算法
《成都信息工程学院学报》2012年第4期374-379,共6页程芃森 安俊秀 
四川省科技厅软科学计划资助项目(2011ZR0058);成都信息工程学院自然科学与技术发展基金项目(CSRF201002)对本文的资助
新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取...
关键词:计算机应用 网页消重 词性分类 特征词群 
国内网页去重技术研究:现状与总结被引量:9
《图书情报工作》2011年第7期118-121,93,共5页李志义 梁士金 
针对国内2000-2010年之间有关网页去重技术的研究成果进行计量分析,重点从网页结构、网页特征、网页内容、同源网页、元搜索等方面总结和分析去重技术的基本研究现状,并兼论基于布尔逻辑模型与傅立叶系数的网页去重以及网页去重技术在...
关键词:重复网页 同源网页 网页去重 
基于网页聚类的搜索结果优化算法研究被引量:3
《计算机应用》2010年第A01期51-53,共3页沈盈洪 丰翔龙 黄荣游 
浙江省自然科学基金资助项目(X105739)
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果...
关键词:网页相似度 聚类 搜索结果 DBSCAN算法 重复网页 
基于后缀树的中文新闻重复网页识别算法被引量:6
《现代图书情报技术》2008年第3期55-61,共7页钱爱兵 江岚 
针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化。实验结果表明,...
关键词:后缀树 重复网页 Ukkonen算法 匹配统计算法 
MD5算法在消除重复网页算法中的应用被引量:5
《电脑知识与技术》2005年第10期15-16,共2页彭曙蓉 章兢 杨文忠 
教育部重点项目(教技司2001224)
Internet用户通过常用搜索引擎获取Web信息时,往往得到了大量的重复网页信息,从而导致搜索效率不高。本文利用MD5算法成熟及可移植性好的特点,提出了一种基于MD5的消除重复网页的算法,实验证明该算法能有效的去除重复网页,时间和空间的...
关键词:搜索引擎 重复网页 MD5 
检索报告 对象比较 聚类工具 使用帮助 返回顶部