网页去重算法

作品数:12被引量:41H指数:5
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:曹玉娟牛振东彭学平刘四维赵堃更多>>
相关机构:北京航天飞行控制中心北京理工大学复旦大学重庆大学更多>>
相关期刊:《燕山大学学报》《微型电脑应用》《科学技术与工程》《广西科学院学报》更多>>
相关基金:国家自然科学基金教育部“新世纪优秀人才支持计划”重庆市自然科学基金国家科技型中小企业技术创新基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于MD5的网页去重算法的设计与研究被引量:1
《实验室研究与探索》2013年第12期105-108,共4页闫俊伢 
山西省科学技术厅软科学研究项目(2013041049-03);山西省教育科学规划课题(GH-11178)
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重...
关键词:结构化网页 MD5 网页去重 去重算法 
一种基于特征向量的改进DSC网页去重算法被引量:1
《科学技术与工程》2013年第8期2250-2253,共4页徐朝辉 赵淑梅 闫付亮 秦杰 
国家自然科学基金(60970022)资助
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clustering)网页去重算法进行改进。为每篇文档生成一个特征向量集合,用该特征向量集合筛选shin-gles;然后...
关键词:搜索引擎 网页去重 特征项 shingle 
基于网页正文逻辑段落和长句提取的网页去重算法被引量:1
《图书情报研究》2012年第2期41-45,共5页张小娣 宋余庆 
网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻...
关键词:网页去重 逻辑段落 长句提取 句子相似度 
基于概念和语义网络的近似网页检测算法被引量:15
《软件学报》2011年第8期1816-1826,共11页曹玉娟 牛振东 赵堃 彭学平 
国家自然科学基金(60803050;60705022);新世纪优秀人才计划(NCET-06-0161)
在搜索引擎的检索结果页面中,用户经常会得到内容近似的网页.为了提高检索整体性能和用户满意度,提出了一种基于概念和语义网络的近似网页检测算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改...
关键词:网页去重算法 小世界网络 近似网页 均方差 
基于元搜索的网页去重算法被引量:2
《燕山大学学报》2011年第2期121-123,161,共4页张玉连 王莎莎 宋桂江 
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,...
关键词:元搜索 网页 去重 分词 
基于Bloom Filter的网页去重算法被引量:6
《微型电脑应用》2011年第3期48-51,6,共5页徐娜 刘四维 汪翔 倪卫明 
现在的互联网中存在网页重复的问题,这些问题将会使数据挖掘,搜索的复杂度加大。现有技术一些不足之处,针对互联网中的重复网页采用基于Bloom Filter的网页去重算法。使用了现有的网页去杂算法,对网页进行预处理,同时利用Bloom Filter...
关键词:BLOOM filter 网页去重 长句 HASH函数 
基于正文结构和长句提取的网页去重算法被引量:13
《计算机应用研究》2010年第7期2489-2491,2497,共4页黄仁 冯胜 杨吉云 刘宇 敖民 
重庆市自然科学基金资助项目(CSTC2007BB3169)
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证...
关键词:网页去重 正文结构树 长句提取 层次指纹 
基于网页正文主题和摘要的网页去重算法被引量:5
《广西科学院学报》2009年第4期251-253,共3页周小平 黄家裕 刘连芳 梁一平 申文明 
国家中小企业创新基金项目(编号:08c26224501313)资助
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分...
关键词:去重 网页 分词 相似度 元搜索 
一个基于特征向量的近似网页去重算法被引量:5
《中国索引》2009年第1期11-14,共4页曹玉娟 牛振东 彭学平 江鹏 
在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near—Duplicate Web Pages)。...
关键词:网页去重算法 特征向量 近似网页 支持向量机 
基于HTML标记和长句提取的网页去重算法被引量:2
《微型电脑应用》2009年第8期30-32,5,共3页刘四维 章轶 夏勇明 钱松荣 
提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长...
关键词:网页去重 页面去杂 长句 红黑树 
检索报告 对象比较 聚类工具 使用帮助 返回顶部