基于特征串的网页文本并行去重算法被引量：2

A Parallel Webpage Duplicate Removal Algorithm Based on Character String

作　　者：谢瑶兵

机构地区：[1]同济大学电子与信息工程学院,上海201804

出　　处：《微电子学与计算机》2015年第2期69-72,共4页Microelectronics & Computer

基　　金：国家自然科学基金项目(71170148);国家科技计划课题(2012BAD35B01)

摘　　要：针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.Against the inefficiency of the huge amount of webpage duplicate removal method,proposes a parallel webpage duplicate removal algorithm based on character string.Using the MapReduce model in Hadoop to extract character string from webpage content,and compute the character string into hash code by Simhash algorithm.Then compare the haming distance between all the hash code to find duplicate webpages.The Algorithm is proved to be more efficient than related algorithms based on experimental results.

关键词：搜索引擎特征串网页去重 Simhash MAP/REDUCE

分类号：TP391.1[自动化与计算机技术—计算机应用技术] TP393.092[自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于特征串的网页文本并行去重算法被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于特征串的网页文本并行去重算法 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于特征串的网页文本并行去重算法被引量：2