基于特征串的网页文本并行去重算法  被引量:2

A Parallel Webpage Duplicate Removal Algorithm Based on Character String

在线阅读下载全文

作  者:谢瑶兵 

机构地区:[1]同济大学电子与信息工程学院,上海201804

出  处:《微电子学与计算机》2015年第2期69-72,共4页Microelectronics & Computer

基  金:国家自然科学基金项目(71170148);国家科技计划课题(2012BAD35B01)

摘  要:针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.Against the inefficiency of the huge amount of webpage duplicate removal method,proposes a parallel webpage duplicate removal algorithm based on character string.Using the MapReduce model in Hadoop to extract character string from webpage content,and compute the character string into hash code by Simhash algorithm.Then compare the haming distance between all the hash code to find duplicate webpages.The Algorithm is proved to be more efficient than related algorithms based on experimental results.

关 键 词:搜索引擎 特征串 网页去重 Simhash MAP/REDUCE 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP393.092[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象