检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谢瑶兵
机构地区:[1]同济大学电子与信息工程学院,上海201804
出 处:《微电子学与计算机》2015年第2期69-72,共4页Microelectronics & Computer
基 金:国家自然科学基金项目(71170148);国家科技计划课题(2012BAD35B01)
摘 要:针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.Against the inefficiency of the huge amount of webpage duplicate removal method,proposes a parallel webpage duplicate removal algorithm based on character string.Using the MapReduce model in Hadoop to extract character string from webpage content,and compute the character string into hash code by Simhash algorithm.Then compare the haming distance between all the hash code to find duplicate webpages.The Algorithm is proved to be more efficient than related algorithms based on experimental results.
关 键 词:搜索引擎 特征串 网页去重 Simhash MAP/REDUCE
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP393.092[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7