特征串

作品数:33被引量:167H指数:6
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:尹延伟车万翔黄永光胡晓光刘挺更多>>
相关机构:电子科技大学东南大学北京神州绿盟信息安全科技股份有限公司深圳市腾讯计算机系统有限公司更多>>
相关期刊:《中文信息学报》《西南民族大学学报(自然科学版)》《广西大学学报(自然科学版)》《机械工业信息与网络》更多>>
相关基金:国家自然科学基金国家重点基础研究发展计划西北工业大学研究生创业种子基金教育部科学技术研究重点项目更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=微电子学与计算机x
条 记 录,以下是1-1
视图:
排序:
基于特征串的网页文本并行去重算法被引量:2
《微电子学与计算机》2015年第2期69-72,共4页谢瑶兵 
国家自然科学基金项目(71170148);国家科技计划课题(2012BAD35B01)
针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行...
关键词:搜索引擎 特征串 网页去重 Simhash MAP/REDUCE 
检索报告 对象比较 聚类工具 使用帮助 返回顶部