史喜斌

作品数:1被引量:4H指数:1
导出分析报告
供职机构:复旦大学计算机科学技术学院上海市数据科学重点实验室更多>>
发文主题:HASH算法SIM共享最近邻短文迭代更多>>
发文领域:自动化与计算机技术文化科学更多>>
发文期刊:《计算机工程》更多>>
所获基金:上海市科学技术委员会资助项目国家科技支撑计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-1
视图:
排序:
基于特征迭代的短文本去重算法被引量:4
《计算机工程》2015年第12期54-57,63,共5页曹海 孙婧 史喜斌 
国家科技支撑计划基金资助项目(2012BAH13F02);上海市科委基金资助项目(12511502403;12511509602)
由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,...
关键词:SimHash算法 共享最近邻 迭代 特征选择 短文本 去重 
检索报告 对象比较 聚类工具 使用帮助 返回顶部