国家自然科学基金(61072152)

作品数:1被引量:4H指数:1
导出分析报告
相关作者:黄宜华韦永壮袁春风更多>>
相关机构:南京大学更多>>
相关期刊:《计算机研究与发展》更多>>
相关主题:CCD剪切句号重复网页中文更多>>
相关领域:自动化与计算机技术更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-1
视图:
排序:
CCDet:一种高效的大规模中文重复网页检测方法被引量:4
《计算机研究与发展》2013年第S2期140-152,共13页韦永壮 袁春风 黄宜华 
国家自然科学基金项目(61072152);江苏省工业支撑计划基金项目(BE2011172)
重复文档检测是信息检索领域中一个非常重要的问题.由于网页结构和内容的复杂性,现有方法在网页查重上没有达到很好的准确性,且只有少量工作用于处理包含关系网页检测问题;同时,由于网页数量的巨大,重复网页检测处理时需要考虑大规模数...
关键词:CCDet算法 重复网页检测 中文句号特征 索引剪切 
检索报告 对象比较 聚类工具 使用帮助 返回顶部