张刚

作品数:11被引量:83H指数:6
导出分析报告
供职机构:中国科学院计算技术研究所更多>>
发文主题:分布式信息检索信息检索聚类WEB信息采集包装器更多>>
发文领域:自动化与计算机技术文化科学更多>>
发文期刊:《模式识别与人工智能》《计算机研究与发展》《软件学报》《计算机工程》更多>>
所获基金:国家重点基础研究发展计划国家高技术研究发展计划国家自然科学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
一种抵抗链接作弊的PageRank改进算法被引量:6
《中文信息学报》2012年第5期101-106,共6页贺志明 王丽宏 张刚 程学旗 
国家自然科学基金资助项目(61170230;60903139;60873243;60933005);国家863计划重点资助项目(2010AA012502;2010AA012503)
大量的基于链接的搜索引擎作弊方法对传统PageRank算法造成了巨大的影响,例如,链接农场、交换链接、黄金链、财富链等使得网页的PageRank值失去了公正性和权威性。该文在分析多种作弊方法对传统PageRank算法所造成的不利影响的基础上,...
关键词:搜索引擎作弊 PAGERANK算法 链接农场 
基于线性回归的相关查询推荐
《高技术通讯》2010年第6期596-601,共6页翟海军 张刚 张瑾 
863计划(2006AA010105;2007AA01Z416)资助项目
在分析搜索引擎查询日志的基础上,提出了一种基于线性回归的相关查询推荐方法。该方法考虑了查询串之间的多种关联关系,包括查询串会话共现、点击页面共享和查询串文本相似性,以避免因直接应用查询串之间的部分关联关系造成易受查询日...
关键词:查询日志 查询会话 相关查询推荐 线性回归 
跨领域倾向性分析相关技术研究被引量:10
《中文信息学报》2010年第1期77-83,共7页吴琼 谭松波 张刚 段洣毅 程学旗 
国家自然科学基金资助项目(60803085;60933005);国家863高技术研究发展计划基金资助项目(2006AA010105-02;2007AA01Z416;2007AA01Z441);国家重点基础研究发展计划(973)资助项目(2007CB311100)
该文主要研究文本的倾向性分析问题,即判断文本中的论断是正面还是负面的。已有的研究表明,监督分类方法对倾向性分析很有效。但是,多数情况下,已有的标注数据与待判断倾向性的数据不属于同一个领域,此时监督分类算法的性能明显下降。...
关键词:计算机应用 中文信息处理 跨领域 倾向性分析 图排序 EM算法 
一种层次化的检索结果聚类方法被引量:15
《计算机研究与发展》2008年第3期542-547,共6页张刚 刘悦 郭嘉丰 程学旗 
国家"九七三"重点基础研究发展规划基金项目(2004CB318109;2007CB311100)
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别...
关键词:信息检索 检索结果聚类 层次化聚类 文本聚类 聚类 
一种全自动生成网页信息抽取Wrapper的方法被引量:21
《中文信息学报》2008年第1期22-29,共8页梅雪 程学旗 郭岩 张刚 丁国栋 
国家高技术研究发展计划(863)资助项目(2005AA142110)
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页...
关键词:计算机应用 中文信息处理 网页信息抽取 网页结构分离 包装器 
分布式信息检索中文档集合划分问题的评价被引量:3
《软件学报》2008年第1期136-143,共8页张刚 谭建龙 
Supported by the National Basic Research Program of China under Grant No.2004CB318109 (国家重点基础研究发展计划(973))
分布式信息检索的文档集合划分方案的评价是一个困难的问题,目前还没有良好的评价标准.从文档集合划分问题本身出发,给出了两个划分模型来刻画文档集合划分问题,从而使这两个模型可以作为文档集合划分的有效评价指标.在此基础上,提出了...
关键词:分布式信息检索 文档集合划分 HUFFMAN编码 
基于链接划分的分布式WEB信息检索被引量:1
《模式识别与人工智能》2007年第4期519-524,共6页张刚 王斌 吴丽辉 
国家973计划资助项目(No.2004CB318109)
分布式信息检索是面向海量 WEB 信息检索的一种有效手段.本文采用一种基于链接的聚类方法(LIB-CA)来对网页数据进行划分,并采用 BloomFilter 优化 LIBCA 算法的计算效率,在检索过程中采用 CORI 集合选择算法和 OKAPI BM25检索算法.基于...
关键词:网页链接 聚类 分布式信息检索 
分布式信息检索的集合选择研究被引量:3
《计算机工程》2007年第2期158-159,210,共3页张刚 郭岩 张凯 
国家"973"计划基金资助项目"大规模文本内容计算"(2004CB318109)
集合选择是分布式信息检索中的重要问题,将集合选择问题转化为文档检索问题,尝试了多种文档检索方法来解决集合选择问题,并将各种方法的文档检索结果与集合选择结果进行了对比,通过与经典的集合选择算法CORI相比较,实验发现语言模型的...
关键词:分布式信息检索 集合选择 语言模型 
基于主题的分布式信息检索技术研究被引量:1
《计算机工程》2006年第12期80-81,84,共3页张刚 周昭涛 王斌 
国家"973"计划基金资助项目"大规模文本内容计算"(2004CB318109)
介绍了一种基于主题的分布式信息检索方法,并对算法的有效性进行了深入的分析。该文通过文本聚类方法,把文档按照主题的方式来划分,经过实验发现查询答案明显地汇聚在少数的文档集合中。由此表明,基于主题的分布式信息检索方法比传统分...
关键词:分布式信息检索 文本聚类 K平均聚类 
Web信息采集中的哈希函数比较被引量:8
《小型微型计算机系统》2006年第4期673-676,共4页吴丽辉 白硕 张刚 张凯 
国家"九七三"项目基金(2004CB3181096)资助
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突...
关键词:WEB信息采集 哈希函数 URL 
检索报告 对象比较 聚类工具 使用帮助 返回顶部