宋晖

作品数:4被引量:38H指数:3
导出分析报告
供职机构:上海交通大学更多>>
发文主题:分布式系统分布式HIDDEN_WEBWEB爬虫计算机网络更多>>
发文领域:自动化与计算机技术文化科学政治法律更多>>
发文期刊:《上海交通大学学报》《计算机工程与应用》《电子学报》更多>>
所获基金:国家自然科学基金上海市基础研究重大(重点)项目上海市科学技术委员会基础研究重点项目更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-4
视图:
排序:
一种高性能分布式Web Crawler的设计与实现被引量:6
《上海交通大学学报》2004年第1期59-61,共3页张岭 叶允明 宋晖 于水 马范援 
上海市科委重点基础研究项目(02DJ14045)
介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,...
关键词:Web信息搜集器 分布式系统 搜索引擎 
分布式信息搜集系统中URL存储检索的设计与分析被引量:2
《上海交通大学学报》2003年第3期454-457,共4页宋晖 郑子颖 张岭 马范援 
上海市科委重点基础科研项目 ( 0 2 DJ14 0 45 )
URL的存储检索效率是构建大规模分布式信息搜集系统的关键 ,其决定了系统搜集 Web文档的效率 .对 URL存储检索性能做定量分析 ,分别得出 URL存储及检索所需要达到的速度指标 .在此基础上 ,提出了两种 URL存储检索原型 ,即集中 URL服务...
关键词:分布式系统 Web信息搜集 URL存储检索 
基于标记树对象抽取技术的Hidden Web获取研究被引量:9
《计算机工程与应用》2002年第23期9-12,24,共5页宋晖 张岭 叶允明 马范援 
国家自然科学基金重大国际合作项目资助(编号:60221120145)
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该...
关键词:标记树 对象抽取 HiddenWeb 互联网 搜索引擎 信息检索 结构化查询 数据库 
分布式Web Crawler的研究:结构、算法和策略被引量:23
《电子学报》2002年第12A期2008-2011,共4页叶允明 于水 马范援 宋晖 张岭 
国家自然科学基金(No.60221120145);上海市科委基础研究重点项目(No.02DJ14045)
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR...
关键词:WEB爬虫 爬行策略 分布式系统 计算机网络 网页 
检索报告 对象比较 聚类工具 使用帮助 返回顶部