面向垂直搜索引擎的Web站点划分方案  被引量:4

Web Site Partition Scheme for Vertical Search Engine

在线阅读下载全文

作  者:李学凯[1] 许笑[1] 孙春奇[1] 张伟哲[1] 李斌[1] 

机构地区:[1]哈尔滨工业大学计算机学院,哈尔滨150001

出  处:《计算机工程》2010年第8期275-277,共3页Computer Engineering

基  金:国家自然科学基金资助项目(60703014);国家"973"计划基金资助项目(G2005CB321806);高等学校博士学科点专项科研基金资助项目(20070213044);哈尔滨工业大学优秀青年教师培养计划基金资助项目(HITQNJS2007034)

摘  要:分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。将网站划分算法应用于样本数据集,验证其有效性。In allusion to the problem of traditional search engines' task allocating methods,a new fine-grained method called Web site partition is presented,which is as an effective optimization of the traditional method adopted by vertical search engines.This method divides large-scale Web sites into a number of smaller subsets,so that several crawlers can parallel crawl each subset in order to accelerate the overall downloading progress.The proposed algorithm is proved to be effective against the sample data sets.

关 键 词:垂直搜索引擎 任务分配 网站划分 爬虫 

分 类 号:N945[自然科学总论—系统科学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象