基于分层结构保留的增量网络爬虫算法  被引量:3

Improved crawler algorithm based on hierarchical structure preservation

在线阅读下载全文

作  者:胡廉民[1,2] 张泽斌 徐威迪 黄翰[4] 李英[5] 

机构地区:[1]乐山师范学院物理与电子工程学院 [2]华南理工大学计算机科学与工程学院广州510006 [3]Oracle甲骨文研究开发中心(深圳)有限公司 [4]华南理工大学软件学院 [5]乐山师范学院数学与信息科学学院

出  处:《计算机应用研究》2013年第8期2381-2385,共5页Application Research of Computers

基  金:国家自然科学基金资助项目(61003066,61170193);广东省自然科学基金资助项目(S2012010010613);国家教育部博士点基金资助项目(20090172120035);中央高校基本科研业务费重点项目(2012ZM0083)

摘  要:为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下,实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。For improving the validity of Web pages grabbed by Web crawler algorithm, this paper proposed an improved Web crawler algorithm to obtain more useful information by designing a hierarchical structure preservation and URL filter mode. The proposed algorithm saved the website URLs hierarchically to store websites overall topology, which would turn the crisscross complex Web URL system from a graphic structure into a tree structure. The actual website BBS experiments show that the al- gorithm is much better than the basic Web crawler algorithm in crawling speed and download information such as the usefulness of baking. Furthermore, it provides a performing structure mode for the increment crawler algorithm. As a result, the hierar- chical structure strategy and URL filter can improve the Web-grabbing function of Web crawler algorithm with a short amount of computational time.

关 键 词:网络爬虫 URL过滤器 层次结构保存 频率模型 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象