基于网页分块技术主题爬行器的实现  被引量:4

Realization of Focused Crawler Based on Page Segmentation

在线阅读下载全文

作  者:李晓亚[1] 赫枫龄[1] 左万利[1] 

机构地区:[1]吉林大学计算机科学与技术学院,长春130012

出  处:《吉林大学学报(理学版)》2007年第6期959-965,共7页Journal of Jilin University:Science Edition

基  金:国家自然科学基金(批准号:60373099)

摘  要:针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型系统Crawler1.实验结果表明,本系统性能较好,所爬网页的相关度在55%以上.In the light of result returned currently by general-purpose search engines being excessive, and having no strong similarity with the topic, this paper covers a technique of dividing the web page to chunks to implement a focused crawler. With this method, Crawlerl, a prototype of a focused crawler has been realized. Experimental results indicate that Crawlerl has better performance. The number of topic web pages crawled by Crawlerl attains more than 55%.

关 键 词:主题搜索 主题爬行 相关度分析 网页分块 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象