基于遗传算法的主题爬虫策略  被引量:14

在线阅读下载全文

作  者:刘国靖[1] 康丽[1] 罗长寿[2] 

机构地区:[1]中国农业大学信息与电气工程学院,北京100083 [2]北京市农林科学院农业科技信息研究所,北京100089

出  处:《计算机应用》2007年第B12期172-174,179,共4页journal of Computer Applications

基  金:北京市自然科学基金(4062013)

摘  要:针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作产生大量的URL;通过选择操作选出适应度高的个体作为下一代的种子。实验结果表明,基于遗传算法的主体搜索策略GA与BFS和OPS相比,爬虫策略取网页中的主体相关网页数量多,在合理选择种子集合时,能抓取大量的主体相关度高的网页。

关 键 词:主题爬虫 遗传算法 主题相关度 搜索引擎 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象