一种改进Best-First算法的主题爬虫搜索算法  

在线阅读下载全文

作  者:丁发梅 

机构地区:[1]重庆大学计算机学院,重庆400044

出  处:《信息通信》2015年第4期64-66,共3页Information & Communications

摘  要:针对传统的基于页面内容相似度的Best-First算法只考虑词频,忽略了特征关键词的位置信息这一不足,以及BestFirst算法存在很大贪婪性,难以在全局范围内得到最优解的局限性,提出以Best-First算法为基础,利用网页HTML标签的修饰功能改进相似度的计算方法,不仅注重搜索与主题相似度很高的链接,同时还考虑某些蕴涵很大远期价值的链接。实验结果表明,改进算法相比传统算法"准确率"和"召回率"都有所提高,它是有效的,并且能在一定程度上获得全局范围的最优解。

关 键 词:Best-First算法 相似度 HTML标签 准确率 召回率 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象