一种面向BBS信息检索的主题网络爬虫算法  被引量:13

Focused Crawling Algorithm for BBS Information Retrieval

在线阅读下载全文

作  者:刘佐达[1] 张久岭[1] 陈茂科[2] 李星[1,2] 

机构地区:[1]清华大学电子工程系,北京100084 [2]清华大学网络中心,北京100084

出  处:《郑州大学学报(理学版)》2010年第2期22-25,共4页Journal of Zhengzhou University:Natural Science Edition

基  金:国家973重大基础研究发展规划项目;编号2007CB310806

摘  要:对BBS的数据结构进行了分析研究,并根据BBS特点设计了一种用于BBS信息检索的主题网络爬虫算法.通过主题网络爬虫能够提高抓取网页的效率,同时又可以保证较高的召回率.实验表明,该算法大幅提高了信息检索的效率,改善了信息检索的效果.The architecture of BBS is analyzed. And a suitable focused crawling algorithm is proposed, which improves the efficiency. A BBS search engine is designed based on the proposed algorithm. Practical experiments have been carried out, which show that the recall ratio as well as the accuracy of searching has been enhanced.

关 键 词:BBS主题网络爬虫 信息检索 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象