BBS舆情系统爬虫模块的研究  被引量:7

Research on crawler module of BBS Public Opinion System

在线阅读下载全文

作  者:张旭[1] 张振江[1] 刘云[1] 

机构地区:[1]北京交通大学通信与信息系统北京市重点实验室,北京100044

出  处:《铁路计算机应用》2010年第12期18-21,共4页Railway Computer Application

基  金:国家自然科学基金资助项目(60972012);北京市自然科学基金资助项目(4102047);科技人员服务企业项目(2009GJA00048);教育部哲学人文社会科学研究重大课题(08WL1101)

摘  要:针对重要的舆论平台BBS论坛,提出利用网络爬虫构建适合抓取论坛数据的爬虫模块。通过分析BBS论坛以及比较不同类别爬虫的特点,介绍BBS爬虫模块的工作流程以及需要选择的策略,讨论URL的处理与重定向问题的解决方法,并提出对不同论坛模块定制不同任务的抓取策略。In this paper,a web crawler module using web crawler was proposed to acquire large collections of web pages in the BBS.Based on the characteristics of BBS and the differences between crawlers,this work described the workflow and work strategy of the crawler module.The process and redirection of the URL was discussed.Furthermore,the idea of using different strategy to collect pages from different part of the BBS was also proposed.

关 键 词:舆情系统 聚焦爬虫 爬虫模块 定制任务 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象