一种断点续传的多线程新闻组抓取方法及存储结构  被引量:2

Usenet-snatcher Based on Multithread and Mass-data Storage Supporting Breakpoint Transmission

在线阅读下载全文

作  者:杨代庆[1,2,3] 王志苹[1] 王星[1] 刘敏健[1] 常迎春[1] 

机构地区:[1]中国科学技术信息研究所,北京100038 [2]中国科学院国家科学图书馆,北京100190 [3]中国科学院研究生院,北京100049

出  处:《现代图书情报技术》2011年第2期29-33,共5页New Technology of Library and Information Service

基  金:国家十一五科技支撑计划子课题"网络科技信息监测与评价"(项目编号:2006BAH03B05)的研究成果之一

摘  要:针对新闻组的海量性及相关编码特点设计新闻帖抓取流程,采用多线程方式加快新闻帖的抓取及解析速度,同时设计一种便于海量数据断点续传的数据存储结构,通过实验采集验证该方法能有效达到信息检测的数据采集要求,抓取及解析新闻帖的速度比普通单线程抓取解析方式有显著提高。A usenet - snatcher is designed based on multithread to improve the download - speed and MIME - parsing - speed and a storage schema supporting breakpoint transmission is also proposed. Experiment shows that the usenet - snatcher can gather articles effectively and gathering - speed under muhithread is faster than single thread.

关 键 词:新闻组 多线程 海量数据 网络新闻传输协议 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象