一种面向互联网文本数据采集框架的设计  被引量:4

在线阅读下载全文

作  者:贺宗平 王正路 

机构地区:[1]南京审计大学信息化办公室,江苏省南京市211815 [2]江苏师范大学信息化建设与管理处,江苏省徐州市221116

出  处:《电子技术与软件工程》2021年第12期187-189,共3页ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING

基  金:江苏高校哲学社会科学研究项目(2020SJA0354);江苏省高等学校教育技术研究会高校教育信息化研究课题(2019JSETKT060);南京审计大学2020年度高教所课题(2020JG051)。

摘  要:本文阐述了互联网文本数据采集能力是目前各种数据集成、应用系统关注的一项核心支撑能力,在各种系统开发中有着重要的作用。各种网站、Web应用系统的文本数据的获取方式存在一定规律性和相似性,网站文本数据的利用,诸如NLP相关研究的价值较高。因此,研究面向互联网文本数据采集的框架具有重要的现实意义,并且能够提供分布式、组件化和配置化的框架能力。

关 键 词:文本数据采集 Scrapy 定时调度 分布式采集 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象