检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京审计大学信息化办公室,江苏省南京市211815 [2]江苏师范大学信息化建设与管理处,江苏省徐州市221116
出 处:《电子技术与软件工程》2021年第12期187-189,共3页ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
基 金:江苏高校哲学社会科学研究项目(2020SJA0354);江苏省高等学校教育技术研究会高校教育信息化研究课题(2019JSETKT060);南京审计大学2020年度高教所课题(2020JG051)。
摘 要:本文阐述了互联网文本数据采集能力是目前各种数据集成、应用系统关注的一项核心支撑能力,在各种系统开发中有着重要的作用。各种网站、Web应用系统的文本数据的获取方式存在一定规律性和相似性,网站文本数据的利用,诸如NLP相关研究的价值较高。因此,研究面向互联网文本数据采集的框架具有重要的现实意义,并且能够提供分布式、组件化和配置化的框架能力。
关 键 词:文本数据采集 Scrapy 定时调度 分布式采集
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.116.112.164