基于Scrapy与规则的公共文化机构官网信息采集与内容抽取  

Information Collection and Extraction of Official Website from Public Cultural Institutions Based on Scrapy and Rules

在线阅读下载全文

作  者:申泳国 化柏林[1,2] Shen Yongguo;Hua Bolin(Department of Information Management,Peking University,Beijing 100871,China;Key Laboratory of Culture and Tourism of Ministry of Public Cultural Services Big Data Application,Beijing 100871,China)

机构地区:[1]北京大学信息管理系,北京100871 [2]公共文化服务大数据应用文化和旅游部重点实验室,北京100871

出  处:《图书情报研究》2021年第2期21-27,37,共8页Library and Information Studies

基  金:文化和旅游部重点实验室项目“公共文化智慧化模式聚类与动态展示系统研究”(项目编号:2020008)的阶段研究成果之一。

摘  要:[目的/意义]公共文化服务机构在服务运营的过程中产生大量数据,既有宏观的年度统计数据,也有微观的活动通知、参加人数等细节数据,如何快速全面地获取这些数据并进行有效集成,是公共文化大数据分析与挖掘的一个前提。[方法/过程]在分析公共文化服务数据分布与特点的基础上,研究信息采集与数据抽取技术。[结果/结论]通过网络爬虫技术获取官网上的数据,利用正则表达式从半结构化及非结构化的文本中抽取目标数据。[Purpose/significance]Public cultural service institutions produce a large amount of data in the process of service,including macro annual statistical data,detailed data such as activity notice,number of participants.Quick and comprehensive collection and integration of these data are prerequisite for public culture big data analysis and mining.[Method/process]This paper analyzes the distribution and characteristics of public cultural service data and researches information collection and data extraction techniques.[Result/conclusion]It obtains the data from the official websites through web crawler technology,and extracts the target data from semistructured and unstructured text by regular expression.

关 键 词:公共文化 信息采集 信息抽取 图书馆 文化馆 Scrapy 

分 类 号:G249.2[文化科学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象