我国省级科技管理部门官网文本数据的主题建模分析研究  被引量:2

Research on Topic Modeling of China’s Provincial Scientific and Technology Management Department Based on Official Website Text Data

在线阅读下载全文

作  者:赵钰潇 化柏林[1] Zhao Yuxiao

机构地区:[1]北京大学信息管理系,北京100871

出  处:《情报理论与实践》2020年第11期116-121,168,共7页Information Studies:Theory & Application

基  金:国家社会科学基金项目“基于多源数据融合的情报用户需求探测研究”的阶段成果之一,项目编号:17BTQ066。

摘  要:科技情报领域的文本呈现出多源异构的特征,且对于不同省份的科技情报数据,往往同时包含多种不同的主题。文章使用各个省、自治区和直辖市的科技厅局公开数据,使用经过Word2vec进行词向量转换后的LDA2vec进行主题建模,并对结果进行分析。首先从科技厅官网上爬取多种数据,并进行整合与清洗。随后对数据进行分词和词性标注以进行进一步的筛选。最后通过LDA2vec方法进行建模,并针对各省主题词进行共性分析和差异性分析。通过分析,各个省份的科技情报主题呈现"大同小异"的特点,既有共同的热点主题,反映出对国家政策的一致性和科技发展的时代特点,也有各自突出的主题,反映出区域的管理侧重和发展特色。The texts in the field of scientific and technical information present multi-source heterogeneous characteristics,and the scientific and technical intelligence data of different provinces often contain many different themes.We use the open data of the science and technology departments of various provinces,municipalities,and autonomous regions.First,we use Word2 vec for word vector conversion,then we use LDA for topic modeling,and finally,we analyze the results.The result shows that most of the scientific and technical information themes are largely identical but with minor differences.Most of the themes have common hot topics,regional focus and characteristics.

关 键 词:科技情报 文本分析 政策文本计算 主题建模 科技管理部门 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象