融合BERT与多尺度CNN的科技政策内容多标签分类研究  被引量:10

Research on Multi-Label Classification of S&T Policy Content Combining BERT and Multi-Scale CNN

在线阅读下载全文

作  者:马雨萌[1,2] 黄金霞 王昉[1] 芮啸[1] Ma Yumeng;Huang Jinxia;Wang Fang;Rui Xiao(National Science Library,Chinese Academy of Sciences,Beijing 100190;Department of Information Management,Peking University,Beijing 100871)

机构地区:[1]中国科学院文献情报中心,北京100190 [2]北京大学信息管理系,北京100871

出  处:《情报杂志》2022年第11期157-163,共7页Journal of Intelligence

基  金:国家社会科学基金青年项目“科技政策大数据语义分析方法与决策支持研究”(编号:20CTQ030)研究成果之一。

摘  要:[研究目的]为实现科技政策文本内容的自动编码与多主题分类,探索一种融合BERT模型和多尺度CNN模型的多标签分类方法,得到更加丰富的政策语义特征信息。[研究方法]针对科技政策内容句的信息密度大、内涵分布不均衡等特点,通过BERT充分提取政策内容的上下文信息,增强文本的语义特征表示;然后利用多尺度、多通道的CNN-Inception模块提取更多尺度的特征,通过捕获文本的局部特征与组合不同尺度的语句特征,提升模型在多标签分类任务上的性能。[研究结论]对比实验表明,与单一BERT分类模型相比,文中提出的BERT-多尺度CNN模型的召回率与Micro-F1值显著提高,提升了科技政策多标签分类的效果。[Research purpose] In order to realize automatic encoding and multi-topic classification of S&T policy text content, a multi-label classification method combining BERT model and multi-scale CNN model is explored to obtain more abundant semantic features for policy texts. [Research method] Considering the characteristics of the content sentences of S&T policy, such as high information density and unbalanced connotation distribution, BERT model is used to fully extract the context information of the policy content and enhance the semantic features of policy texts. Then, the multi-scale and multi-channel CNN-Inception module is used to extract features of more scales. By capturing local features of texts and combining features of different scales, the performance of the model on multi-label classification tasks is improved. [Research conclusion] Comparative experiments show that compared with the single BERT model, the BERT-CNN model proposed in this paper has much higher recall and micro-F1, which improves the effect of multi-label classification for S&T policy.

关 键 词:科技政策 文本内容分类 多标签分类 BERT模型 多尺度CNN 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象