融合主题信息的卷积神经网络文本分类方法研究被引量：20

Text Classification Method Based on Convolutional Neural Network Using Topic Information

作　　者：杨锐[1,2] 陈伟何涛[4] 张敏李蕊伶岳芳[1,2] Yang Rui;Chen Wei;He Tao;Zhang Min;Li Ruiling;Yue Fang(Wuhan Library,Chinese Academy of Sciences,Wuhan 430074,China;Key Laboratory of Science and Technology of Hubei Province,Wuhan 430074,China;School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100190,China;Department of Information Security,Naval University of Engineering,Wuhan 430033,China)

机构地区：[1]中国科学院武汉文献情报中心,湖北武汉430074 [2]科技大数据湖北省重点实验室,湖北武汉430074 [3]中国科学院大学经济与管理学院,北京100190 [4]海军工程大学信息安全系,湖北武汉430033

出　　处：《现代情报》2020年第4期42-49,共8页Journal of Modern Information

基　　金：中国科学院文献情报能力建设专项“文献情报’数据湖’及开放式大数据框架建设”(项目编号:院1852);中国科学院战略研究和决策支持系统建设专项(项目编号:GHJ-ZLZX-2019-35);中国科学院青年创新促进会项目(项目编号:2017221);中国科学院变革性洁净能源关键技术与示范战略性先导科技专项战略研究课题(项目编号:XDA21010100);中国科学院文献情报能力建设专项经费(项目编号:Y9290001)

摘　　要：[目的/意义]针对能源政策语义信息丰富的特点,研究不同环境下卷积神经网络模型对能源政策文本特征分类识别的效果并提出优化方法,辅助能源政策信息资源进行自动分类操作,方便研究人员更好地进行能源政策解读。[方法/过程]在不同环境下利用字符级和词级卷积神经网络模型对能源政策自动文本分类识别效果进行实验,从标题、内容、核心主题句等角度全面对比分析,利用Doc2Vec抽取不同比例核心主题句,将这些主题信息融入卷积神经网络模型中以对实验进行优化。[结果/结论]随着核心主题句抽取率的提高F1均值呈正态分布,当抽取率为70%时达到平衡,神经网络模型评估F1均值为83.45%,较实验中的其它方法均有所提高,通过Doc2Vec提取主题信息,并将其融入卷积神经网络的方法有效提升了卷积神经网络模型自动文本分类的效果。[Purpose/Significance]In view of the rich semantic information of energy policy,this paper studies the effect of convolutional neural network model on energy policy text feature classification and recognition under different environments,and proposes optimization methods to assist the automatic classification operation of energy policy information resources,so as to facilitate researchers to better interpret energy policy.[Method/Process]This paper used character-level and word-level convolution neural network model to test the effect of automatic classification and recognition of energy policy texts in different environments.It made a comprehensive comparative analysis from the perspective of title,content and core topic sentences,and extracted different proportion of core topic sentences by Doc2Vec for optimization experiments.[Result/Conclusion]With the increase of the extraction rate of core topic sentences,the average value of F1 was normal distribution.When the extraction rate is 70%,the balance was reached.The average value of F1 evaluated by the neural network model was 83.45%.Compared with other methods in the experiment,the using of topic information which was extracted with Doc2Vec effectively improved the automatic classification effect of the convolutional neural network model.

关键词：能源政策卷积神经网络文本分类词向量文本向量

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

融合主题信息的卷积神经网络文本分类方法研究被引量：20

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

融合主题信息的卷积神经网络文本分类方法研究 被引量：20

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

融合主题信息的卷积神经网络文本分类方法研究被引量：20