一种基于混合词向量的胶囊网络文本分类方法被引量：3

Capsule Network Model Based on Mixed Word Embedding for Text Classification

作　　者：王弘中刘漳辉[1,2,3] 郭昆 WANG Hong-zhong;LIU Zhang-hui;GUO Kun(College of Mathematics and Computer Sciences,Fuzhou University,Fuzhou 350116,China;Fujian Provincial Key Laboratory of Network Computing and Intelligent Information Processing,Fuzhou 350116,China;Key Laboratory of Spatial Data Mining&Information Sharing,Ministry of Education,Fuzhou 350116,China)

机构地区：[1]福州大学数学与计算机科学学院,福州350116 [2]福建省网络计算与智能信息处理重点实验室,福州350116 [3]空间数据挖掘与信息共享教育部重点实验室,福州350116

出　　处：《小型微型计算机系统》2020年第1期218-224,共7页Journal of Chinese Computer Systems

基　　金：国家自然科学基金项目(61300104,61300103,61672158)资助;福建省高校杰出青年科学基金项目(JA12016)资助;福建省高等学校新世纪优秀人才支持计划项目(JA13021)资助;福建省杰出青年科学基金项目(2014J06017,2015J06014)资助;福建省科技创新平台计划项目(2009J1007,2014H2005)资助;福建省自然科学基金项目(2013J01230,2014J01232,2018J01795)资助;福建省高校产学合作项目(2014H6014,2017H6008)资助;海西政务大数据应用协同创新中心项目(KJ2015-05)资助

摘　　要：文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.Text categorization is an important field in which deep learning methods are widely used.In this paper,we design a hybrid model based on recurrent neural network and capsule network to classify texts.The capsule network is used to overcome the shortcomings of convolutional neural networks to space insenivity.Learning the relationship between local text and global text,and the GRU neural network through the maxpool layer to extract the context significant information features,and then combines the advantages of both to improve the text classification effect.At the same time,we proposed a hybrid word embedding method based on missing word completion in the embedding layer.Two strategies are adopted to solve the missing word overmatch problem and reduce the probability of noise data generation in the word embedding,in order to obtain a high quality word embedding with rich semantics and less noise.Experiments conducted on challenging text classification datasets showour model and method can achieve competitive accuracy compared to the state-of-the-art approaches.

关键词：文本分类深度学习胶囊网络混合词向量 Fasttext词向量

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于混合词向量的胶囊网络文本分类方法被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于混合词向量的胶囊网络文本分类方法 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种基于混合词向量的胶囊网络文本分类方法被引量：3