检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王弘中 刘漳辉[1,2,3] 郭昆 WANG Hong-zhong;LIU Zhang-hui;GUO Kun(College of Mathematics and Computer Sciences,Fuzhou University,Fuzhou 350116,China;Fujian Provincial Key Laboratory of Network Computing and Intelligent Information Processing,Fuzhou 350116,China;Key Laboratory of Spatial Data Mining&Information Sharing,Ministry of Education,Fuzhou 350116,China)
机构地区:[1]福州大学数学与计算机科学学院,福州350116 [2]福建省网络计算与智能信息处理重点实验室,福州350116 [3]空间数据挖掘与信息共享教育部重点实验室,福州350116
出 处:《小型微型计算机系统》2020年第1期218-224,共7页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(61300104,61300103,61672158)资助;福建省高校杰出青年科学基金项目(JA12016)资助;福建省高等学校新世纪优秀人才支持计划项目(JA13021)资助;福建省杰出青年科学基金项目(2014J06017,2015J06014)资助;福建省科技创新平台计划项目(2009J1007,2014H2005)资助;福建省自然科学基金项目(2013J01230,2014J01232,2018J01795)资助;福建省高校产学合作项目(2014H6014,2017H6008)资助;海西政务大数据应用协同创新中心项目(KJ2015-05)资助
摘 要:文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.Text categorization is an important field in which deep learning methods are widely used.In this paper,we design a hybrid model based on recurrent neural network and capsule network to classify texts.The capsule network is used to overcome the shortcomings of convolutional neural networks to space insenivity.Learning the relationship between local text and global text,and the GRU neural network through the maxpool layer to extract the context significant information features,and then combines the advantages of both to improve the text classification effect.At the same time,we proposed a hybrid word embedding method based on missing word completion in the embedding layer.Two strategies are adopted to solve the missing word overmatch problem and reduce the probability of noise data generation in the word embedding,in order to obtain a high quality word embedding with rich semantics and less noise.Experiments conducted on challenging text classification datasets showour model and method can achieve competitive accuracy compared to the state-of-the-art approaches.
关 键 词:文本分类 深度学习 胶囊网络 混合词向量 Fasttext词向量
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229