基于融合特征的长文本分类方法  被引量:5

Research on long text classification method based on fusion features

在线阅读下载全文

作  者:鲍闯 乔杰[1] 李海斌 冯姣 李鹏[1] BAO Chuang;QIAO Jie;LI Haibin;FENG Jiao;LI Peng(School of Electronic&Information Engineering,Nanjing University of Information Science and Technology,Nanjing 210044,China;School of Information Engineering,Zhejiang Ocean University,Zhoushan 316022,China)

机构地区:[1]南京信息工程大学电子与信息工程学院,南京210044 [2]浙江海洋大学信息工程学院,浙江舟山316022

出  处:《重庆理工大学学报(自然科学)》2022年第9期128-136,共9页Journal of Chongqing University of Technology:Natural Science

基  金:国家自然科学基金项目(61501244,61501245);江苏省自然科学基金项目(BK20150932)。

摘  要:为解决当前长文本分类算法仅采用全局目标向量作为文本句向量表示,忽略文本明显的语义特征问题,提出一种基于融合特征的长文本分类模型。该模型采用BERT训练词向量表示文本,按照长文本的分层结构进行文本划分,在句向量生成中融合卷积最大池化的特征向量和BERT句向量作为局部文本的最终句向量。最后,通过双向长短期记忆网络提取文本的全局信息,并引入注意力机制关注重点,进行文本分类。提出的分割注意力长文融合模型有效地关注了文本语义特征,获得了较好的分类性能。该模型在海事海商长文数据集和复旦大学中文文本分类语料库2个数据集上进行的文本分类实验表明,该模型相对于基准模型具有更优的表现。To solve the problem that the current long text classification algorithm only uses the global objective vector as the text sentence vector and ignores the obvious semantic features of the text, a long text classification model based on fusion features is proposed. The model uses BERT training word vector to represent text, divides text according to the hierarchical structure of long text, and fuses the feature vector of maximum pooling convolution and BERT sentence vector as the final sentence vector of local text in sentence vector generation. Finally, the global information of the text is extracted through the bidirectional long-term and short-term memory network, and the attention mechanism is introduced to classify the text. The proposed segmentation attention long text fusion model effectively pays attention to the semantic features of text and obtains good classification performance. The text classification experiments of the model on the maritime long text data set and the Chinese text classification corpus of Fudan University show that the model has better performance than the benchmark model.

关 键 词:长文本分类 BERT 注意力机制 CNN Bi-LSTM 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象