基于Albert与TextCNN的中文文本分类研究  被引量:3

Research on Chinese Text Classification Based on Albert and TextCNN

在线阅读下载全文

作  者:李飞鸽 王芳 黄树成 LI Fei-ge;WANG Fang;HUANG Shu-cheng(School of Computer,Jiangsu University of Science and Technology,Zhenjiang 212100,China)

机构地区:[1]江苏科技大学计算机学院,江苏镇江212100

出  处:《软件导刊》2023年第4期27-31,共5页Software Guide

基  金:国家自然科学基金项目(61772244)。

摘  要:互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。Due to the large amount of Internet data,in order to efficiently manage the massive Chinese text data on the Internet,a Chinese text classification method based on Albert and TextCNN(referred to as ATT)is proposed.This method introduces Albert model to solve the problem of polysemy.TF-IDF algorithm is used to extract the five words with the highest weight in the current text data to build the whole docu⁃ment keyword table.The keyword table and the word vector generated by Albert are vector spliced to form a polysemy word vector that inte⁃grates keyword information.Moreover,on the basis of traditional TextCNN,the window size of convolution kernel is adjusted according to the characteristics of Chinese language to extract the deep local features of text data.The experimental results show that the ATT model,compared with the traditional model without TF-IDF keyword list and without adjusting the size of convolution kernel,increases the F1 value by 1.88%and 2.26%respectively,providing a new method for Chinese text classification.

关 键 词:向量 文本特征提取 多标签 文本分类 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象