检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李飞鸽 王芳 黄树成 LI Fei-ge;WANG Fang;HUANG Shu-cheng(School of Computer,Jiangsu University of Science and Technology,Zhenjiang 212100,China)
机构地区:[1]江苏科技大学计算机学院,江苏镇江212100
出 处:《软件导刊》2023年第4期27-31,共5页Software Guide
基 金:国家自然科学基金项目(61772244)。
摘 要:互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。Due to the large amount of Internet data,in order to efficiently manage the massive Chinese text data on the Internet,a Chinese text classification method based on Albert and TextCNN(referred to as ATT)is proposed.This method introduces Albert model to solve the problem of polysemy.TF-IDF algorithm is used to extract the five words with the highest weight in the current text data to build the whole docu⁃ment keyword table.The keyword table and the word vector generated by Albert are vector spliced to form a polysemy word vector that inte⁃grates keyword information.Moreover,on the basis of traditional TextCNN,the window size of convolution kernel is adjusted according to the characteristics of Chinese language to extract the deep local features of text data.The experimental results show that the ATT model,compared with the traditional model without TF-IDF keyword list and without adjusting the size of convolution kernel,increases the F1 value by 1.88%and 2.26%respectively,providing a new method for Chinese text classification.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38