检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:许和旭 王兰成 XU Hexu;WANG Lancheng
机构地区:[1]国防大学政治学院,上海200433
出 处:《图书情报导刊》2021年第6期45-53,共9页Journal of Library and Information Science
基 金:中国索引学会重点课题“基于人工智能的自动索引编制研究”(项目编号:CSI20A02)。
摘 要:基于Python语言,利用公开中文语料库,测试不同算法模型对中文文本分类的效果。选择语料中不同数量的语料种类,首先对文本进行格式化读取、清洗等处理,而后以2∶1∶1的比例,分为训练集、验证集、测试集,最后依照文本表示、特征提取、分类算法选择、效果评估的步骤,依次在词袋、词嵌入、语言3种模型中选取典型代表进行中文文本分类。在深度学习模型的帮助下,文本分类得到了快速的发展,当前的主流分类方法基本都能满足不同任务的文本分类需求,特别是BERT语言模型可极大地提升文本分类的效果。Based on Python,open Chinese corpus was used to test the effect of different algorithm models on Chinese text categorization.This paper selects different types of corpus,firstly formats,reads and cleans the text,and then divides it into training set,verification set and test set in the ratio of 2∶1∶1,and finally according to the steps of text representation,feature extraction,classification algorithm selection and effect evaluation,selects typical representatives from the three models of bag of words,word embedding and language Line Chinese text classification.With the help of deep learning model,text classification has developed rapidly.The current mainstream classification methods can basically meet the text classification requirements of different tasks,especially the BERT language model,which improves the effect of text classification to an unprecedented height.
关 键 词:文本分类 TF-IDF Word2Vec BERT 深度学习
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38