检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘爱琴[1] 郭少鹏 张卓星 Liu Aiqin;Guo Shaopeng;Zhang Zhuoxing
机构地区:[1]山西大学经济与管理学院
出 处:《国家图书馆学刊》2023年第5期84-92,共9页Journal of The National Library of China
摘 要:互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。The vigorous development of the Internet has made text data grow exponentially,and how to achieveefficient classification of text content has become an urgent issue faced by information resource management.This paper takes the Weipu academic journal resources and the web page of Baidu News as the basic corpusset,extracts the document topic based on the LDA model,splits the text content,fuses the Catboost algorithm,obtains the probability distribution of the document on the topic,uses the implicit theme-text matrix extractedby the training set to train the classifier,and finally constructs the text classification system.The results showthat the system can effectively complete the auto-classification of text mixing,the classification error rate is low,and the classification performance is significantly better than the traditional text classification method.
关 键 词:隐含狄利克雷分布(LDA) 文本自动分类 SVM算法 Catboost算法
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49