基于LDA模型融合Catboost算法的文本自动分类系统设计与实现  被引量:3

Design and Implementation of Text Auto-Classification System Based on LDA Model Fusion Catboost Algorithm

在线阅读下载全文

作  者:刘爱琴[1] 郭少鹏 张卓星 Liu Aiqin;Guo Shaopeng;Zhang Zhuoxing

机构地区:[1]山西大学经济与管理学院

出  处:《国家图书馆学刊》2023年第5期84-92,共9页Journal of The National Library of China

摘  要:互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。The vigorous development of the Internet has made text data grow exponentially,and how to achieveefficient classification of text content has become an urgent issue faced by information resource management.This paper takes the Weipu academic journal resources and the web page of Baidu News as the basic corpusset,extracts the document topic based on the LDA model,splits the text content,fuses the Catboost algorithm,obtains the probability distribution of the document on the topic,uses the implicit theme-text matrix extractedby the training set to train the classifier,and finally constructs the text classification system.The results showthat the system can effectively complete the auto-classification of text mixing,the classification error rate is low,and the classification performance is significantly better than the traditional text classification method.

关 键 词:隐含狄利克雷分布(LDA) 文本自动分类 SVM算法 Catboost算法 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象