基于改进TF-IDF的FastText新闻文本分类算法  

Research on FastText News Text Classification Algorithm Based on Improved TF-IDF

在线阅读下载全文

作  者:李卫卫 葛欣杭 刘晓丹 LI Wei-wei;GE Xin-hang;LIU Xiao-dan(School of Information Engineering,Zhengzhou College of Finance and Economics,Zhengzhou 450000,China)

机构地区:[1]郑州财经学院信息工程学院,河南郑州450044

出  处:《电脑与电信》2025年第1期27-31,共5页Computer & Telecommunication

基  金:郑州财经学院校级科研项目“基于多尺度超像素的高光谱图像分类模型研究”,项目编号:ZCKY2024QN-0107。

摘  要:新闻文本种类较多、内容繁杂,在分类时较易产生关键词缺失、特征提取不全面等问题,导致文本分类准确率降低。因此在分类特征提取以及模型输入层进行了改进,提出一种基于改进TF-IDF的FastText文本分类算法,并将该方法应用至财经新闻文本数据,以验证该模型的分类性能。实验结果表明,所提分类模型的财经新闻文本分类精确率达到95.82%,相较于对比方案,最高提升6.91%,证明所提方案具有一定的有效性以及可行性,能够有效提升新闻文本分类效果。There are many types and complex contents of news texts,which can easily lead to problems such as missing keywords and incomplete feature extraction during classification,resulting in a decrease in the accuracy of text classification.Therefore,this paper improves the feature extraction of classification and the input layer of the model,and proposes a FastText text classification al‐gorithm based on improved TF-IDF.This method is applied to financial news text data to verify the classification performance of the model.The experimental results show that the precision of the proposed classification model for financial news text classification reaches 95.82%,which is 6.91%higher than the comparison scheme.This proves that the proposed scheme is effective and feasible,and can effectively improve the classification effect of news texts.

关 键 词:新闻文本分类 FastText 特征因子 离散度 改进TF-IDF 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP18[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象