文本分类中TF-IDF算法的改进研究  被引量:12

Research on Improvement of TF-IDF Algorithm in Text Classification

在线阅读下载全文

作  者:吴宗卓 WU Zong-zhuo(Shaanxi National Defense Industry Vocational and Technical College,Xi′an,Shaanxi 710300,China)

机构地区:[1]陕西国防工业职业技术学院,陕西西安710300

出  处:《计算技术与自动化》2022年第2期84-86,共3页Computing Technology and Automation

摘  要:文本分类中的一个主要问题是如何提高分类准确性。为了提高分类准确性,提出了一种基于TF-IDF的新的加权方法TF-IDF-IF。此方法引入了一个新的参数来表示类内特征,它用来计算一个类中文档中的术语频率。实验使用CHI卡方统计特征选择方法在数据集中选择1000个特征,然后使用TF-IDF、TF-IDF-CF、LTC和TFC方法在一些常用的分类器如朴素贝叶斯、贝叶斯网络、KNN、SVM中进行实验。实验结果表明,这种方法可以取得很好的效果。A major issue in text categorization is how to improve classification accuracy. In order to improve the classification accuracy, a new weighting method TF-IDF-IF based on TF-IDF is proposed. This method introduces a new parameter to represent in-class features, which is used to calculate the frequency of terms in a document in a class. The experiment uses the CHI chi-square statistical feature selection method to select 1000 features in the data set, and then use TF-IDF, TF-IDF-CF, LTC, and TFC methods respectively in some commonly used classifiers such as Naive Bayes, Bayesian networks, KNN, SVM experiments. From the experimental results, this method can achieve good results.

关 键 词:文本分类 特征选择 CHI平方统计 TFIDF 分类准确性 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象