基于信息熵的改进TFIDF特征选择算法  被引量:29

Improved TFIDF feature selection algorithm based on information entropy

在线阅读下载全文

作  者:周炎涛[1] 唐剑波[1] 王家琴[1] 

机构地区:[1]湖南大学电气与信息工程学院

出  处:《计算机工程与应用》2007年第35期156-158,171,共4页Computer Engineering and Applications

基  金:国家自然科学基金( the National Natural Science Foundation of China under Grant No.50677069)

摘  要:特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。The quality of text feature selection affects the accuracy of text categorization greatly. Due to the deficiency of traditional TFIDF without considering the distribution of feature words among classes,the paper analyzed the TFIDF feature selection algorithm,and proposed a new TFIDF feature selection method with concept of information entropy. Experimental results show the method is valid in improving the accuracy of text categorization.

关 键 词:词条信息熵 特征选择 TFIDF 数据挖掘 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象