基于信息增益的特征词权重调整算法研究  被引量:33

Improved approach to weighting terms using information gain

在线阅读下载全文

作  者:张玉芳[1] 陈小莉[1] 熊忠阳[1] 

机构地区:[1]重庆大学计算机学院,重庆400030

出  处:《计算机工程与应用》2007年第35期159-161,共3页Computer Engineering and Applications

基  金:重庆市科委自然科学基金(No.CSTC2006BB2021)。

摘  要:传统权重公式TFIDF忽略了词语在集合中的分布比例,针对TFIDF的这个缺点,把信息增益公式引入文本集合中并提出IF*IDF*IG,取得了较好的效果。在分析中发现单纯把信息增益引入文本集合并不能完全解决词语分布对词语权重的影响。从文档类别层次上考虑,把信息论中信息增益应用到文本集合的类别层次上,提出了一种改进的权重公式tf*idf*IGc,用改进的权重公式来衡量词语在文本集合的各个类别中分布比例上的差异,进一步弥补传统公式的不足。实验对比了改进的公式tf*idf*IGc和IF*IDF*IG的实验效果,实验证明tf*idf*IGc权重公式在表现词语权重时更有效。This paper applies the information gain to remedy the defect of TFIDF neglecting the proportion of distribution of terms in categories of the text collection.The information gain of terms as one factor for term-weighting can effectively weight the proportion of distribution of terms.

关 键 词:信息增益 信息熵 词语分布比例 文本分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象