局部文本特征选取算法的比较和改进研究  被引量:6

A Comparative and Improving Study of Local Feature Selection Algorithms in Text Categorization

在线阅读下载全文

作  者:李纲[1] 夏晨曦[1] 郑重[1] 

机构地区:[1]武汉大学信息资源研究中心,湖北武汉430072

出  处:《情报学报》2008年第4期506-511,共6页Journal of the China Society for Scientific and Technical Information

基  金:基金项目:本文系国家自然科学基金资助项目(项目编号:70673070)研究成果之一.

摘  要:本文通过实验比较了互信息、X^2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响。实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能。同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和X^2统计算法。另外,对于K最近邻分类算法,随着足值的增大,文本分类的查准率在增加,而查全率在降低。最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的性能。In this paper, we evaluate three local text feature selection algorithms, including mutual information, X^2-statistic, and odds ratio. Our experiments found that local feature selection can remove more than 90% features with no significant decrease in text categorization performance, which validate the existed research result of global feature selection. And we also found that mutual information, and X^2-statistic perform better than odds ratio does when used in local feature selection mode. Meanwhile, the experiment result also shows that when we used K-nearest neighbor algorithm to classify the documents, the bigger value K takes, the higher precision is, and the lower recall is. At last, we analyze the reason why odds ratio demonstrates an inferior performance, and suggest an improved odds ratio algorithm used for local feature selection in text categorization.

关 键 词:文本分类 局部特征选择 互信息算法 x^2统计算法 优势率算法 K最近邻分类算法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] I206.7[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象