基于统计频率的文本分类特征选择算法研究  被引量:3

A Feature Selection Method for Text Classification Based on Statistical Frequency

在线阅读下载全文

作  者:张俊丽[1] 赵乃瑄[1] 冯君[1] 

机构地区:[1]南京工业大学图书馆,南京210009

出  处:《现代图书情报技术》2008年第11期44-48,共5页New Technology of Library and Information Service

基  金:江苏省教育厅高校哲学社会科学基金项目"江苏高校数字图书馆引进资源的绩效评价与发展战略研究"(项目编号:08SJB8700004)的研究成果之一

摘  要:通过分析χ2统计量(Chi-square,CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency,SF)算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。This paper analyzes Chi -square algorithm (CHI) , which is unreliable for low- document frequency, and can't show the pertinence for term and classification. A new Statistical Frequency algorithm (SF) is proposed according to the chief shortcomings. The experiments of the SF algorithm is validated by comparison, the results show that improved algorithm performs better.

关 键 词:文本分类 特征选择 KNN x^2统计量 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象