基于CHI值特征选取和覆盖的文本分类方法  被引量:4

Text Classification Method Based on CHI Value Feature Selection and Cover Algorithm

在线阅读下载全文

作  者:闫屹[1] 张燕平[1] 耿筱媛[1] 

机构地区:[1]安徽大学计算机学院,安徽合肥230039

出  处:《计算机技术与发展》2008年第5期79-81,85,共4页Computer Technology and Development

基  金:国家自然科学基金(60675031;60475017);安徽省教育厅重点自然科学研究项目(2006KJ015A);安徽省教育厅自然科学研究项目(2005kj053);安徽大学211工程学术创新团队;973计划(国家重点基础研究)(2004CB318108)

摘  要:利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类。该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较。结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好。并且,维数的选择对分类的精确度影响很大。Based on CHI value feature selection and the cover algorithm of forward neural network, realizes the automatic classification of texts after the preprocessing of the texts. Based on the CHI values, the features of text set were selected firstly,namely declining dimention of features, and then text classification was processed by the cover algorithm. The method combined CHI value feature selection and the cover algorithm fully so as to promise the accurate degree of the classification at the time of raising the classification speed. Do experiment on the texts of the standard data set in this method, and compare with the experiment result of SVM and naive Bayes on the different dimention. Experiment results demonstrate that comparing with the SVM and naive Bayes, the cover algorithm do better on accurate degree. And the influence of choice of dimention to accuracy of classification is very great.

关 键 词:文本处理 覆盖算法 文本分类 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象