结合优化的文档频和LSA的特征选择方法  被引量:1

Feature selection method combined on optimized document frequency with LSA

在线阅读下载全文

作  者:朱颢东[1,2] 钟勇[1,2] 

机构地区:[1]中国科学院成都计算机应用研究所,成都610041 [2]中国科学院研究生院,北京100039

出  处:《计算机工程与应用》2009年第34期121-123,143,共4页Computer Engineering and Applications

基  金:四川省科技计划项目(No.2008GZ0003);四川省科技厅科技攻关项目(No.07GG006-014)

摘  要:为了提高文本分类算法的效率和精度,必须使用特征选择算法来降低特征空间的维数。然而许多常用特征选择算法在选择属性时,只是利用特征的权重而并没有考虑特征之间的隐含关系,使得得到的特征集存在一定的冗余,并不具备较好的代表性。首先给出了一个基于最小词频的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性,然后使用LSA进行词语间的语义分析,消除同义词和多义词的影响,提高了文本分类的速度与精确度。实验结果表明此种特征选择方法效果良好。In order to improve efficiency and accuracy of text categorization algorithms,feature selection algorithm must be used. However,a number of feature selection algorithms selected features by means of weights and do not take into consideration features of hidden relationship,so selected feature subset has some redundancy and is not better representative.This paper presents document frequency method based on minimum word frequency and uses this method to filter out some terms to reduce the sparsity of text matrix,then LSA method is used to analyze semanteme among words and to eliminate the influence of synonyms and polysemous words.The combined method raises the speed and accuracy of text categorization.The experimental results show that the combined method is promising.

关 键 词:文本分类 词频 文档频 潜在语义分析 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象