检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院成都计算机应用研究所,成都610041 [2]中国科学院研究生院,北京100039
出 处:《计算机工程与应用》2009年第34期121-123,143,共4页Computer Engineering and Applications
基 金:四川省科技计划项目(No.2008GZ0003);四川省科技厅科技攻关项目(No.07GG006-014)
摘 要:为了提高文本分类算法的效率和精度,必须使用特征选择算法来降低特征空间的维数。然而许多常用特征选择算法在选择属性时,只是利用特征的权重而并没有考虑特征之间的隐含关系,使得得到的特征集存在一定的冗余,并不具备较好的代表性。首先给出了一个基于最小词频的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性,然后使用LSA进行词语间的语义分析,消除同义词和多义词的影响,提高了文本分类的速度与精确度。实验结果表明此种特征选择方法效果良好。In order to improve efficiency and accuracy of text categorization algorithms,feature selection algorithm must be used. However,a number of feature selection algorithms selected features by means of weights and do not take into consideration features of hidden relationship,so selected feature subset has some redundancy and is not better representative.This paper presents document frequency method based on minimum word frequency and uses this method to filter out some terms to reduce the sparsity of text matrix,then LSA method is used to analyze semanteme among words and to eliminate the influence of synonyms and polysemous words.The combined method raises the speed and accuracy of text categorization.The experimental results show that the combined method is promising.
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.42