基于特征辨别能力和二进制可辨矩阵的特征选择  

FEATURE SELECTION BASED ON FEATURE DISTINGUISHABILITY AND BINARY DISCERNIBILITY MATRIX

在线阅读下载全文

作  者:朱颢东[1,2] 周姝[1,2] 钟勇[1,2] 

机构地区:[1]中国科学院成都计算机应用研究所,四川成都610041 [2]中国科学院研究生院,北京100039

出  处:《计算机应用与软件》2010年第10期94-97,102,共5页Computer Applications and Software

基  金:四川省科技计划项目(2008GZ0003);四川省科技厅科技攻关项目(07GG006-014)

摘  要:为了提高分类算法的运行速度,降低占用的内存空间,必须使用特征选择算法。首先分析了几种经典特征选择方法并总结了它们的不足,然后提出了特征辨别能力的概念,紧接着把粗糙集引进来并给出了一个基于二进制可辨矩阵的属性约筒算法,最后把该属性约简算法同所提特征辨别能力结合起来,给出了一个综合的特征选择方法。该方法首先利用所提特征辨别能力进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余。实验结果表明此种特征选择方法效果良好。In order to enhance the operating speed of sorting algorithm and to reduce the memory space occupied,feature selection algorithm must be used.In the paper,we firstly analyzed a couple of classic feature selection methods and gave a summarisation on their deficiencies, and then presented the concept of feature distinguishability.Next,we introduced the rough sets and provided an attribute reduction algorithm based on binary discernibility matrix.Finally,we combined the attribute reduction algorithm with the feature distinguishability and proposed a comprehensive feature selection method.This method first uses the feature distinguishability mentioned above to preliminarily select the features for filtering out some terms,and then employs the attribute reduction algorithm to eliminate the redundancy.Experimental results show that this feature selection method has promising effect.

关 键 词:文本分类 特征选择 特征辨别能力 二进制可辨矩阵 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象