覆盖算法下文本分类特征选择的研究  被引量:2

Study on Feature Selection of Text Classification in Cross Cover Algorithm

在线阅读下载全文

作  者:段震[1] 王倩倩[1] 张燕平[1] 张铃[1] 

机构地区:[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039

出  处:《计算机技术与发展》2008年第11期29-31,共3页Computer Technology and Development

基  金:国家自然科学基金(60675031);"九七三"计划国家重点基础研究(2004CB318108;2007BC311003)

摘  要:文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面。首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取。在得到特征集后,使用覆盖算法作为文本分类器进行学习。实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器。Text classification is the base of information retrieval and data mining and it is widely used in web data mining and search engine. Divides texts into words firstly and uses two methods named x^2 statistic and correlation coefficient to reduce dimensions, and then uses dimension regulation to obtain the feature. After getting the feature set, uses cover algorithm as a text classifier to study. The result of experiment indicates that it is an effective way to realize a text classifier with the combination of correlation coefficient, cover algorithm and dimension regulation.

关 键 词:文本分类 x^2统计量 覆盖算法 特征选择 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象