基于多特征选择的中文文本分类  被引量:11

Text Categorization Based on Multiple Features Selection

在线阅读下载全文

作  者:董梅[1] 胡学钢[1] 

机构地区:[1]合肥工业大学计算机与信息学院,安徽合肥230009

出  处:《计算机技术与发展》2007年第7期117-119,134,共4页Computer Technology and Development

基  金:安徽省自然科学基金资助项目(050420207)

摘  要:自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。Automatic text categorization is the assigning of pre- defined category to a new text based on its content. Feature selection is the key of text categorization. Feature space' s hight dimension is one of diffculties of it. So to find an effective feature selection method and to reduce feature space's dimension has become the important problem of text categorization. Based on analyzing most known text categorization's feature selection methods and a new multiple feature selection method that combined different feature selection methods was given. Experiments were done using KNN algorithm. The results show tb, at the new multiple features selection method had better efficiency than single feature selection method.

关 键 词:文本分类 特征选择 多特征选择 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象