一种用于文本分类的特征选择方法  

A Feature Selection Method for Text Categorization

在线阅读下载全文

作  者:周晗[1,2] 赵卫东[1,2] 季军[3] 

机构地区:[1]企业数字化技术教育部工程研究中心,上海200092 [2]同济大学CAD研究中心,上海200092 [3]中国石化股份有限公司茂名分公司化工分部,广东茂名525011

出  处:《电脑知识与技术》2008年第12期1762-1764,共3页Computer Knowledge and Technology

摘  要:文本分类是文本信息处理领域一个非常重要的研究方向,为了节省文本分类处理中所需的存储空间和运算时间,在分类之前用高效的算法减少所需分析的数据是非常必要的。该文介绍了一种文本分类中特征降维的方法。和传统的方法不同,该文所涉及的特征是从句子中提取的不同长度的词组,然后用比数比来对其进行特征选择。实验结果表明,该文提出的方法与传统方法相比,提高了文本分类的准确率。Text categorization is a very important direction in text information process field. In order to save storage space and computing time in text categorization, it is necessary to reduce data which need to be analyzed by effective algorithm before classification. This paper introduces a method of dimensional reduction of features for text categorization. Unlike the traditional way, the feature refer in this article is the phrase of ditlerent length extracted from sentence, then use odds ratio to process feature selection. Experimental results show that, the proposed method in this paper has higher accuracy than conventional ones.

关 键 词:文本分类 特征提取 特征选择 比数比 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象