常用特征选择方法的比较研究  被引量:1

Comparative Research on Methods of Feature Selection

在线阅读下载全文

作  者:康岚兰[1] 董丹丹[1] KANG Lan-lan, DONG Dan-dan (Faculty of Applied Science, Jiangxi University of Science and Technology, Ganzhou 341000, China)

机构地区:[1]江西理工大学应用科学学院,江西赣州341000

出  处:《电脑知识与技术》2009年第12期9787-9789,共3页Computer Knowledge and Technology

摘  要:特征选择是中文文本自动分类领域中极其重要的研究内容,其目的是为了解决特征空间高维性和文档表示向量稀疏性之间的矛盾。常用的特征选择方法有:文档频数、信息增益、互信息、期望交叉熵、卡方统计量和文本证据权等。在该本自动分类器KNN上对以上方法进行了比较研究,分析了各个特征评估函数的优劣,检测了这些方法在特征维数变化情况下的性能。Feature selection are the field of automatic classification of the research is extremely important, and its purpose is to solve the high dimensional feature space and sparse document vector express the contradictions between. Commonly used feature selection methods: Document Frequency, Information Gain, Mutual Information, Expected Cross Entropy, chi and Weight of Evidence for Text. Automatically in the text of this article KNN classifier on the above comparative study of methods to analyze the characteristics of the various advantages and disadvantages of the assessment function, to detect the characteristics of these methods in the Change dimension of performance.

关 键 词:中文文本自动分类 特征选择 特征评估函数 性能 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象