基于神经网络的中文文本分类中的特征选择技术  被引量:8

Feature Selection for Neural Network-based Chinese Text Categorization

在线阅读下载全文

作  者:郭昭辉[1] 刘绍翰[1] 武港山[1] 

机构地区:[1]南京大学计算机系软件新技术国家重点实验室,江苏南京210093

出  处:《计算机应用研究》2006年第7期161-164,共4页Application Research of Computers

基  金:国家"863"计划资助项目(2002AA117010-10);2005年教育部科技基础条件平台建设项目

摘  要:基于神经网络的中文文本分类需要解决的核心问题是特征的选择问题,特征选择涉及选择哪些特征和选择的特征维度两个问题。针对上述问题,提出了信息增益(IG)与主成分分析(PCA)相结合的特征选择方法。通过实验比较分析了不同特征选择方法与特征维度对分类性能的影响,证明了该特征选择方法在基于神经网络的中文文本分类中的优越性,并得出神经网络的特征输入维度在200左右的时候分类性能最佳。The main problem in the Neural Network (NN) based Chinese text categorization is feature selection for textual data. Feature Selection involves what feature to select and how large the dim of the feature space should be, Aiming at the preceding problem, this paper puts forward a feature selection method using Information Gain (IG) and Principle Component Analysis(PCA). Compare and analyze the categorization performance of different feature selection methods and different feature dims in the experiments. Therefore, the superiority of the proposed feature selection method for NN based Chinese text categorization is proved. The experiments also show that the performance of the NN becomes highest when the feature dim is around 200.

关 键 词:文本分类 神经网络 主成分分析 特征选择 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象