组合降维技术在中文网页分类中的应用  被引量:3

Web page categorization based on LSA and features selection

在线阅读下载全文

作  者:李新福[1] 

机构地区:[1]河北大学数学与计算机学院,河北保定071002

出  处:《计算机工程与应用》2007年第24期169-171,共3页Computer Engineering and Applications

基  金:河北省自然科学基金(the Natural Science Foundation of Hebei Province;Grant No.F2006001020);河北省教育厅科学基金(the Founda-tion of Education Bureau of Hebei Province;Grant No.2005347);河北大学科学基金(the Fundation of Hebei University;Grant No.Y2004045)

摘  要:基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。The feature vector of Chinese Web page is high dimension and very sparse for text categorization.How to reduce the dimensionality of feature space is a very key problem for practical text classification.In this paper a new method is described.The approach is to take advantage of latent semantic analysis and feature selection that use statistical methods.The K-Nearest Neighbor method is selected as the evaluating classifiers.The experimental result shows that the proposed method for Chinese Web page categorization to be promising.

关 键 词:网页分类隐含语义分析特征选择KNN 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象