检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李新福[1]
机构地区:[1]河北大学数学与计算机学院,河北保定071002
出 处:《计算机工程与应用》2007年第24期169-171,共3页Computer Engineering and Applications
基 金:河北省自然科学基金(the Natural Science Foundation of Hebei Province;Grant No.F2006001020);河北省教育厅科学基金(the Founda-tion of Education Bureau of Hebei Province;Grant No.2005347);河北大学科学基金(the Fundation of Hebei University;Grant No.Y2004045)
摘 要:基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。The feature vector of Chinese Web page is high dimension and very sparse for text categorization.How to reduce the dimensionality of feature space is a very key problem for practical text classification.In this paper a new method is described.The approach is to take advantage of latent semantic analysis and feature selection that use statistical methods.The K-Nearest Neighbor method is selected as the evaluating classifiers.The experimental result shows that the proposed method for Chinese Web page categorization to be promising.
关 键 词:网页分类隐含语义分析特征选择KNN
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.208.57