检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]合肥学院电子信息与电气工程系,安徽合肥230022 [2]合肥工业大学计算机与信息学院,安徽合肥230009
出 处:《计算机工程与设计》2009年第6期1461-1463,共3页Computer Engineering and Design
基 金:安徽省教育厅自然科学研究基金项目(KJ2008B120);安徽省自然科学基金项目(050420207)
摘 要:基于向量空间模型的文本分类由于文本向量维数较高导致分类器效率较低。针对这一不足,提出一种新的基于簇划分的文本分类方法。其主要思想是根据向量空间中向量间的距离,将训练文档分成若干簇,同一簇中的文档具有相同类别。测试时,根据测试文档落入哪个簇,确定文档的类别,并且和传统的文本分类方法k-NN进行了比较。实验结果表明,该方法在高维空间具有良好的泛化能力和很好的时间性能。The high dimension of document vectors based on the vector space model leads to difficulty in improving efficiency of the classifier. In view of the defect a new text categorization method based on cluster partitioning is presented which divides the training documents into some clusters, so that the documents in the same cluster have the identical class according to the distance between documents. A test document's class is identified according to the cluster which the document falls into. The experiment shows that this method has good generalization ability in high space and good time efficiency compare to the traditional k-NN.
关 键 词:文本分类 向量空间模型 TF-IDF 特征选择 K-NN
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117