新的基于簇划分文本分类方法  被引量:2

New text categorization method based on cluster partitioning

在线阅读下载全文

作  者:台德艺[1] 谢飞[2] 胡学钢[2] 

机构地区:[1]合肥学院电子信息与电气工程系,安徽合肥230022 [2]合肥工业大学计算机与信息学院,安徽合肥230009

出  处:《计算机工程与设计》2009年第6期1461-1463,共3页Computer Engineering and Design

基  金:安徽省教育厅自然科学研究基金项目(KJ2008B120);安徽省自然科学基金项目(050420207)

摘  要:基于向量空间模型的文本分类由于文本向量维数较高导致分类器效率较低。针对这一不足,提出一种新的基于簇划分的文本分类方法。其主要思想是根据向量空间中向量间的距离,将训练文档分成若干簇,同一簇中的文档具有相同类别。测试时,根据测试文档落入哪个簇,确定文档的类别,并且和传统的文本分类方法k-NN进行了比较。实验结果表明,该方法在高维空间具有良好的泛化能力和很好的时间性能。The high dimension of document vectors based on the vector space model leads to difficulty in improving efficiency of the classifier. In view of the defect a new text categorization method based on cluster partitioning is presented which divides the training documents into some clusters, so that the documents in the same cluster have the identical class according to the distance between documents. A test document's class is identified according to the cluster which the document falls into. The experiment shows that this method has good generalization ability in high space and good time efficiency compare to the traditional k-NN.

关 键 词:文本分类 向量空间模型 TF-IDF 特征选择 K-NN 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象