一种基于粗糙集的改进KNN文本分类算法  被引量:3

An Improved KNN Text Categorization Algorithm Based on Rough Set

在线阅读下载全文

作  者:苟和平[1] 景永霞[1] 冯百明[2] 李勇[2] 

机构地区:[1]琼台师范高等专科学校信息技术系,海口571100 [2]西北师范大学数学与信息科学学院,兰州730070

出  处:《科学技术与工程》2012年第20期4926-4929,共4页Science Technology and Engineering

基  金:教育部科学技术研究重点项目(208148);琼台师范高等专科学校项目(qtkz201006)资助

摘  要:K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一。在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间。以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。KNN algorithm is efficient text categorization algorithm in recall and precision, but the computation- al overhead of text similarity is higher when the number of texts is larger. Aiming at the problem of the KNN, an improved algorithm named RS-KNN based on rough set theory is proposed. According to the upper approximation space and lower approximation space of sample subsets, the algorithm can classify the part of texts driectly. Results of the experiment indicate the RS-KNN reduce computational overhead of text classification.

关 键 词:K最近邻 文本分类 粗糙集 近似空间 

分 类 号:TP391.75[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象