检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:苟和平[1] 景永霞[1] 冯百明[2] 李勇[2]
机构地区:[1]琼台师范高等专科学校信息技术系,海口571100 [2]西北师范大学数学与信息科学学院,兰州730070
出 处:《科学技术与工程》2012年第20期4926-4929,共4页Science Technology and Engineering
基 金:教育部科学技术研究重点项目(208148);琼台师范高等专科学校项目(qtkz201006)资助
摘 要:K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一。在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间。以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。KNN algorithm is efficient text categorization algorithm in recall and precision, but the computation- al overhead of text similarity is higher when the number of texts is larger. Aiming at the problem of the KNN, an improved algorithm named RS-KNN based on rough set theory is proposed. According to the upper approximation space and lower approximation space of sample subsets, the algorithm can classify the part of texts driectly. Results of the experiment indicate the RS-KNN reduce computational overhead of text classification.
分 类 号:TP391.75[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249