检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:林啟锋[1] 蒙祖强[1] 陈秋莲[1] 陈智敏[1]
机构地区:[1]广西大学计算机与电子信息学院,广西南宁530004
出 处:《计算机工程与设计》2013年第7期2417-2421,2469,共6页Computer Engineering and Design
基 金:国家自然科学基金项目(61063032);广西自然科学基金项目(2012GXNSFAA053225)
摘 要:为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题。算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率。To improve the efficiency of text categorization effectively, an improved k-nearest neighbor algorithm (KNN) based on semantic similarity is proposed. The semantics are combined and bit-string of features in the text. Taking into account the contri- bution of similar word in the text, the accuracy of classification and the recall rate are improved effectively. And the bit-calculation based on the bit-string of features in the text, can filter out similar text from training texts, which can overcome the problem of large computation of KNN. The analysis of algorithm and the experiments are used to prove that the computational efficiency is enhanced significantly and the accuracy of classification and the recall rate are also improved effectively.
关 键 词:概念聚合 语义关联 文本特征位串 K最近邻算法 文本分类
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229