结合语义和文本特征位串的高效KNN算法  被引量:1

Semantic similarity and document feature bit-string for efficient K-nearest neighbor

在线阅读下载全文

作  者:林啟锋[1] 蒙祖强[1] 陈秋莲[1] 陈智敏[1] 

机构地区:[1]广西大学计算机与电子信息学院,广西南宁530004

出  处:《计算机工程与设计》2013年第7期2417-2421,2469,共6页Computer Engineering and Design

基  金:国家自然科学基金项目(61063032);广西自然科学基金项目(2012GXNSFAA053225)

摘  要:为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题。算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率。To improve the efficiency of text categorization effectively, an improved k-nearest neighbor algorithm (KNN) based on semantic similarity is proposed. The semantics are combined and bit-string of features in the text. Taking into account the contri- bution of similar word in the text, the accuracy of classification and the recall rate are improved effectively. And the bit-calculation based on the bit-string of features in the text, can filter out similar text from training texts, which can overcome the problem of large computation of KNN. The analysis of algorithm and the experiments are used to prove that the computational efficiency is enhanced significantly and the accuracy of classification and the recall rate are also improved effectively.

关 键 词:概念聚合 语义关联 文本特征位串 K最近邻算法 文本分类 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象