一种基于数据偏斜的改进KNN文本分类  被引量:3

An Improved KNN Text Categorization Method Based on Data Uneven

在线阅读下载全文

作  者:刘海峰[1] 陈琦[1] 刘守生[1] 苏展[1] 

机构地区:[1]解放军理工大学理学院,江苏南京210007

出  处:《微电子学与计算机》2010年第3期51-53,58,共4页Microelectronics & Computer

基  金:国家自然科学基金项目(70571087)

摘  要:KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能.KNN is a simple, valid and non-parameter method often applied in categorization. Under the condition that the samples distribution is uneven, we first put forward an improved weighting way in feature reduction; then we improve the KNN basing on density in automatic text categorization. This way reduces the impact from the uneven distribution, we have a test about text categorization. The result shows that these methods have a better precision than the common KNN.

关 键 词:特征选择 文本分类 改进KNN 相似度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象