聚类模式下一种优化的K-means文本特征选择  被引量:12

Clustering-based Improved K-means Text Feature Selection

在线阅读下载全文

作  者:刘海峰[1] 刘守生[1] 张学仁[1] 

机构地区:[1]解放军理工大学理学院,南京210007

出  处:《计算机科学》2011年第1期195-197,共3页Computer Science

基  金:国家自然科学基金项目(编号:70571087)资助

摘  要:文本特征降维是文本自动分类的核心技术。K-means方法是一种常用的基于划分的方法。针对该算法对类中心初始值及孤立点过于敏感的问题,提出了一种改进的K-means算法用于文本特征选择。通过优化初始类中心的选择模式及对孤立点的剔除,改善了文本特征聚类的效果。随后的文本分类试验表明,提出的改进K-means算法具有较好的特征选择能力,文本分类的效率较高。Text feature reduction is the key technology in text categorization.In addition,K-means is an partitioning method which usually be used.With regards to this arithmetic excessively incentive to the initial centers and the isolated points,the improved K-means arithmetic was put forward which is used in text feature selection.Text feature clustering was improved by optimizing primitive class center's options and the elimination of isolated point.Following text classification test shows that the K-means arithmetic put forward in this paper has a good feature selection ability and high efficiency in text categorization.

关 键 词:特征选择 聚类 K均值 文本分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象