基于Hadoop平台的一种改进K-means文本聚类算法  被引量:4

An Improved Algorithm for Text Clustering Based on Hadoop Platform

在线阅读下载全文

作  者:潘俊辉[1] 王辉[1] 张强[1] 王浩畅[1] PAN Junhui;WANG Hui;ZHANG Qiang;WANG Haochang(School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, China)

机构地区:[1]东北石油大学计算机与信息技术学院,黑龙江大庆163318

出  处:《微型电脑应用》2022年第1期5-7,共3页Microcomputer Applications

基  金:国家自然科学基金(61702093);东北石油大学青年科学基金(2020QNL-02)。

摘  要:K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一。该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响。针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率。通过实验进行了测试,表明所提出的改进算法在效率和精度方面均有所提高。The K-means algorithm is one of the most widely used recommendation algorithms in text clustering.In this algorithm,each attribute has the same effect in text clustering,while in practice,each attribute may have different and equal effect on text,which results in the clustering effect being affected.Aiming at this shortcoming,an improved K-means clustering algorithm is proposed by introducing attribute weight and implemented in Hadoop platform which may bo better to reflect the efficiency of the improved algorithm.The experimental results show that the efficiency and accuracy of the improved algorithm are increased.

关 键 词:K-MEANS 文本聚类 属性权重 HADOOP 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象