基于Hadoop平台的一种改进K-means文本聚类算法被引量：4

An Improved Algorithm for Text Clustering Based on Hadoop Platform

作　　者：潘俊辉[1] 王辉[1] 张强[1] 王浩畅[1] PAN Junhui;WANG Hui;ZHANG Qiang;WANG Haochang(School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, China)

机构地区：[1]东北石油大学计算机与信息技术学院,黑龙江大庆163318

出　　处：《微型电脑应用》2022年第1期5-7,共3页Microcomputer Applications

基　　金：国家自然科学基金(61702093);东北石油大学青年科学基金(2020QNL-02)。

摘　　要：K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一。该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响。针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率。通过实验进行了测试,表明所提出的改进算法在效率和精度方面均有所提高。The K-means algorithm is one of the most widely used recommendation algorithms in text clustering.In this algorithm,each attribute has the same effect in text clustering,while in practice,each attribute may have different and equal effect on text,which results in the clustering effect being affected.Aiming at this shortcoming,an improved K-means clustering algorithm is proposed by introducing attribute weight and implemented in Hadoop platform which may bo better to reflect the efficiency of the improved algorithm.The experimental results show that the efficiency and accuracy of the improved algorithm are increased.

关键词：K-MEANS 文本聚类属性权重 HADOOP

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Hadoop平台的一种改进K-means文本聚类算法被引量：4

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Hadoop平台的一种改进K-means文本聚类算法 被引量：4

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于Hadoop平台的一种改进K-means文本聚类算法被引量：4