检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:潘俊辉[1] 王辉[1] 张强[1] 王浩畅[1] PAN Junhui;WANG Hui;ZHANG Qiang;WANG Haochang(School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, China)
机构地区:[1]东北石油大学计算机与信息技术学院,黑龙江大庆163318
出 处:《微型电脑应用》2022年第1期5-7,共3页Microcomputer Applications
基 金:国家自然科学基金(61702093);东北石油大学青年科学基金(2020QNL-02)。
摘 要:K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一。该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响。针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率。通过实验进行了测试,表明所提出的改进算法在效率和精度方面均有所提高。The K-means algorithm is one of the most widely used recommendation algorithms in text clustering.In this algorithm,each attribute has the same effect in text clustering,while in practice,each attribute may have different and equal effect on text,which results in the clustering effect being affected.Aiming at this shortcoming,an improved K-means clustering algorithm is proposed by introducing attribute weight and implemented in Hadoop platform which may bo better to reflect the efficiency of the improved algorithm.The experimental results show that the efficiency and accuracy of the improved algorithm are increased.
关 键 词:K-MEANS 文本聚类 属性权重 HADOOP
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.147