面向稀疏数据集的聚类算法  被引量:5

Clustering Algorithm for Sparse Data Set

在线阅读下载全文

作  者:赵玉明 舒红平[1] 魏培阳[1] 刘魁[1] ZHAO Yu-ming;SHU Hong-ping;WEI Pei-yang;LIU Kui(School of Software Engineering,Chengdu University of Information and Technology,Automatic Software Generation and Intelligence Service Key Laboratory of Sichuan Province,Chengdu University of Information and Technology,Chengdu 6102252,China)

机构地区:[1]成都信息工程大学软件工程学院,成都信息工程大学软件自动生成与智能服务四川省重点实验室,成都610225

出  处:《科学技术与工程》2020年第2期659-663,共5页Science Technology and Engineering

基  金:四川省科技厅科技支撑项目(18ZDYF3256);四川省教育厅科研资助项目(18ZB0126)。

摘  要:在聚类过程中数据可能呈现稀疏性,如果仍用传统的欧式距离作为聚类指标,则聚类的质量和效率将会受到严重的影响。受到信息论中KL(Kullback-Leibler)散度的启发,采用基于KL散度的相似性度量方法,先描述数据的整体分布,进而对数据进行聚类。研究结果表明,最后通过实验验证本算法的有效性。这种方法可以利用簇中元素提供的信息来度量不同簇之间的相互关系,克传统欧式距离的缺点,提升算法准确度。Data maybe sparse in clustering process.If the traditional euclidean distance is still used as clustering index,the quality and efficiency of clustering will be seriously affected.Inspired by KL divergence in information theory,similarity measurement method based on KL divergence was used to describe the overall distribution of data,and then to cluster the data.Finally,an experiment was carried out to verify the effectiveness of the algorithm.Reswlts show that the information provided by the elements can be used in the cluster to measure the relationship between different clusters,overcome the shortcomings of traditional Euclidean distance and improve the accuracy of the algorithm.

关 键 词:数据挖掘 聚类 KL(Kullback-Leibler) 散度 欧式距离 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象