基于距离与熵的混合属性数据流聚类算法  被引量:5

Clustering of Data Streams with Mixed Numeric and Categorical Values Based on Entropy and Distance

在线阅读下载全文

作  者:王述云 胡运发[2] 范颖捷[3] 徐和祥 

机构地区:[1]福州大学八方物流学院,福建福州350002 [2]复旦大学计算机与信息技术系,上海200433 [3]解放军南京政治学院上海分院训练部,上海200433 [4]上海远程教育集团,上海200092

出  处:《小型微型计算机系统》2010年第12期2365-2371,共7页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60736016)资助;福州大学博士基金项目(826786)资助;上海市教育委员会科研创新项目(09YZ462)资助

摘  要:针对越来越多的应用领域要求数据流聚类算法能处理同时包含数值属性特征与分类属性特征的数据,同时由于在已有的流数据聚类算法中,大多只针对单一数据类型的聚类,为此,提出混合属性数据流聚类算法.该算法在聚类分析过程中,同时利用数值属性与分类属性来定义聚类对象间的相异性,保存了对象的完整信息,使得聚类结果更能真实反映数据流中数据的分布情况.实验结果表明,该算法具有良好的聚类质量及较快的数据处理能力,同时具有良好的可扩展性.It is important that data stream clustering algorithms can deal with both numeric and categorical values, which is required by more and more application fields. However, most of the existing algorithms can only handle either numeric values or categorical values. Therefore, a novel algorithm for clustering data streams with mixed numeric and categorical attributes is proposed, which determines the similarity between the objects in the data stream using both numeric and categorical attributes, therefore, the complete informarion of the objects of the stream is preserved, which enables the clustering results better reflect the data distribution in the data stream, experimental results demonstrate that the proposed method is of high quality , fast processing rate and good scalability.

关 键 词:数据流 混合属性 聚类  

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象