基于数据概要描述的分布式数据流聚类模型与算法  被引量:4

Clustering Models and Algorithms for Distributed Data Streams Based on Data Synopsis

在线阅读下载全文

作  者:毛国君[1] 曹永存[2] 

机构地区:[1]中央财经大学信息学院北京100081 [2]中央民族大学信息工程学院北京100081

出  处:《计算机科学》2013年第6期187-191,202,共6页Computer Science

基  金:国家自然科学基金项目(62173293);中央财经大学教改项目基金资助

摘  要:数据流挖掘可有效解决大容量流式数据的知识发现问题,并已得到广泛研究。数据流的一个典型的例子是传感器采集的流式数据。然而,随着传感器网络的应用普及,这些流式数据在很多情况下是分布式采集和管理的,这就必然导致分布式地挖掘数据流的需求。分布式数据流挖掘的最大障碍是由分布式而导致的挖掘质量或者效率问题。为适应分布式数据流的聚类挖掘,探讨了分布式数据流的挖掘模型,并且基于该模型设计了对应的概要数据结构和关键的挖掘算法,给出了算法的理论评估或者实验验证。实验说明,提出的模型和算法可以有效地减少数据通信代价,并且能保证较高的全局模式的聚类质量。Mining data streams aims at discovering knowledge from a large of streaming data, in which enough efforts have been done in recent years. As a typical example, the data to be collected by a sensor is a format of data streams. However,in the technical environment of a sensor network, multiple sensors always are set and they collect data in a distributed way, so mining data streams with a distributed way is making a challenge issue. Most ongoing studies for mining distributed data streams are suffering from the problems of accuracy or efficiency. In this paper, the model for clustering a distributed data stream was discussed, including a new synopsis data structure for summarizing data streams and some effective algorithms for key mining phases. The reasons of presented algorithms were also discussed. Experi- mental results demonstrate that presented models and algorithms have less transmission cost and higher clustering qua- lity to mine the global pattern from distributed data streams.

关 键 词:分布式数据流 数据概要 增量式聚类 全局模式 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象