基于近邻传播的文本数据流聚类算法研究  被引量:2

Research of Text Data Streams Clustering Algorithm Based on Affinity Propagation

在线阅读下载全文

作  者:李一鸣[1,2] 倪丽萍[1,2] 方清华[1,2] 刘慧婷[3] 

机构地区:[1]合肥工业大学管理学院,合肥230009 [2]合肥工业大学过程优化与智能决策教育部重点实验室,合肥230009 [3]安徽大学计算机科学与技术学院,合肥230601

出  处:《计算机科学》2016年第5期223-229,共7页Computer Science

基  金:国家自然科学基金(71301041;61202227;71271071);国家自然科学基金重点项目(71490725)资助

摘  要:随着大数据时代的到来,网络上产生了大量非结构化文本数据流,这些文本数据流具有动态、高维、稀疏等特征。针对这些特点,首先将传统的AP算法及流式文本数据特征相结合,然后提出文本数据流聚类算法——OAP-s算法。该算法通过在AP算法上引入衰减因子,对聚类中心结果进行衰减,同时将当前时间窗口的聚类中心带入到下一时间窗口中进行聚类。针对OAP-s算法的不足,又提出了OWAP-s算法。该算法在OAP-s算法模型的基础上定义了加权相似度,并通过引入吸引度因子,使得历史聚类中心更具吸引性,得到更精确的聚类结果。同时,两种算法均采用滑动时间窗口模式,使算法既能体现数据流的时态特征,又能反映数据流的分布特征。实验结果表明,两种算法在聚类精确度、稳定性方面均高于OSKM算法,而且具有较好的伸缩性和可扩展性。With the advent of the era of big data,a large amount of unstructured text data streams have emerged online.Those data streams are dynamic,high-dimensional and sparse.For these characteristics and on the basis of the traditional AP algorithm,a text data stream clustering algorithm,called OAP-s algorithm,was proposed in this paper.By introducing attenuation factor in the AP algorithm,OAP-s algorithm passes the clustering center of the current window to the next window,while attenuating the results.However,this OAP-s algorithm also has some shortcomings.Therefore,we proposed another text data stream clustering algorithm,called OWAP-s algorithm.Based on the OAP-s algorithm,OWAP-s algorithm defines the weighted similarity,introduces attractive factor and makes the historic clustering center more attractive,thus obtains more accurate clustering results.Meanwhile,both algorithms adopt the sliding time window model,which reflects the temporal characteristics as well as the distribution of the data stream.Experimental results show that both algorithms are flexible and extensible,and they are more accurate and stable than OSKM algorithm.

关 键 词:数据挖掘 近邻传播聚类 文本数据 滑动时间窗口 权重 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象