基于聚类分区的序列模式挖掘算法研究  被引量:3

Research on Clustering Partition-Based Approach of Sequential Pattern Mining

在线阅读下载全文

作  者:吴楠[1,2] 胡学钢[1] 

机构地区:[1]合肥工业大学计算机与信息学院,安徽合肥230009 [2]宿州学院计算机科学与技术系,安徽宿州234000

出  处:《计算机技术与发展》2010年第6期109-112,117,共5页Computer Technology and Development

基  金:安徽省自然科学基金项目(090412044);安徽省高等学校省级优秀青年人才基金项目(2010SQRL193)

摘  要:对较大数据集挖掘序列模式时,可能会因产生的大量候选集等原因无法装入内存而难以进行。文中提出基于分区的序列模式挖掘算法,以期克服有限存储问题,为并行处理及分布式处理做好基础。此外,当给出的分区数固定时,不同的分区性能可能存在较大差异,通过聚类方法对数据集预处理,以得到可以产生较少局部频繁序列的特定分区,最终得到较少的全局候选序列以减少第二遍扫描时间。理论分析和实验表明,所提出的方法可比普通分区方法得到更加优化的分区,从而效率更高。Most algorithms do not work when the very large dataset and generated candidates which do not load into the main memory,are mined.This paper shows a partition-based approach to overcome not only the limited memory issue,but also in parallel processing and distributed processing.For given the number of fragments,different partitions impact on performance dramatically.The clustering algorithm is used to partition the input dataset in order to get the special fragments which can generate the smaller number of local frequent patterns as well as the smaller number of global pattern candidates.Theories analysis and experiments prove that it generates optimal partition and exhibits good efficiency than common methods.

关 键 词:数据挖掘 序列模式 分区算法 聚类 

分 类 号:TP311.5[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象