利用数据变换与并行运算的闭频繁项集挖掘方法  被引量:12

Closed Frequent Item Set Mining Base on Data Transformation and Parallel Computing

在线阅读下载全文

作  者:党红恩[1] 赵尔平[1] 刘炜[1] 雒伟群[1] 

机构地区:[1]西藏民族大学信息工程学院,陕西咸阳712082

出  处:《湘潭大学自然科学学报》2018年第1期119-122,共4页Natural Science Journal of Xiangtan University

基  金:国家自然科学基金项目(41361044)

摘  要:针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费.A novel big datasets mining method based on data transformation and parallel computing is proposed to settle the problems of time-consuming and low efficiency of traditional closed frequent item sets(CFI)mining algorithms:designing aprime-logarithmic-operational based data transformation to transform big datasets into simple numbers;utilizing the square and square root calculation in Spark parallel framework to transform these numbers into frequent item sets.Experiments on 30 million articles indicate that the proposed DTPC algorithm can not only enhance data mining efficiency,but decrease unnecessary waste of computing resources.

关 键 词:闭频繁项集 大数据挖掘 质数对数变换 Spark并行计算框架 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论] O241[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象