检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:党红恩[1] 赵尔平[1] 刘炜[1] 雒伟群[1]
机构地区:[1]西藏民族大学信息工程学院,陕西咸阳712082
出 处:《湘潭大学自然科学学报》2018年第1期119-122,共4页Natural Science Journal of Xiangtan University
基 金:国家自然科学基金项目(41361044)
摘 要:针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费.A novel big datasets mining method based on data transformation and parallel computing is proposed to settle the problems of time-consuming and low efficiency of traditional closed frequent item sets(CFI)mining algorithms:designing aprime-logarithmic-operational based data transformation to transform big datasets into simple numbers;utilizing the square and square root calculation in Spark parallel framework to transform these numbers into frequent item sets.Experiments on 30 million articles indicate that the proposed DTPC algorithm can not only enhance data mining efficiency,but decrease unnecessary waste of computing resources.
关 键 词:闭频繁项集 大数据挖掘 质数对数变换 Spark并行计算框架
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38