检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华南师范大学物理与电信工程学院,广州510006 [2]华南理工大学经济与贸易学院,广州510006
出 处:《现代计算机》2016年第24期3-7,14,共6页Modern Computer
基 金:广东省公益研究与能力建设专项资金项目(No.2016A020223012;No.2015A020217011);广东省交通科技计划项目(No.2015-02-064);广东外语外贸大学南国商学院2016年教改重大项目;广州大学华软软件学院重大科研培育项目(20000104与教研项目KY201412)
摘 要:随着大数据时代的到来,网络上充斥着大量高速变化的数据流,然而传统数据挖掘技术不能很好地直接应用到数据流上。研究基于决策树的数据流分类挖掘算法,其研究思路是首先描述一般决策树;然后重点阐述数据流决策树VFDT的算法的实现,采用Twitter Storm分布式流式计算框架的并行计算和Yahoo SAMOA机器学习平台,对VFDT算法进行并行化设计;最后通过实验验证并行化的VHT决策树算法具有良好的运行效率与性能。Since the arrival of the era of big data, data state has been changed, which is not only static but also dynamic streaming, the new type of data is called data stream owned the characteristics such as continuous, high-speed, dynamic and infinities etc. Thus traditional data mining techniques cannot be directly used for data stream mining, stream data mining technology is one of the new research directions in the field of data mining. Focuses on the data stream mining classification algorithm which is based on the decision tree algorithm, i describes the general decision tree, after understanding the implementation of VFDT, one data stream decision tree algorithm, uses Twitter Storm distributed stream computing framework of parallel computing ability and machine learning platform framework of Yahoo SAMOA, proposes concurrent parallel design based on the arithmetic of VFDT algorithm, and finally the experiment demonstrates the excellent operating efficiency and performance of parallelized VHT decision tree algorithm.
关 键 词:数据流 数据挖掘 决策树 STORM SAMOA
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.141.43.16