数据挖掘网格中决策树并行算法设计及性能分析  被引量:3

Design and Performance Analysis of a Parallel Decision Tree Algorithm on Data Mining Grid

在线阅读下载全文

作  者:陈平[1] 乔秀全[2] 刘臻[1] 田小萍[1] 

机构地区:[1]北京师范大学信息网络中心,北京100875 [2]北京邮电大学网络与交换技术国家重点实验室,北京100876

出  处:《北京邮电大学学报》2009年第B04期49-52,共4页Journal of Beijing University of Posts and Telecommunications

基  金:国家自然科学基金项目(6080203460672122);高等学校博士学科点专项科研基金项目(20070013026);北京市科技新星计划(2008B50)

摘  要:提出了C4.5决策树算法的一种并行算法,使传统的串行分类算法能在多台PC机和服务器组成的数据挖掘网格上并行数据挖掘.采用数据纵横剖分,结合递归过程的并行化,实现了可扩展的高性能并行计算,解决了处理海量数据时没有较好并行分类算法的问题.并给出了指导该并行算法高效计算的方法.数据运行试验和算法分析表明,该并行算法的性能受多个因素影响,并具有高效的并行效率计算加速比.Working on the group of personal-computers and servers, a parallel C4.5 decision tree algorithm is proposed. This algorithm made the parallel date mining run on the data mining grid efficiently. A partition of vertical and horizontal method is introduced to parallel the procedure of recursive algorithm. The algorithm is scalable and solves the situation of lack of efficient parallel algorithm so far. The analysis and experiment for the parallel decision tree prove that the computing efficiency is affected by several parameters and the algorithm has high performance and high computing speedup. Guides to enhance the efficiency are proposed as well.

关 键 词:数据挖掘 网格计算 决策树 并行性能 

分 类 号:TP302.7[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象