检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]武汉理工大学计算机科学与技术学院,武汉430070
出 处:《计算机科学》2016年第6期55-58,90,共5页Computer Science
基 金:国家自然科学基金(61303029);湖北省自然科学基金(2014CFB836);教育部留学回国人员科研启动基金([2012]1707)资助
摘 要:随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性,构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效果;并通过研究随机森林的并行化策略,结合MapReduce框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算效率。With the coming of the big data age, data information is increasing exponentially at a dramatic rate. The traditional classification algorithm will encounter great challenges. In order to improve the efficiency of classification algorithm, this paper proposd a parallel random forest algorithm based on discretization and the selection of the weak-correlation feature subspaces. This algorithm discretizes continuous attributes in data pretreatment phase. At the step of the selection of feature subspaces for growing decision trees, we used vector space modal of attributes to calculate the correlation between attributes, and then constructed the weak-correlation feature subspaces. This algorithm not only reduces the correlation among decision trees, but also improves the classifying effect of the random forest. We also designed and realized a double parallel method for building random forest model based on the MapReduce framework. This strategy goes a step further with its own charity efforts.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.90