高维数据下基于云平台的随机森林算法的研究与实现  被引量:3

The Research and Implementation of Cloud Platform Based Random Forest Algorithm on High Dimensional Data

在线阅读下载全文

作  者:许旻[1] 

机构地区:[1]苏州市职业大学,江苏苏州215104

出  处:《科技通报》2014年第6期222-224,共3页Bulletin of Science and Technology

基  金:江苏省现代教育技术研究2012年度课题(2012-R-21903)

摘  要:随机森林算法在数据挖掘领域中得到了广泛的应用,该算法通过构建多个不同的决策树可以获得更高的分类结果。但是,随着数据规模的增大,人们开始接触到各大规模的数据以及更高维度的数据属性。传统的随机森林构建算法不能有效、快速地处理海量高维数据,严重影响了数据的分类效率,从而影响预测效率。本文针对高维、海量数据下随机森林构建算法,改进并提高了该算法的效率,提出了基于云计算平台的随机森林构建算法。该算法可以快速的完成数据分类预测,并通过实验结果进一步展示了该算法的效率以及可扩展性。Random forest algorithm is popularly used in data mining area, and this algorithm could get better classification results through building multiple different decision trees. However, with the incensement of data scale, people begin to get in touch with big scale data and high dimensional data. Traditional random forest algorithm could deal with high dimension-al large scale data effectively and fast, and finally inflect the data classification efficiency and predication. In this paper, fo-cusing on high dimensional, large scale data, we improve the random forest algorithm, and propose cloud platform based random forest building algorithm. This algorithm could complete the classification predication fast, and the experimental re-sults further show that the algorithm has good efficiency and scalability.

关 键 词:高维数据 海量数据 云平台 随机森林 决策树 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象