结合信息论和范数的并行随机森林算法  被引量:1

Improved Parallel Random ForestAlgorithm Combining Information Theory and Norm

在线阅读下载全文

作  者:毛伊敏[1] 耿俊豪 MAO Yimin;GENG Junhao(School of Information Engineering,Jiangxi University of Science&Technology,Ganzhou,Jiangxi 341000,China)

机构地区:[1]江西理工大学信息工程学院,江西赣州341000

出  处:《计算机科学与探索》2022年第5期1064-1075,共12页Journal of Frontiers of Computer Science and Technology

基  金:国家重点研发计划(2018YFC1504705);国家自然科学基金(41562019);江西省教育厅科技项目(GJJ151528,GJJ151531)。

摘  要:针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下基于信息论和范数的并行随机森林算法(PRFITN)。首先,该算法基于信息增益和Frobenius范数设计了一种混合降维策略(DRIGFN),获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了基于信息论的特征分组策略(FGSIT),根据FGSIT策略将特征分组,采用分层抽样方法,保证了随机森林中决策树构建时训练特征的信息量,提高了分类结果的准确度;最后,在Reduce阶段提出了一种键值对重分配策略(RSKP),获取全局的分类结果,实现了键值对的快速均匀分配,从而提高了集群的并行效率。实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有更好的分类效果。Aiming at the problems of excessive redundancy and irrelevant features,low training feature information and low parallelization efficiency in big data random forest algorithm based on MapReduce,this paper proposes a parallel random forest algorithm based on information theory and norm(PRFITN).Firstly,the algorithm designs the DRIGFN(dimension reduction based on information gain and Frobenius norm)strategy to reduce the number of redundant and irrelevant features.Secondly,a feature grouping strategy based on information theory(FGSIT)is pro-posed.According to the FGSIT strategy,the features are grouped,and the stratified sampling method is adopted to ensure the information amount of the training features when constructing the decision tree in the random forest.Accu-racy of classification results is improved.Finally,in order to improve the parallel efficiency of the cluster,the redis-tribution of key-value pairs(RSKP)is presented to realize the rapid and uniform distribution of key-value pairs,and obtain the global classification results.Experimental results show that the algorithm has better classification effect in big data environment,especially for datasets with more features.

关 键 词:MAPREDUCE框架 随机森林(RF) DRIGFN策略 基于信息论的特征分组策略(FGSIT) 键值对重分配策略(RSKP) 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象