数据分布不敏感的决策树算法  被引量:1

Algorithm of decision trees insensitive to data distribution

在线阅读下载全文

作  者:孙涛[1] 李雄飞[1] 刘丽娟[1] 

机构地区:[1]吉林大学计算机科学与技术学院,长春130012

出  处:《吉林大学学报(工学版)》2009年第6期1607-1611,共5页Journal of Jilin University:Engineering and Technology Edition

基  金:国家科技支撑计划项目(2006BAK01A33);吉林省科技发展计划项目(20090704)

摘  要:传统的决策树算法是数据分布敏感的,面对数据分布偏斜的样本集时,常导致少数类别样本的分类精度很低。已有的可以处理偏斜样本集的决策树算法只针对两种类别样本的集合。由此提出了一种新的数据分布不敏感的决策树算法——DTID。该算法通过构造各种新的少数类别样本,调整样本集合的数据分布,提高少数类别样本的分类精度。DTID算法采用样本取模运算减少了算法的运行时间。实验结果表明,与C4.5等算法相比,DTID的分类精度明显提高,即使样本集中包含多种少数类别样本也能获得较好的分类效果。Traditional decision tree algorithms are sensitive to data distribution.The predictive accuracy of minority class is often decreased when the algorithm deals with skewed datasets.There exist some algorithms which can only handle the skewed datasets with only two kinds of classes.A new decision tree algorithm called DTID is proposed,which is insensitive to data distribution.Using this algorithm new cases of each minority class are generated to adjust the data distribution of the sample set,and the predictive accuracy of each minority class is improved.By adopting the modulus of each case previously,the running time of the algorithm is reduced.Experimental results show that,compared with C4.5 algorithm,the accuracy of DTID is obviously improved and it can obtain much better result even though there are many minority classes in the sample set.

关 键 词:人工智能 决策树算法 偏斜样本集 调整数据分布 样例的模 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象