一种新的决策树分裂属性选择方法  被引量:6

A New Splitting Criterion of Decision Trees

在线阅读下载全文

作  者:刘星毅[1] 

机构地区:[1]钦州学院,广西钦州535000

出  处:《计算机技术与发展》2008年第5期70-72,共3页Computer Technology and Development

基  金:广西自然科学基金(桂科0640069)

摘  要:分类问题是数据挖掘和机器学习中的一个核心问题。为了得到最大程度的分类准确率,决策树分类过程中,非常关键的是结点分裂属性的选择。常见的分裂结点属性选择方法可以分为信息熵方法、GINI系数方法等。分析了目前常见的选择分裂属性方法——基于信息熵方法的优、缺点,提出了基于卡方检验的决策树分裂属性的选择方法,用真实例子和设置模拟实验说明了文中算法的优越性。实验结果显示文中算法在分类错误率方面好于以信息熵为基础的方法。Classlfication is an important issue on data mining and machine learning. Selecting splitting attributes is the key process during constructing decision tree for rcceiving the maximized classification accuracy. Existing methods for classification usually can be the method based on entroy, GINI index, and so on. Analyses the disadvantages and the advantages of the method which is utilized to select splitting attributes based on information gain theory, and proposes a statistical method which employs chi - squared test to get the relation between the condition attributes and the class label. Demonstrate experimental this algorithm and the results show this method is significantly well than the methods based on information theory.

关 键 词:决策树 分裂属性 卡方检验 信息熵 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象