检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机工程与设计》2008年第12期3011-3012,3033,共3页Computer Engineering and Design
基 金:华南农业大学校长基金项目(2005X027)
摘 要:I:D3算法是数据挖掘中经典的决策树分类算法。针对ID3算法所存在的属性取值偏向问题及只对较小的数据集有效的缺点提出改进。当训练样本各属性的取值个数相差较大的情况下,在计算划分标准时引入了属性取值个数N,在一定程度上克服了ID3算法易偏向于取值较多的属性这一缺陷,得到了结构更简洁的、较为理想的决策树。采用先剪枝的方法实现改进,设定一个阈值避免决策树的完全生长,在保持分类准确率的同时,大大地提高了算法的速度。实验结果表明,改进后的算法(AVID3)对许多数据集比传统ID3算法更有效。ID3 is a classical decision tree induction algorithm in data mining. It has the preference bias in selecting attributes with multiple values and is related to the number of training examples. A new approach to solving these drawbacks is given. At first, the threshold of attributes value's number is assigned to optimize the decision tree in calculating the entropy. At the meantime, a tree pruning method is implemented by adopting another threshold to reduce the error rate of the fully expanded tree. Experimental results demonstrated that the improved ID3 algorithm (AVID3) is more efficient than the traditional ID3 algorithm on many data sets.
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222