基于样本分布与熵的数值型属性离散化  被引量:2

Discretization of numeric attribute based on example distribution and entropy

在线阅读下载全文

作  者:林永民[1] 吕震宇[1] 赵爽[1] 朱卫东[2] 

机构地区:[1]河北理工大学经济管理学院,河北唐山063009 [2]北京交通大学计算机与信息技术学院,北京100044

出  处:《计算机工程与应用》2008年第1期159-161,共3页Computer Engineering and Applications

基  金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60503017);唐山市重点实验室项目(No.06360307A-6)。

摘  要:连续属性的离散化是数据预处理的重要工作。论文分析了基于熵的离散化方法的不足,从估计训练样本的概率分布的角度出发,提出基于样本分布与熵相结合的处理数值型属性的方法。基于UCI数据的实验结果表明,该方法不仅具有比较好的判决精度,而且具有更快的计算速度。Discretization of numeric attribute is an important role of data preprocessing.A heavy analysis about discretization method based on entropy is given.By the method of estimating the probability distribution of training examples,a new and simple method of dealing with numeric attribute based on example distribution and entropy is turned out.Experimental results of UCI data sets show that the proposed method has good performance on accuracy issue and the computational speed is heightened greatly.

关 键 词:数值型属性  样本分布 离散化 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象