一种基于熵的连续属性离散化算法  被引量:15

An entropy-based algorithm for discretization of continuous variables

在线阅读下载全文

作  者:贺跃[1] 郑建军[2] 朱蕾[1] 

机构地区:[1]北京理工大学信息科学技术学院,北京100081 [2]北京理工大学管理与经济学院,北京100081

出  处:《计算机应用》2005年第3期637-638,651,共3页journal of Computer Applications

摘  要:连续属性离散化的关键在于合理确定离散化划分点的个数和位置。为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法。该方法利用连续属性的信息量 (熵 )的特性,通过对连续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得到优化的离散值。实验表明该算法是行之有效的。It is very important to ascertain rationally the number and positions of split points for discretization of continuous variables. To improve the efficiency of unsupervised discretization, an entropy-based algorithm was proposed for discretization of continuous variables. It made use of the characteristics of the information content(entropy) of a continuous variable, and partitioned the continuous variable by itself for minimizing both the loss of entropy and the number of partitions, in order to find the best balance between the information loss and a low number of partitions, so then obtained an optimal discretization result. The experiments show this approach effective.

关 键 词: 连续属性 离散化 分类 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象