基于信息熵理论的连续属性离散化方法  被引量:9

A New Discretization Method for Continuous Attributes Based on Information Entropy

在线阅读下载全文

作  者:高建国[1] 崔业勤[1] 

机构地区:[1]廊坊师范学院计算机系,河北廊坊065000

出  处:《微电子学与计算机》2011年第7期187-189,194,共4页Microelectronics & Computer

摘  要:很多数据挖掘和机器学习方法仅仅依赖于离散值的属性,这样必须离散连续的属性.文中提出一种基于信息熵理论的数据离散化方法(IED),利用信息熵的思想衡量离散区间是否类似,同时考虑离散区间大小对离散化结果的影响,该方法综合考虑了离散区间与类之间的独立性.实验结果表明,IED显著地提高了Na ve-bayes分类学习精度.Most data mining and induction learning methods only rely on discrete attributes.So,continuous attributes must be discretized.This paper presents a new data discretization method for continuous attributes based on information entropy,namely IED.It measures the similarity of intervals by using information entropy and considers the effect of the discrete interval size on discretization results.This method synthetically takes into account the independence betweem the merged intervals and target class.Experimental results show that IED can yield more classification accuracy by implementing Naive-bayes.

关 键 词:离散化 数据挖掘 信息熵 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象