基于统计相关系数的数据离散化方法  被引量:5

Data discretization method based on statistical correlation coefficient

在线阅读下载全文

作  者:解亚萍[1] 

机构地区:[1]兰州资源环境职业技术学院计算机中心,兰州730021

出  处:《计算机应用》2011年第5期1409-1412,共4页journal of Computer Applications

摘  要:很多数据挖掘方法只能处理离散值的属性,因此,连续属性必须进行离散化。提出一种统计相关系数的数据离散化方法,基于统计相关理论有效地捕获了类属性间的相互依赖,选取最佳断点。此外,将变精度粗糙集(VPRS)模型纳入离散化中,有效地控制数据的信息丢失。将所提方法在乳腺癌症诊断以及其他领域数据上进行了应用,实验结果表明,该方法显著地提高了See5决策树的分类学习精度。Most data mining and induction learning methods can only deal with discrete attributes;therefore,discretization of continuous attributes is necessary.The author proposed a data discretization method based on statistical correlation coefficient.The method captured the interdependence between attributes and target class with the aim to select optimal cut points based on statistical correlation theory.In addition,the author incorporated Variable Precision Rough Set(VPRS) model to effectively control information loss.The proposed method was applied to breast tumor diagnosis and data of other fields.The experimental results show that this method significantly enhances the accuracy of classification of See5.

关 键 词:离散化 数据挖掘 类属性相互依赖 变精度粗糙集 决策树 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象