MDL理论的多属性值域划分方法  被引量:1

Value domain partition method of multiple attributes based on MDL principle

在线阅读下载全文

作  者:陈爱萍[1] 范媛媛[2] 

机构地区:[1]金陵科技学院信息技术学院,南京211169 [2]焦作师范高等专科学校计算机与信息工程系,河南焦作454000

出  处:《计算机工程与应用》2013年第1期167-170,198,共5页Computer Engineering and Applications

基  金:金陵科技学院自然科学基金(No.208.40410826);金陵科技学院博士启动基金(No.JIT-B-01)

摘  要:连续属性值域划分方法是数据挖掘和机器学习领域的重要课题。但已有的大量离散化方法倾向于研究一维属性离散化问题,没有考虑多属性之间的相互关系,难于获得最佳的离散化结果。提出一种基于最小描述长度理论的多属性划分方法,通过定义多属性的模型选择问题,推导出多属性划分衡量函数;设计一种合理的算法来寻找最好的离散化结果。性能评价与分析表明,该方法在Naive贝叶斯分类器上有很好的分类学习能力。Value domain partition methods of continuous attributes are important research in data mining and machine learning. Many discretization methods are proposed, and most tend to discuss the discretization of 1-dimension attribute without considering the relationship among the attributes, which is difficult to get optimal discretization results. This paper proposes a value domain partition method of multiple attributes based on MDL principle, It derives a measurement function of multiple attributes partition by defining model selection of multiple attributes. The paper also designs a reasonable algorithm to find the best discretization result. Performance evaluation and analysis demonstrate that the proposed approach improves the classification and learning ability of Naive Bayes classifier.

关 键 词:数据挖掘 离散化 最小描述长度理论 Naive贝叶斯 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象