检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]金陵科技学院信息技术学院,南京211169 [2]焦作师范高等专科学校计算机与信息工程系,河南焦作454000
出 处:《计算机工程与应用》2013年第1期167-170,198,共5页Computer Engineering and Applications
基 金:金陵科技学院自然科学基金(No.208.40410826);金陵科技学院博士启动基金(No.JIT-B-01)
摘 要:连续属性值域划分方法是数据挖掘和机器学习领域的重要课题。但已有的大量离散化方法倾向于研究一维属性离散化问题,没有考虑多属性之间的相互关系,难于获得最佳的离散化结果。提出一种基于最小描述长度理论的多属性划分方法,通过定义多属性的模型选择问题,推导出多属性划分衡量函数;设计一种合理的算法来寻找最好的离散化结果。性能评价与分析表明,该方法在Naive贝叶斯分类器上有很好的分类学习能力。Value domain partition methods of continuous attributes are important research in data mining and machine learning. Many discretization methods are proposed, and most tend to discuss the discretization of 1-dimension attribute without considering the relationship among the attributes, which is difficult to get optimal discretization results. This paper proposes a value domain partition method of multiple attributes based on MDL principle, It derives a measurement function of multiple attributes partition by defining model selection of multiple attributes. The paper also designs a reasonable algorithm to find the best discretization result. Performance evaluation and analysis demonstrate that the proposed approach improves the classification and learning ability of Naive Bayes classifier.
关 键 词:数据挖掘 离散化 最小描述长度理论 Naive贝叶斯
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.231