检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]重庆邮电大学计算机科学与技术学院,重庆400065 [2]重庆邮电大学移通学院计算机系,重庆401520
出 处:《计算机科学》2015年第B11期63-66,共4页Computer Science
摘 要:在面对现实中广泛存在的不平衡数据分类问题时,大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集。使用AdaBoost算法框架,对多数类和少数类的错分类给予不同的权重调整,选择性地集成分类效果较好的几个基分类器。实验结果表明,该算法在处理不平衡数据分类上具有一定的优势。Imbalanced data exists widely in the real world, under such circumstances, most traditional classification algorithms assume the balanced data distribution, which results in the classification outcome offset to the majority class, so the effort is not ideal. The enhanced AdaBoost based on the clustering ensemble under-sampling technique was proposed in this paper. The algorithm firstly clusters the sample data by clustering ensemble, according to the sample weight. And the majority class from each cluster in certain proportion are randomly selected and then merge with all minority class to generate a balanced training set. By use of the AdaBoost algorithm framework, the algorithm gives different weight adjustment to the majority class and the minority class respectively,and selectes several base classifiers with better effect to get the final ensemble. The experiment result show that: this algorithm has a certain advantage dealing with unbalanced data classification.
关 键 词:机器学习 不平衡数据 聚类融合 欠抽样 集成学习
分 类 号:TP309[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3