检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华南理工大学数学科学学院
出 处:《计算机工程与设计》2007年第23期5687-5689,5761,共4页Computer Engineering and Design
基 金:国家自然科学基金项目(10471045);广东省自然科学基金项目(04020079);华南理工大学自然科学基金项目(B13-E5050190)
摘 要:为提高少数类的分类性能,对基于数据预处理的组合分类器算法进行了研究。利用Tomek links对数据集进行预处理;把新数据集里的多数类样本按照不平衡比拆分为多个子集,每个子集和少数类样本合并成新子集;用最小二乘支持向量机对每个新子集进行训练,把训练后的各个子分类器组合为一个分类系统,新的测试样本的类别将由这个分类系统投票表决。数据试验结果表明,该算法在多数类和少数类的分类性能方面,都优于最小二乘支持向量机、过抽样方法和欠抽样方法。In order to improve the performance of the minority class, a combined classifier algorithm is presented based on data preprocessing. Firstly, Tomek links method is applied to preprocess a dataset, in which all Tomek links data points are removed to form a new dataset. Then the data points of the majority'class in the new dataset are split into several disjoint subsets according to the imbalanced ratio, and each subset is combined with minority class to form a new training dataset. Finally, each training dataset is trained by least squares support vector machine (LS-SVM), and all of the LS-SVM classifiers are combined to form a classifying system. The label of a new testing data point is determined based on the voting strategy. The experimental results show that the proposed algorithm performs better than LS-SVM, synthetic minority over-sampling technique (SMOTE) and under-sampling (US) in terms of the classification performance of the majority class and the minority one.
关 键 词:不平衡数据集 最小二乘支持向量机 组合分类器 数据预处理 不平衡比
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3