检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西安电子科技大学应用数学系,陕西西安710071 [2]河南科技大学数学系,河南洛阳471003 [3]洛阳师范学院数学系,河南洛阳471022
出 处:《系统工程与电子技术》2008年第12期2471-2476,共6页Systems Engineering and Electronics
基 金:国家自然科学基金资助课题(60674108;60703118)
摘 要:针对现有分类算法通常对不平衡数据挖掘表现出有偏性,即正类样本(通常是更重要的一类)的分类和预测性能差于负类样本的分类和预测性能,提出一种不平衡数据分类方法。该方法通过一个超球面将两类数据以最大分离比率分离,并且引入两个参数来分别控制两类错分率的上界,不仅提高了不平衡数据集的分类和预测的性能,而且大大缩小了参数的选择范围。在UCI真实数据上进行了实验,并采用ROC曲线下面积作为评估指标进行比较,结果验证了该方法的有效性。Using data sets that contain very few instances of the positive class usually produces the biased classifier and the predictive accuracy over the positive class (usually the more important class) is worse than that over the negative class. A classification method for imbalance data is proposed. This a obtains method maximum separation ratio to separate two classes instances via a single hypersphere and also provides the facility to control the upper bounds of two classes error rates respectively with two parameters. As such, the performance of clas- sification and prediction of imbalanced data sets can be improved, and the range of selection of parameters can be greatly narrowed. Using area under the ROC curve as performance measurement, experimental results on UCI data sets show the method's effectiveness.
关 键 词:模式识别 分类算法 不平衡数据 参数选择 超球面
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145