嵌入误分类代价和拒识代价的二元分类算法  被引量:3

Binary Classification with Misclassification Cost and Reject Cost

在线阅读下载全文

作  者:邹超[1] 郑恩辉[1] 任玉玲 张英 范玉刚[4] 

机构地区:[1]中国计量学院机电工程学院,浙江杭州310018 [2]断江天达环保股份有限公司,浙江杭州310006 [3]国际商业机器全球服务(中国)有限公司,上海200032 [4]昆明理工大学信息工程与自动化学院,云南昆明650000

出  处:《广西师范大学学报(自然科学版)》2010年第3期104-108,共5页Journal of Guangxi Normal University:Natural Science Edition

基  金:国家自然科学基金资助项目(60905034);浙江省自然科学基金资助项目(Y1080950);国家公益行业专项资助(2007GYJ016);云南省教育厅科学研究基金资助项目(08C0019)

摘  要:传统分类算法隐含的假设(每个样本的误差都具有相同的代价,且接受每个样本的分类结果)并不适用于医疗诊断、故障诊断、欺诈检测等领域的实际需求。在定义拒识代价的基础上,本文提出一种嵌入非对称误分类代价和非对称拒识代价的二元分类算法(CSVM-CM C2RC),包括以下4个步骤:学习代价敏感支持向量机、估计每个样本的后验概率、计算每个样本的分类可靠性、确定每类样本的最优拒识阈值。基于标准数据集的试验研究表明,CSVM-CM C2RC能有效地降低误分类率和平均代价,提高分类结果的可靠性。To minimize "0-1" loss,most of conventional classification algorithms non-explicitly assume that all results of classification are accepted. However,the assumption is inappliable to knowledge extraction in such fields as medical diagnosis, fault diagnosis and fraud detection. In this paper ,the algorithm Cost-sensitive SVM with Class-dependent Misclassification Cost and Class-dependent Reject Cost (CSVM-CMC2RC) is proposed. In CSVM-CMCZRC algorithm,firstly,a cost-sensitive SVM is trained to obtain the preliminary classification results. Secondly, the post probability of each sample is computed. Thirdly,the classification reliability of each sample is estimated. Finally,the optimal reject threshold and the final reject decision are determined based on minimizing the average cost. Experimental results demonstrate that the proposed CSVM-CMC2RC algorithm can reduce the misclassification rate and average cost,and the classification reliability is improved.

关 键 词:非对称误分类代价 非对称拒识代价 代价敏感支持向量机 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象