极限距离噪声估计与过滤方法  被引量:2

Noise Estimation and Filtering Methods with Limit Distance

在线阅读下载全文

作  者:姜高霞[1] 秦佩 王文剑[1,2] JIANG Gaoxia;QIN Pei;WANG Wenjian(School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China;Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education(Shanxi University),Taiyuan 030006,China)

机构地区:[1]山西大学计算机与信息技术学院,太原030006 [2]计算智能与中文信息处理教育部重点实验室(山西大学),太原030006

出  处:《计算机科学》2023年第6期151-158,共8页Computer Science

基  金:国家自然科学基金(U21A20513,62276161,62076154,61906113,U1805263);山西省国际合作重点研发计划(201903D421050)。

摘  要:近年来,机器学习不断取得显著性进展并被成功应用于诸多领域,然而很多学习模型或算法高度依赖数据的标签质量。实际应用中大量数据集普遍存在复杂的标签噪声,因此机器学习在低质数据建模和标签噪声处理方面面临严峻挑战。文中针对回归中的数值型标签噪声,从理论分析和仿真实验的角度研究了标签估计区间与噪声的关联性,提出了一种极限距离噪声估计方法。在最优样本选择框架下,基于此噪声估计方法提出了一种极限距离噪声过滤(Limit Distance Noise Filtering, LDNF)算法。实验结果表明,所提噪声估计方法与真实标签噪声具有更高的相关性和更低的估计偏差。在标准数据集和真实年龄估计数据集上证实了所提过滤算法可以在不同噪声环境下有效识别标签噪声并减小模型的测试误差,其表现优于最新的其他过滤算法。Machine learning has made remarkable progress and has been successfully applied to many fields in recent years.However,many learning models or algorithms are highly dependent on data quality.Complex label noise usually exists in a large number of datasets in practical applications,so machine learning faces severe challenges in low-quality data modeling and label noise processing.To solve the numerical label noise problem in regression,this paper studies the correlation between label estimation interval and the noise from the perspectives of theoretical analysis and simulation experiments,and proposes a limit distance noise estimation method.Under the optimal sample selection framework,a limit distance noise filtering(LDNF)algorithm is proposed based on this noise estimator.Experimental results show that the proposed noise estimation method has a higher correlation and a lower estimation bias with the true label noise.The proposed LDNF algorithm can effectively identify label noises and reduce the test error of the model in different noise environments on benchmark datasets and real-age estimation datasets,and it outperforms other latest filtering algorithms.

关 键 词:数值型标签噪声 回归 噪声估计 极限距离噪声过滤 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象