基于重采样和集成选择的适用于实体识别的多分类器系统  被引量:3

Multiple Classifier System for Entity Resolution Using Resampling and Ensemble Selection

在线阅读下载全文

作  者:周星[1] 刁兴春 曹建军 李鑫 王芳潇 

机构地区:[1]解放军理工大学指挥信息系统学院,南京210007 [2]南京电讯技术研究所,南京210007

出  处:《数据采集与处理》2017年第5期931-938,共8页Journal of Data Acquisition and Processing

基  金:国家自然科学基金(61371196)资助项目;中国博士后科学基金(201003797)特别资助项目;解放军理工大学预研基金(20110604;41150301)资助项目

摘  要:实体识别常利用分类器根据记录对的字段相似度向量将记录对分为匹配、不匹配和可能匹配,因此分类器的准确性与实体识别的准确性直接相关。为提高分类准确性,本文基于重采样和集成选择技术构建一个多分类器系统。充分利用实体识别的特点,在分类之前发现分类困难的样本,并使重采样比率在一个区间内变化,生成一组重采样样本;然后用重采样后的样本训练分类器构建一个并行多分类器系统,强调分类器之间的差异度和稀疏度,从该多分类器系统中选择最优分类器子集,即最优的重采样比率组合,分别用非线性规划和极值方法求解该集成选择模型。实验结果表明,本方法与现有的多分类器系统相比具有更高的准确性。Classifiers are often used in entity resolution to classify record pairs into matches,non-matches and possible matches based on field similarity vector,in which case,the performance of classifiers is directly related to the performance of entity resolution.To improve the accuracy of classifier,a multiple classifier system is constructed.We make full use of the characters of entity resolution to distinguish the ambiguous instances before classification,vary the resampling ratio to generate a group of resampled instances,and use the resampled instances to train classifiers for constructing aparallel multiple classifier system.Moreover,we emphasize on the diversity and sparsity between classifiers to select the best classifier subset,and use non-linear programming and extreme value to solute the ensemble selection problem,respectively.Empirical experiments show the proposed multiple classifier system is superior to the stateof-art ones in accuracy due to resampling and ensemble selection.

关 键 词:实体识别 多分类器系统 重采样 集成选择 差异度 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象