PEIF:基于并行机群的大数据实体识别算法  被引量:4

PEIF:Parallel Entity Resolution on Big Data

在线阅读下载全文

作  者:李明达[1] 王宏志[1] 张佳程[1] 李建中[1] 高宏[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

出  处:《计算机研究与发展》2013年第S1期211-220,共10页Journal of Computer Research and Development

基  金:国家"九七三"重点基础研究发展计划基金项目(2012CB316200);国家自然科学基金项目(61003046;61111130189);国家"八六三"高技术研究发展计划基金项目(2012AA011004);国家博士后基金项目(20090450126;201003447);教育部高等学校博士学科点专项科研基金项目(20102302120054);哈尔滨工业大学优秀青年教师培养计划基金项目(HITQNJS.2009.052)

摘  要:数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.而现有的算法大多只是解决了第1个问题,只有在EIF系统中同时解决两个问题.可是EIF系统又不适宜解决数据量较大的问题且其中的解决同一物体不同名字问题的算法有待提高.因此利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数据实体识别算法.此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高效地对大数据进行实体识别.理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别.Entity identification is an important part of the process of cleaning data.To identify entity is to build corresponding relationship between real objects and their names in data.There are two problems to solve when people identify the entity.First is that one entity may have different names which will make lots of repeated data.And the second problem is that different entities may share the same name which will disturb people when cleaning data.Nowadays,most algorithms except EIF only solve the first problem.But EIF can hardly deal with the large data and its way to solve the first problem that one entity may have different names is not so ideal.So the paper uses a parallel processing method to identify entity in big data quickly by using the Hyracks platform.And the paper uses n-Gram algorithm to help it to solve the first problem easily.

关 键 词:实体识别 大数据 并行处理方法 Hyracks平台 n-Gram算法 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象