检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:霍然[1] 王宏志[1] 朱鎔 李建中[1] 高宏[1]
机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
出 处:《计算机研究与发展》2013年第S2期170-179,共10页Journal of Computer Research and Development
基 金:国家"九七三"重点基础研究发展计划基金项目(2012CB316200);国家自然科学基金项目(61003046;61111130189;60933001);国家"八六三"高技术研究发展计划基金项目(2012AA011004);国家博士后基金项目(20090450126;201003447);高等学校博士学科点专项科研基金项目(20102302120054)
摘 要:实体识别是数据量质融合管理中的一项关键技术,对能否提高数据质量起着决定性作用.其目的在于识别出数据中表示同一对象的不同形式;以及同一形式所代表的不同对象.随着大数据研究技术的发展,大数据上的实体识别问题受到了广泛关注.因此,在大数据的信息集成背景下,给出了一个基于Map-Reduce框架的大数据实体识别算法(entity identification in big data based on Map-Reduce,EIBM).该算法首先通过属性值计算记录间的相似程度,而后基于图聚类的方法进行实体识别从而输出得到最终结果.最后,在Hadoop平台上对真实数据集和人造数据集进行了多组实验,实验结果验证了算法的并行程度和对于处理大数据的有效性与高效性.With the development of information technology,problems caused by'big data'and'dirty data'have aroused widespread concern,which results an extensively research focus in data management of quality and quantity.Entity identification technology is one of the key problems for quality-quantity management in big data and plays a decisive role in improving the quality of data, which is to identify different records that describe the same object and the same record forms which represents different objects.Here we propose an entity identification algorithm(EIBM)in big data based on map-reduce under the background of big data information integration.The algorithm firstly computes an attribute-value based similarity between record pairs using map-reduce.And then output entity identification results by graph clustering.Moreover,we have performed extensive experiments in the Hadoop platform using the real dataset and artificial dataset.The experiment results evaluate the degree of parallelism in our algorithm and its advantages of efficiency and effectiveness in processing big data.
关 键 词:实体识别 大数据 HADOOP MAP-REDUCE 数据质量
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229