国家教育部博士点基金(20102302120054)

作品数:14被引量:124H指数:6
导出分析报告
相关作者:王宏志高宏李建中黎玲利张岩更多>>
相关机构:哈尔滨工业大学爱丁堡大学更多>>
相关期刊:《计算机学报》《智能计算机与应用》《计算机工程与应用》《小型微型计算机系统》更多>>
相关主题:数据质量大数据数据库HADOOPMAP-REDUCE更多>>
相关领域:自动化与计算机技术更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于任务合并的并行大数据清洗过程优化被引量:48
《计算机学报》2016年第1期97-108,共12页杨东华 李宁宁 王宏志 李建中 高宏 
国家"九七三"重点基础研究发展规划项目基金(2012CB316200);国家自然科学基金(61472099;60933001;61272046);国家"八六三"高技术研究发展计划项目基金(2012AA011004);国家博士后基金(20090450126;201003447);国家博士后基金特别资助项目(2013T60372);教育部博士点基金(20102302120054);黑龙江省自然科学基金(F201317)资助
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导...
关键词:大数据 多任务优化 海量数据 数据清洗 HADOOP MAPREDUCE 
不一致数据上查询结果的一致性估计被引量:2
《计算机学报》2015年第9期1727-1738,共12页刘雪莉 李建中 
国家"九七三"重点基础研究发展规划项目基金(2012CB316200);国家自然科学基金(61003046;6111113089);国家教育部博士点基金(20102302120054)资助~~
主键约束是描述关系数据一致性的常用方法,基于主键约束的数据一致性修复返回一个极大子集,子集中不同数据的主键不同.对于合取查询Q,一致性合取查询返回一个答案集合,答案集合是Q在数据集合I的每一个修复下查询结果的交集.文中将Q在I...
关键词:主键约束 一致性查询 合取查询 近似一致性 
社交网络中基于分类属性的好友推荐被引量:4
《计算机工程与应用》2015年第12期99-106,共8页过云燕 王宏志 张玮奇 
国家重点基础研究发展计划(No.2012CB316200);国家自然科学基金(No.61003046;No.61111130189;No.60933001);国家高技术研究发展计划(863)(No.2012AA011004);国家博士后基金(No.20090450126;No.201003447);教育部博士点基金(No.20102302120054)
社交网络经常通过掌握的用户信息来对其进行好友推荐。这种好友推荐带来了技术挑战,现有的好友推荐技术并不能有效解决该问题。为了应对这种技术挑战,拟提出基于分类属性的好友推荐算法。通过机器学习的手段,分析出不同类型的属性对用...
关键词:好友推荐 属性分类 对象相似性 
基于距离度量的实体识别算法被引量:1
《智能计算机与应用》2014年第6期61-63,共3页黎玲利 高宏 
国家自然科学基金(61003046;61111130189;60933001);国家高技术研究发展计划(863)(2012AA011004);中国博士后科学基金(20090450126;201003447);教育部博士点基金(20102302120054)
传统的实体识别中,往往是利用字符串相似性函数来计算元组对在每个属性值上的相似度从而来判断其总的相似性(例如,元组对的相似性等于每个属性值上的相似度的加权求和)。然而这一类相似性测度不能够反映属性值内部不同的词在元组对相似...
关键词:实体识别 相似性测度 距离度量 度量学习 
基于Map-Reduce的大数据实体识别算法被引量:9
《计算机研究与发展》2013年第S2期170-179,共10页霍然 王宏志 朱鎔 李建中 高宏 
国家"九七三"重点基础研究发展计划基金项目(2012CB316200);国家自然科学基金项目(61003046;61111130189;60933001);国家"八六三"高技术研究发展计划基金项目(2012AA011004);国家博士后基金项目(20090450126;201003447);高等学校博士学科点专项科研基金项目(20102302120054)
实体识别是数据量质融合管理中的一项关键技术,对能否提高数据质量起着决定性作用.其目的在于识别出数据中表示同一对象的不同形式;以及同一形式所代表的不同对象.随着大数据研究技术的发展,大数据上的实体识别问题受到了广泛关注.因此...
关键词:实体识别 大数据 HADOOP MAP-REDUCE 数据质量 
基于Map-Reduce的大数据缺失值填充算法被引量:18
《计算机研究与发展》2013年第S1期312-321,共10页金连 王宏志 黄沈滨 高宏 
国家"九七三"重点基础研究发展计划基金项目(2012CB316200);国家自然科学基金项目(61003046;61111130189);国家"八六三"高技术研究发展计划基金项目(2012AA011004);国家博士后基金项目(20090450126;201003447);高等学校博士点专项科研基金项目(20102302120054);哈尔滨工业大学优秀青年教师培养计划基金项目(HITQNJS.2009.052)
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性...
关键词:缺失值填充 概率推理 MAP-REDUCE 
PEIF:基于并行机群的大数据实体识别算法被引量:4
《计算机研究与发展》2013年第S1期211-220,共10页李明达 王宏志 张佳程 李建中 高宏 
国家"九七三"重点基础研究发展计划基金项目(2012CB316200);国家自然科学基金项目(61003046;61111130189);国家"八六三"高技术研究发展计划基金项目(2012AA011004);国家博士后基金项目(20090450126;201003447);教育部高等学校博士学科点专项科研基金项目(20102302120054);哈尔滨工业大学优秀青年教师培养计划基金项目(HITQNJS.2009.052)
数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,...
关键词:实体识别 大数据 并行处理方法 Hyracks平台 n-Gram算法 
基于众包的电子商务数据实体分类系统被引量:6
《计算机研究与发展》2013年第S1期405-409,共5页叶晨 王宏志 周小田 李建中 高宏 
国家"九七三"重点基础研究发展计划基金项目(2012CB316200);国家自然科学基金项目(61003046;61111130189);国家"八六三"高技术研究发展计划基金项目(2012AA011004);国家博士后基金项目(20090450126;201003447);教育部博士点基金项目(20102302120054);哈尔滨工业大学优秀青年教师培养计划基金项目(HITQNJS.2009.052)
电子商务发展迅速,商品数据不断增大,用户在搜索商品时总是需要浏览许多自己不需要的商品.因此找出其中描述相同的商品,对电子商务信息进行分类,能够有效提高用户的购买效率.由于各大电子商务网站人工输入的商品信息存在信息错误以及主...
关键词:众包 AMAZON MECHANICAL TURK 实体识别 
基于压缩直方图的劣质数据库上相似连接结果大小估计被引量:2
《小型微型计算机系统》2012年第10期2113-2120,共8页张岩 杨忠胜 王宏志 高宏 李建中 
国家"九七三"重点基础研究发展计划项目(2012CB316200)资助;国家自然科学基金项目(61003046)资助;教育部博士点基金项目(20102302120054)资助
现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出...
关键词:劣质数据 连接估计 最小哈希签名 压缩直方图 
劣质数据库上阈值相似连接结果大小估计被引量:6
《计算机学报》2012年第10期2159-2168,共10页张岩 杨龙 王宏志 
国家"九七三"重点基础研究发展规划项目基金(2012CB316200);国家自然科学基金(61003046;61033015;61133002);RSE-NSFC交流项目(61111130189);教育部博士点基金(20102302120054);中央高校基本科研业务费转向资金(HIT.NSRIF.2013064)资助~~
劣质数据普遍存在于现代数据管理系统中,严重影响了数据的质量,从而降低了数据的实用性以及数据的价值,这为数据管理带来了新的挑战.当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是其中一种,其中每条元组表示一个现...
关键词:代价估计 采样估计 劣质数据 数据质量 阈值 
检索报告 对象比较 聚类工具 使用帮助 返回顶部