数据清洗

作品数:1103被引量:4670H指数:32
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:王宏志于戈周傲英高宏刁兴春更多>>
相关机构:国家电网有限公司华北电力大学信息技术有限公司平安科技(深圳)有限公司更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划中国博士后科学基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 基金=国家重点基础研究发展计划x
条 记 录,以下是1-10
视图:
排序:
一种基于深度学习的异常数据清洗算法被引量:24
《电子与信息学报》2022年第2期507-513,共7页匡俊搴 赵畅 杨柳 王海峰 钱骅 
国家自然科学基金(61971286);国家重点研究发展计划(2020YFB2205603);上海市科学技术委员会科技创新行动计划(19DZ1204300)。
在物联网(IoT)中采用合适的异常数据清洗算法能极大地提升数据质量。许多研究人员采用统计学方法或分类聚类等方法对时-空相关数据进行清洗。但这些方法需要额外的先验知识,会给汇聚节点带来额外的计算开销。该文根据低秩-稀疏矩阵分解...
关键词:物联网 异常数据清洗 迭代阈值收缩算法 展开 深度神经网络 
基于多路分块的Pay-as-you-go实体识别方法被引量:1
《计算机学报》2019年第8期1704-1720,共17页孙琛琛 申德荣 寇月 聂铁铮 于戈 
国家“九七三”重点基础研究计划基金项目(2012CB316201);国家自然科学基金项目(U1435216,61672142,61472070,61602103);国家重点研发计划项目(2018YFB1003404)资助~~
实体识别是数据集成和数据清洗的一个重要方面.针对Pay-as-you-go数据管理需求,本文提出一个基于多路分块的Pay-as-you-go实体识别方法.该方法不要求提供最优的分块或排序的键,并且可以直接找出脏数据集中冗余度最大的区域.分为两个阶段...
关键词:实体识别 PAY-AS-YOU-GO 多路分块 候选对选择 数据集成 数据清洗 
基于能量过滤的不确定时间序列数据清洗方法被引量:3
《智能计算机与应用》2019年第4期1-5,12,共6页孙纪舟 李建中 
国家自然科学基金(61190115,61033015);国家重点基础研究发展计划(973)(2012CB316200)
精确度是数据科学领域研究的重要方面,对后续数据处理等过程都有至关重要的影响.利用多个传感器返回的多个时间序列可提升时间序列数据的精确度,称为不确定时间序列,这多个时间序列样本在真实数据上下随机波动.已有关于时间序列的研究...
关键词:不确定时间序列 能量过滤 数据清洗 
基于特征融合的产科多标记辅助诊断研究被引量:3
《中文信息学报》2018年第5期128-136,共9页马鸿超 张坤丽 赵悦淑 昝红英 庄雷 
国家973课题(2014CB340504);国家自然科学基金(61402419;60970083);国家社会科学基金(14BYY096);计算语言学教育部重点实验室开放课题;河南省科技厅基础研究项目(142300410231;142300410308);河南省科技厅科技攻关项目(172102210478)
中文产科电子病历中蕴含着大量的医疗知识和健康信息,电子病历的信息抽取及辅助诊断对提高人口的生育健康水平具有重要意义。电子病历中,首次病程记录的入院诊断是根据主诉、辅助检查、查体等信息得出的。通常情况下诊断中包含正常诊断...
关键词:中文产科电子病历 数据清洗 辅助诊断 特征融合 多标记分类 
非均衡IPTV数据集下的用户报障预测被引量:3
《数据采集与处理》2018年第1期75-84,共10页吴志峰 黄若尘 魏昕 黄荣谞 周亮 
国家重点基础研究发展计划(2013CB329005)资助项目;国家自然科学基金(61322104;61571240)资助项目;江苏高校优势学科建设工程资助项目;江苏省自然科学基金(BK20161517)资助项目;江苏省青蓝工程资助项目
针对传统算法在非均衡交互式网络电视(Internet protocol television,IPTV)数据集下用户报障预测效果不理想的问题,本文将影响网络服务质量(Quality of service,Qo S)的传统网络参数和主观反映用户体验质量(Quality of experience,Qo E)...
关键词:非均衡数据 服务质量 数据清洗 支持向量机 
基于自然语言处理的中文产科电子病历研究被引量:10
《郑州大学学报(理学版)》2017年第4期40-45,共6页张坤丽 马鸿超 赵悦淑 昝红英 庄雷 
973课题(2014CB340504);国家自然科学基金项目(61402419;60970083);国家社会科学基金项目(14BYY096);河南省科技厅基础研究项目(142300410231;142300410308)
电子病历中蕴含着大量的医疗知识和患者的健康信息,而产科电子病历的结构化及信息抽取对临床决策支持及提高人口的生育健康水平具有重要意义.首先对中文产科电子病历的结构特点及内容进行了分析,并采用基于规则的方法对电子病历数据进...
关键词:产科电子病历 数据清洗 分类 差异化 相似度 
基于关联数据的一致性和时效性清洗方法被引量:42
《计算机学报》2017年第1期92-106,共15页杜岳峰 申德荣 聂铁铮 寇月 于戈 
国家"九七三"重点基础研究发展规划项目基金(2012CB316200;2012CB316201);国家自然科学基金(61033007;61472070;61672142);中央高校基本科研业务费专项资金(N150408001-3;N150404013)资助~~
数据一致性和数据时效性是大数据质量管理所关注的两个重要内容.条件函数依赖(CFDs)和时效约束(CCs)分别是用于分析数据一致性和数据时效性的有效技术手段.现实生活中的数据会夹杂一些关于一致性和时效性的潜在错误,这些错误又无法为CFD...
关键词:数据一致性 数据时效性 大数据质量 关联数据 数据清洗 
基于内容相关的条件函数依赖的一致性清洗方法被引量:1
《东北大学学报(自然科学版)》2016年第12期1683-1687,共5页杜岳峰 申德荣 张亮 于戈 
国家重点基础研究发展计划项目(2012CB316201);国家自然科学基金资助项目(61033007)
基于条件函数依赖提出了一种内容相关的条件函数依赖,并给出基于内容相关的条件函数依赖的一致性清洗方法.通过分析条件函数依赖之间的关系,将相关联的条件函数依赖合并组成内容相关的条件函数依赖.内容相关的条件函数依赖可以检测多条...
关键词:数据清洗 条件函数依赖 内容相关 数据一致性 修复代价模型 
大数据可用性的研究进展被引量:66
《软件学报》2016年第7期1605-1625,共21页李建中 王宏志 高宏 
国家重点基础研究发展计划(973)(2012CB316200);国家自然科学基金(U1509216;61472099)~~
信息技术的迅速发展,催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而随着数据规模的扩大,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数...
关键词:大数据 数据可用性 数据质量 数据清洗 数据管理 
数据质量多种性质的关联关系研究被引量:35
《软件学报》2016年第7期1626-1644,共19页丁小欧 王宏志 张笑影 李建中 高宏 
国家重点基础研究发展计划(973)(2012CB316200);国家自然科学基金(U1509216;61472099;61133002);黑龙江省留学回国人员基金(LC2016026)~~
信息化时代数据海量增长的同时,用户需要利用多种指标从不同性质角度对数据质量进行评价和改善.但在目前数据质量管理过程中,影响数据可用性的多种重要因素并非完全孤立,在评估机制和指导数据清洗规则时,彼此会发生关联.研究了在实际信...
关键词:数据质量 数据质量性质 多性质关系 数据清洗 数据管理 
检索报告 对象比较 聚类工具 使用帮助 返回顶部