相似重复记录

作品数:94被引量:642H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:刁兴春曹建军郭文龙刘哲周傲英更多>>
相关机构:福建江夏学院复旦大学总参第六十三研究所江苏大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金中国博士后科学基金江苏省博士后科研资助计划项目国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于数据仓库的电网全业务系统审计数据分析系统设计
《数字技术与应用》2024年第6期60-62,共3页郭云鹏 吴娟 陆映梅 自路学 
传统的财政预算执行审计是指对政府部门或企事业单位在预算执行过程中的财务收支情况进行审计,以确定其是否按照预算计划进行支出,并对其存在的问题提出建议和改进措施,但其难以消除相似重复记录的数据,从而导致最终的数据集成效果不佳...
关键词:数据仓库 相似重复记录 数据集成 元数据信息 财务收支情况 预算执行过程 审计数据 集成模型 
大数据相似重复记录检测算法在试题库中的运用被引量:1
《成都工业学院学报》2023年第1期66-69,共4页胡小琴 潘锦锋 
福建省中青年教师教育科研项目(JAT190930)。
为了提高试题库中重复信息自动化检测能力,提出面向试题库建设的大数据相似重复记录检测算法。采用大数据分析方法,构建试题库大数据相似重复记录分布模型,获取随机链路中重复记录的分布区间,采用层次关系入度集特征监测的方法,分析试...
关键词:大数据相似度 重复记录 检测算法 试题库设计 数据聚类 
基于CNN的安防数据相似重复记录检测模型
《计算机应用与软件》2023年第2期17-25,共9页王巍 刘阳 洪惠君 梁雅静 
国家自然科学基金项目(61802107);教育部-中国移动科研基金项目(MCM20170204);江苏省博士后科研资助计划项目(1601085C)。
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种...
关键词:安防行业 数据清洗 相似重复记录检测 CNN LeNet-5 
基于字段过滤和伸缩窗口的SNM算法优化被引量:1
《计算机工程与科学》2022年第4期699-706,共8页周世杰 娄渊胜 
江苏省重点研发计划(BE2018301)。
数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采...
关键词:数据质量 数据清洗 相似重复记录 SNM算法 
基于K-means的大数据相似重复记录检测
《现代信息科技》2022年第8期89-91,共3页张平 程新莲 
2021年校级质量工程项目(2021xjtz107)。
目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提...
关键词:相似重复记录 K-MEANS SNM 
相似重复记录检测研究与发展动态的知识图谱分析被引量:1
《计算机应用与软件》2022年第3期1-7,95,共8页顾晴 董永权 胡杨 
国家自然科学基金项目(61872168);江苏省研究生科研与创新计划省级项目(KYCX20_2396)。
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—...
关键词:相似重复记录检测 知识合作 研究热点 研究趋势 
基于K-modes聚类分组的大数据相似重复记录检测研究被引量:1
《安徽职业技术学院学报》2022年第1期24-29,共6页张平 余顺 
2018年安徽省自然科学研究项目重点项目“Web大数据环境下相似重复数据清洗的研究”(项目编号KJ2018A0710)。
相似重复记录检测是数据清洗的重要环节,大数据环境下对相似重复记录检测方法的效率和精度提出了更高的要求。文章针对大数据环境下对相似重复记录检测提出了一种聚类分组检测的KCG算法。该方法首先采用改进的K-modes聚类对大数据进行...
关键词:相似重复记录检测 网格密度 Pair-wise KCG 
一种海上非作战目标实时清洗方法被引量:1
《武汉大学学报(信息科学版)》2021年第9期1378-1385,共8页林雪原 李雪腾 潘新龙 李敏波 陈祥光 
国家自然科学基金(91538201,61671157);烟台市“双百计划”人才项目(YT201803)。
在进行海上作战态势分析时,通常需要剔除目标海域内对态势分析影响较小的非作战目标,只保留参考价值较高、作战相关的目标航迹数据。现有的行为规律挖掘方法大多是基于聚类的思想,作用于非作战目标清洗问题时工作步骤较为复杂、效果较...
关键词:态势分析 非作战目标 实时清洗 相似重复记录 
改进的SNM中文语义重复记录检测算法被引量:5
《吉林大学学报(信息科学版)》2021年第3期348-356,共9页袁满 穆永豪 王贵友 于再富 
黑龙江省哲学社会科学研究规划基金资助项目(19EDE334)。
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Ji...
关键词:相似重复记录 SNM算法 中文分词 
基于Mahout的相似重复数据清洗策略研究被引量:2
《科技与创新》2020年第20期15-18,共4页李碧秋 王佳斌 
华侨大学研究生科研创新基金资助项目(编号:18014084003)。
针对在海量日志记录中无法有效抽取高价值的数据问题,提出一种基于Mahout的k-means短文本聚类清洗算法,利用开源机器学习算法库Mahout,将文本聚类与数据清洗相结合,通过聚类检测相似重复记录,有效提升重复数据清洗速率。实验结果表明,...
关键词:数据清洗 K-MEANS 相似重复记录 文本聚类 
检索报告 对象比较 聚类工具 使用帮助 返回顶部