相似重复记录检测

作品数:18被引量:52H指数:5
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:缪嘉嘉张平曹建军刁兴春贾焰更多>>
相关机构:国防科学技术大学中国人民解放军空军雷达学院国防科技大学桂林电子科技大学更多>>
相关期刊:《计算机研究与发展》《计算机工程》《传感器与微系统》《计算机工程与设计》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划中国博士后科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于CNN的安防数据相似重复记录检测模型
《计算机应用与软件》2023年第2期17-25,共9页王巍 刘阳 洪惠君 梁雅静 
国家自然科学基金项目(61802107);教育部-中国移动科研基金项目(MCM20170204);江苏省博士后科研资助计划项目(1601085C)。
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种...
关键词:安防行业 数据清洗 相似重复记录检测 CNN LeNet-5 
基于K-means的大数据相似重复记录检测
《现代信息科技》2022年第8期89-91,共3页张平 程新莲 
2021年校级质量工程项目(2021xjtz107)。
目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提...
关键词:相似重复记录 K-MEANS SNM 
相似重复记录检测研究与发展动态的知识图谱分析被引量:1
《计算机应用与软件》2022年第3期1-7,95,共8页顾晴 董永权 胡杨 
国家自然科学基金项目(61872168);江苏省研究生科研与创新计划省级项目(KYCX20_2396)。
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—...
关键词:相似重复记录检测 知识合作 研究热点 研究趋势 
基于K-modes聚类分组的大数据相似重复记录检测研究被引量:1
《安徽职业技术学院学报》2022年第1期24-29,共6页张平 余顺 
2018年安徽省自然科学研究项目重点项目“Web大数据环境下相似重复数据清洗的研究”(项目编号KJ2018A0710)。
相似重复记录检测是数据清洗的重要环节,大数据环境下对相似重复记录检测方法的效率和精度提出了更高的要求。文章针对大数据环境下对相似重复记录检测提出了一种聚类分组检测的KCG算法。该方法首先采用改进的K-modes聚类对大数据进行...
关键词:相似重复记录检测 网格密度 Pair-wise KCG 
基于多目标蚁群优化的单类支持向量机相似重复记录检测被引量:12
《兵工学报》2020年第2期324-331,共8页吕国俊 曹建军 郑奇斌 常宸 翁年凤 彭琮 
国家自然科学基金面上项目(61371196);中国博士后科学基金项目(2015M582832)
为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记...
关键词:数据清洗 相似重复记录检测 多目标蚁群算法 特征选择 单类支持向量机 支持向量域描述 
基于分块和滑窗技术的相似重复记录检测算法研究被引量:7
《计算机应用与软件》2019年第4期262-267,共6页陈亮 杜璐 胡康 
陕西省工业攻关资助项目(2014K05-43);陕西省教育厅专项科研项目(14JK1310);广东省计算机集成制造重点实验室(CIMSOF2016001)
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计...
关键词:数据质量 相似重复记录检测 窗口技术 分块技术 
基于划分的海量数据相似重复记录检测被引量:7
《计算机系统应用》2019年第3期172-178,共7页李莉 张晓雯 
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集...
关键词:数据质量 数据清洗 相似重复记录 划分 SNM算法 
相似重复记录检测的特征优选策略探究
《无线互联科技》2014年第5期172-172,共1页杨家娥 
信息时代的来临,对大数据的检测和识别提出更高的要求,如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁多,数据源组成更为繁琐,导致检测精度不足和检测代价高昂问题的出现。为此,本文探索分析了相似重复记录检测...
关键词:特征优选 相似重复记录 模糊聚类 相似度 策略 
基于熵特征优选分组聚类的相似重复记录检测被引量:4
《传感器与微系统》2011年第11期135-137,141,共4页张平 党选举 陈皓 杨文雷 
国家自然科学基金资助项目(60964001);广西自然科学基金资助项目(09910192);广西信息与通讯实验室主任基金资助项目(01902)
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为...
关键词:相似重复记录  特征优选分组聚类 
SQL存储过程实现相似重复记录检测被引量:3
《软件导刊》2011年第7期28-29,共2页侯筱婷 鲁萍 
"相似重复记录检测"是数据清洗要解决的主要问题之一,对于提高数据质量及决策可靠性起到关键作用。编写SQL存储过程脚本实现了一种相似重复记录检测算法———PCM算法,测试了算法性能,针对PCM算法时间复杂度较高的缺陷,提出了利用SQL语...
关键词:SQL 存储过程 相似重复记录 数据清洗 
检索报告 对象比较 聚类工具 使用帮助 返回顶部