重复记录检测

作品数:37被引量:198H指数:8
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:马翔缪嘉嘉张金明董永权张平更多>>
相关机构:湖南涉外经济学院山东大学桂林电子科技大学中南大学更多>>
相关期刊:《计算机技术与发展》《计算机工程与设计》《湖南涉外经济学院学报》《中国电子商务》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划江苏省普通高校研究生科研创新计划项目更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于CNN的安防数据相似重复记录检测模型
《计算机应用与软件》2023年第2期17-25,共9页王巍 刘阳 洪惠君 梁雅静 
国家自然科学基金项目(61802107);教育部-中国移动科研基金项目(MCM20170204);江苏省博士后科研资助计划项目(1601085C)。
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种...
关键词:安防行业 数据清洗 相似重复记录检测 CNN LeNet-5 
实例层数据清洗技术研究被引量:7
《计算机技术与发展》2022年第5期22-28,共7页胡文瑜 应康辉 
国家重点研发计划子课题(2018YFC1201103)。
随着科学、技术和工程的迅猛发展,近20年来,许多领域诸如光学观测、光学监控、健康医护、传感器、用户数据、互联网和金融公司以及供应链系统等都产生了海量的数据(例如,在医疗检测中,数据都是源源不断而来的,形成了“数据灾难”)。有...
关键词:实例层数据清洗 属性检测 属性清洗 重复记录检测 重复记录清洗 
基于K-means的大数据相似重复记录检测
《现代信息科技》2022年第8期89-91,共3页张平 程新莲 
2021年校级质量工程项目(2021xjtz107)。
目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提...
关键词:相似重复记录 K-MEANS SNM 
相似重复记录检测研究与发展动态的知识图谱分析被引量:1
《计算机应用与软件》2022年第3期1-7,95,共8页顾晴 董永权 胡杨 
国家自然科学基金项目(61872168);江苏省研究生科研与创新计划省级项目(KYCX20_2396)。
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—...
关键词:相似重复记录检测 知识合作 研究热点 研究趋势 
基于K-modes聚类分组的大数据相似重复记录检测研究被引量:1
《安徽职业技术学院学报》2022年第1期24-29,共6页张平 余顺 
2018年安徽省自然科学研究项目重点项目“Web大数据环境下相似重复数据清洗的研究”(项目编号KJ2018A0710)。
相似重复记录检测是数据清洗的重要环节,大数据环境下对相似重复记录检测方法的效率和精度提出了更高的要求。文章针对大数据环境下对相似重复记录检测提出了一种聚类分组检测的KCG算法。该方法首先采用改进的K-modes聚类对大数据进行...
关键词:相似重复记录检测 网格密度 Pair-wise KCG 
应用量子粒子群算法优化神经网络的数据库重复记录检测被引量:1
《微型电脑应用》2022年第1期142-144,149,共4页徐亮 
神经网络的连接阈值以及权值直接影响数据库重复记录的检测效果,当前方法无法找到最优的神经网络的连接阈值和权值,导致数据库重复记录检测偏差比较大,并且数据库重复记录检测效率低,为了获得更优的数据库重复记录检测结果,提出了量子...
关键词:数据库记录 重复检测 连接权值 量子粒子群算法 
基于深度学习的数据库重复记录检测算法被引量:2
《微型电脑应用》2020年第12期174-176,共3页陶姿邑 
为了提高数据库重复记录检测效果,提出了基于深度学习的数据库重复记录检测算法。首先分析当前数据库重复记录检测的进展,找到引起数据库重复记录检测效果差的原因,然后利用深度学习算法中的支持向量机对数据库重复记录检测进行建模,并...
关键词:数据库 重复记录检测 深度学习 量子粒子群算法 
大型数据库重复记录检测与优化研究被引量:2
《现代电子技术》2020年第17期77-81,共5页唐吉深 覃少华 
广西民族大学中国-东盟研究中心(广西科学实验中心)2014年度开放课题项目(KT201431)。
研究大型数据库重复记录检测与优化,利用Jaro算法以及TF-IDF算法计算大型数据库不同记录字段相似度量函数,所获取字段相似度量函数作为记录特征向量,经过人工标记后设置为BP神经网络期望输出。构建BP神经网络学习样本,设置变参数量子粒...
关键词:大型数据库 重复记录检测 重复记录优化 学习样本构建 最优位置确定 权值设置 
基于多目标蚁群优化的单类支持向量机相似重复记录检测被引量:12
《兵工学报》2020年第2期324-331,共8页吕国俊 曹建军 郑奇斌 常宸 翁年凤 彭琮 
国家自然科学基金面上项目(61371196);中国博士后科学基金项目(2015M582832)
为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记...
关键词:数据清洗 相似重复记录检测 多目标蚁群算法 特征选择 单类支持向量机 支持向量域描述 
基于Moodle学习平台的发帖重复记录检测技术研究被引量:1
《天津电大学报》2019年第2期1-5,共5页魏芳芳 魏顺平 睢世杰 
国家开放大学科研课题“面向在线教育的学习分析云平台的构建与应用”(课题批准号:G18F0023Y)成果
文本作为一种占比80%的信息存储形式,对文本信息中重复数据的识别尤为关键,如何进行文本重复记录检测,检测文本之间是否存在抄袭现象,成为自然语言处理领域研究热点。以国家开放大学Moodle学习平台发帖重复记录检测的数据为依据,研究了...
关键词:文本分析 在线教育 MOODLE平台 记录检测 
检索报告 对象比较 聚类工具 使用帮助 返回顶部