检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:袁若兰
机构地区:[1]山西能源学院,山西太原030600
出 处:《电子元器件与信息技术》2024年第6期98-100,共3页Electronic Component and Information Technology
摘 要:重复数据在数据库中广泛存在,这不仅增加了数据库管理的难度,而且使基于这些数据的研究不可靠。但由于数据种类繁多,且不同类型数据中重复情况各异,因此,本文只针对生物数据库NCBI中的一种乳酸菌(Lactobacillus)的基因以及蛋白质数据进行重复数据探测与研究。在本研究中,通过构建核苷酸——蛋白质网络来探索数据库中的重复数据。通过序列以及注释文件两种信息来构建不同的网络图,分析是否能够通过网络图的方式有效识别数据库中的重复数据。使用Jaccard和Dice算法来评估节点间的相似性,并使用机器学习中多种准确度评估算法来评估最终的分类准确度。最后,将结果与当前流行的去重方法进行比较,来判断网络图是否可以用于重复记录检测。
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论] Q811.4[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49