数据挖掘算法在生物数据库中重复数据探测的运用概述  

在线阅读下载全文

作  者:袁若兰 

机构地区:[1]山西能源学院,山西太原030600

出  处:《电子元器件与信息技术》2024年第6期98-100,共3页Electronic Component and Information Technology

摘  要:重复数据在数据库中广泛存在,这不仅增加了数据库管理的难度,而且使基于这些数据的研究不可靠。但由于数据种类繁多,且不同类型数据中重复情况各异,因此,本文只针对生物数据库NCBI中的一种乳酸菌(Lactobacillus)的基因以及蛋白质数据进行重复数据探测与研究。在本研究中,通过构建核苷酸——蛋白质网络来探索数据库中的重复数据。通过序列以及注释文件两种信息来构建不同的网络图,分析是否能够通过网络图的方式有效识别数据库中的重复数据。使用Jaccard和Dice算法来评估节点间的相似性,并使用机器学习中多种准确度评估算法来评估最终的分类准确度。最后,将结果与当前流行的去重方法进行比较,来判断网络图是否可以用于重复记录检测。

关 键 词:重复 网络图 集合相似性 序列相似性 数据质量 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论] Q811.4[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象