检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邓丽[1,2] 武金达 李科学 卢亚康 DENG Li;WU Jin-da;LI Ke-xue;LU Ya-kang(School of Mechatronic Engineering and Automation,Shanghai University,Shanghai 200072,China;Shanghai Key Laboratory of Power Station Automation Technology,Shanghai 200072,China)
机构地区:[1]上海大学机电工程与自动化学院,上海200072 [2]上海市电站自动化技术重点实验室,上海200072
出 处:《计算机科学》2021年第2期70-75,共6页Computer Science
基 金:国家自然科学基金(61802246)。
摘 要:宏基因组序列组装在计算和内存上面临着巨大挑战。SpaRC(Spark Reads Clustering)是基于Apache Spark的宏基因组序列片段聚类算法,为来自下一代测序技术的数十亿测序片段聚类提供了一种可扩展的解决方案。但是,SpaRC算法参数的设置是一项非常具有挑战性的工作。SpaRC算法拥有许多对算法性能有着很大影响的超参数,选择合适的超参数集对于充分发挥SpaRC算法的性能来说是至关重要的。为了提高SpaRC算法的性能,探索了一种基于树状结构Parzen估计方法(Tree Parzen Estimator,TPE)的超参数优化方法,其能够利用先验知识高效地调节参数,并通过减少计算任务加速寻找最优参数,达到最佳聚类效果,从而避免昂贵的参数探索。对长序列片段(PacBio)和短序列片段(CAMI2)进行实验,结果表明,该方法在改善SpaRC算法性能方面有着良好的效果。The assembly of metagenomic sequences faces huge challenge in computing and storage.SpaRC(Spark Reads Clustering)is a metagenomic sequence fragment clustering algorithm based on Apache Spark,which provides a scalable solution for clustering of billions of sequencing fragments.However,setting SpaRC parameters is a very challenging task.SpaRC algorithm has many hyperparameters that have a great impact on the performance of the algorithm.Choosing the appropriate hyperparameter set is crucial to the performance of SpaRC algorithm.In order to improve the performance of SpaRC algorithm,a hyperpara-meter optimization method based on Tree Parzen Estimator(TPE)is explored,which can use prior knowledge to efficiently adjust the parameters,accelerate the search for the optimal parameters by reducing the calculation task to achieve the optimal clustering effect,thus avoding expensive parameter exploration.After experiments with long-reads(PacBio)and short-reads(CAMI2),the results show that the proposed method has a great effect on improving the performance of SpaRC algorithm.
关 键 词:SPARC 宏基因组 序列片段聚类 TPE 超参数优化
分 类 号:TP399[自动化与计算机技术—计算机应用技术] Q812[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222