超大规模序列比对计算的并行优化  被引量:2

Parallelization and optimization of huge scale sequence alignment computation

在线阅读下载全文

作  者:曹宗雁[1,2] 郎显宇[1] 刘昕[3] 迟学斌[1] 

机构地区:[1]中国科学院计算机网络信息中心,北京100190 [2]中国科学院研究生院,北京100049 [3]中国科学院遗传与发育生物学研究所,北京100101

出  处:《计算机应用》2011年第A02期32-35,共4页journal of Computer Applications

基  金:国家863计划项目(2006AA01A116);中国科学院"十一五"信息化专项(INFO-115-B01);中国科学院知识创新工程项目(CNIC_QN_10004)

摘  要:针对生物信息学研究中的超大规模序列比对计算问题进行了研究,解决了现有的e-PCR软件包在处理小麦基因引物扩增比对任务中存在的内存瓶颈、I/O瓶颈和计算时间瓶颈问题,利用数据和任务分割的基本方法,使其最关键的引物与模板的比对计算能够大规模并行,进而采用基于主从通信模式的MPI通信框架进行编程实现,并从任务的缩减、负载平衡、容错和多作业并发等方面进行了优化,最终在百万亿次超级计算机上顺利实现了千核级大规模并行计算,在数十日内即可完成原本预期需要数年的小麦序列扩增比对计算。The computation challange of huge scale sequence alignment computation in bioinformatics was discussed.Bottlenecks of system memory,I/O throughput and computation time were eliminated while using e-PCR software to inspect the primers amplification with gene from wheat.Based on data and task partitioning,the essential mission of aligning the primers through the template sequences could be scalably parallelized.Processing code was designed with MPI under the master-slave communication frame.Further optimization had also been done on the view of computation decreasing,load balancing,fault tolerance and multi-task concurrency.The program had eventually performed 1000 cores scale parallelization on 100 Tflops level supercomputer,so that it is possible to complete the primer amplification computation with wheat gene in dozens of days,despite the original expectation of several years.

关 键 词:并行计算 生物信息学 分子标记 序列比对 任务分割 e-PCR 

分 类 号:TP312[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象