一种基因序列测序数据质量控制方案  

A Solution for Gene Sequence Data Quality Control

在线阅读下载全文

作  者:孟珍[1] 黎建辉[1] 周园春[1] 董慧[2] 胡良霖[1] 陈之端[3] 张寿洲[2] 

机构地区:[1]中国科学院计算机网络信息中心科学数据中心,北京100190 [2]深圳市中国科学院仙湖植物园,广东深圳518004 [3]中国科学院植物研究所系统与进化植物学国家重点实验室,北京100093

出  处:《科研信息化技术与应用》2012年第2期25-34,共10页E-science Technology & Application

基  金:中国科学院知识创新工程青年基金项目(CNIC_QN_11006);深圳市国际合作交流科技研发资金项目(ZYA201007060093A-01);国家自然科学基金(61003138)

摘  要:生物分子数据的爆炸增长对数据挖掘结果有效性提出挑战,本文分析了当前生物数据尤其是基因序列数据在学科发展中的特点,综合数据规则和标准的研究以及数据清洗、质量控制工具的研究现状,结合具体项目实践中的特点和应用,初步提出了针对基因序列数据的质量控制方案。在方案设计上,本文从公共数据的数据抽提部分和私有数据的质量控制部分进行阐述。前者主要涉及到对大量数据检索、序列比对和模型匹配等问题,后者主要涉及基因序列数据精度的计算、stop codons(终止密码子)和contaminants(污染序列段)的排除以及trace file数据质量的计算及系列相似性比较等。同时,该方案面对海量数据的处理,结合数据密集型计算特点进行了基于MapReduce的并行应用设计。With the explosive growth ofbio-molecular data, the effectiveness of data mining is a great challenge. This paper analyzed characteristics of current bio-molecular data, especially gene sequence data, integrated the study of data rules and data standards, data cleaning, and data quality control tools, and presented a preliminary solution of gene sequence quality control. In design of the solution, this paper introduced the data screening of public sequences and the quality control of private sequencing data. The former included data retrieval, sequence alignment and model matching in big data, while the latter included accuracy calculation of gene sequence, exclusion of stop codons and contaminants, calculation of trace files and a series of similarity comparison. Meanwhile, the parallel computation MapReduce was adopted to response to the massive data processing.

关 键 词:基因序列 数据质量控制方案 系统发育 

分 类 号:TP273[自动化与计算机技术—检测技术与自动化装置]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象