检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]上海消化外科研究所上海交通大学医学院附属瑞金医院医学基因组国家重点实验室,200025
出 处:《中华胃肠外科杂志》2015年第1期9-12,共4页Chinese Journal of Gastrointestinal Surgery
基 金:国家自然科学基金(81172329,81372644);国家科技部重大项目(2012AA02A504,2012AA02A203);上海市国际合作项目(12410706400)
摘 要:高通量组学研究产生的大数据一般具有数据量巨大、数据种类繁多、价值需深入挖掘和处理响应速度快等特征。以人的全基因组DNA双端测序为例,如果以平均30倍覆盖率测序则可产生100 GB的原始数据(压缩FASTQ格式),回帖到基因组后的二进制储存BAM文件格式可达150 GB。基因组测序数据分析中还必需结合临床医学和样本的病理学等信息。此外,医学研究的大数据分析与展示中还需要考虑医学伦理和对患者个人隐私的保护。由于基因组测序成本日趋下降,以Illumina公司最近新推出的X Ten测序仪为例,一个肿瘤样本全基因测序成本约为1万元、全转录组测序(RNA-seq)约为5千元。这些大数据为肿瘤分子靶点的发现提供了机遇,但对大数据的充分挖掘、整合与利用也带来了巨大挑战。本文将介绍高通量组学大数据的基本分析方法、流程,阐述现阶段大数据的生物信息分析促进肿瘤分子靶点的发现的基本方法和应用。The big data from high throughput research disclosed 4V features: volume of data, variety of data, value for deep mining, and velocity of processing speed. Regarding the whole genome sequencing for human sample , at average 30x of coverage, a total of 100 GB of original data (compression FASTQ format) could be produced. Replying to the binary BAM format, a total of 150 GB data could be produced. In the analysis of high throughput data, we need to combine both clinical information and pathological features. In addition, the data sources of medical research involved in ethical and privacy of patients. At present, the costs are gradually cheaper. For example, a whole genome sequencing by Illumina X Ten with 30x coverage costs about 10,000 RMB, and RNA-seq costs 5000 RMB for a single sample. Therefore, cancer genome research provides opportunities for discovery of molecular targets, but also brings enormous challenges on the data integration and utilization. This article introduces methodologies for high throughput data analysis and processing, and explains possible application on molecular target discovery.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31