人类基因组非冗余Exon/Intron数据库的构建  

CONSTRUCTION OF HUMAN NON-REDUNDANT EXON/INTRON DATABASE

在线阅读下载全文

作  者:罗冬梅[1] 金鹰[1] 邓小元[1] 刘海[2] 

机构地区:[1]华南师范大学生物光子学研究院 [2]华南师范大学计算机学院,广东广州510631

出  处:《华南师范大学学报(自然科学版)》2010年第4期87-92,共6页Journal of South China Normal University(Natural Science Edition)

基  金:国家自然科学基金专项项目/科学部主任基金项目(30940020);国家自然科学基金项目(30470495)

摘  要:以Homo.sapiensRefSeq作为原始数据库来构建EID(Exon/Intron Database)可以克服GenBank所带来的冗余问题.通过分析RefSeq基因组数据库中每个CDS(Coding Sequence,编码序列),获得构建EID的相关的数据(基因的定义、基因标识符、基因序列、蛋白质标识符、蛋白质序列、外显子和内含子的数量、大小、总数、非翻译区(UTR)内含子、内含子相位、内含子剪切位点模式).结果表明,人类24条染色体(22条常染色体和2条性染色体,共计2 870 827355 bps)中含有32 157个基因标识符(gene blocks),其中7 398个基因为假基因,4 014个基因发生了可变剪切(Al-ternative Splicing,AS),15 533个基因含有CDS内含子,765个基因含有UTR内含子,2 585个基因不含有内含子,其他的为异常基因.The exon/intron database(EID) is redundant when it is constructed based on GenBank records.In order to overcome this shortcoming,a non-redundant EID is derived from Homo.sapiens RefSeq(Reference Sequence) database.After analysing each CDS(Coding Sequence) field in original RefSeq database,the data related to eukaryotic genes(definition line,gene_id,gene sequence,protein_id,protein sequence,number of exon(s) and intron(s),size of exon and intron,sum of exons and introns,intron in UTR,phase of intron,and pattern of splice site) are collected into EID.All of human chromosomal sequences(total 2 870 827 355 bps) are parsed and we obtain 32 157 gene blocks.In there genes,there are 7 398 pseudo genes,4 014 alternative splicing genes,15 533 genes with intron in CDS,765 genes with intron in UTR,2 585 genes without intron,and other imperfect genes.

关 键 词:非冗余外显子/内含子数据库 RefSeq Homo.sapiens 编码序列 非翻译区 

分 类 号:Q34[生物学—遗传学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象