Auto-selection order of Markov chain for background sequences with chi-square test  

卡方检验确定背景序列模型Markov chain的阶数(英文)

在线阅读下载全文

作  者:谢雪英[1] 孙啸[1] 陆祖宏[1] 

机构地区:[1]东南大学吴健雄实验室,南京210096

出  处:《Journal of Southeast University(English Edition)》2003年第4期311-316,共6页东南大学学报(英文版)

基  金:TheNationalHighTechnologyResearchandDevelopmentProgram ( 863Program) ( 2 0 0 2AA2 3 10 71)andtheNaturalScienceFoundationofJiangsuProvince (BK2 0 0 2 0 5 7)

摘  要:Modeling non coding background sequences appropriately is important for the detection of regulatory elements from DNA sequences. Based on the chi square statistic test, some explanations about why to choose higher order Markov chain model and how to automatically select the proper order are given in this paper. The chi square test is first run on synthetic data sets to show that it can efficiently find the proper order of Markov chain. Using chi square test, distinct higher order context dependences inherent in ten sets of sequences of yeast S.cerevisiae from other literature have been found. So the Markov chain with higher order would be more suitable for modeling the non coding background sequences than an independent model.合理建模非编码序列对正确识别DNA序列中的调控元件非常重要 .基于卡方统计检验 ,给出了选用Markovchain模型来模拟序列背景分布的原因及如何确定Markovchain阶数的方法 .卡方测试分析模拟数据发现它能有效地确定模型阶数 .选择分析啤酒酵母中 1 0类基因的上游序列集发现 :所有序列集至少具有一阶以上的上下文相关性 ,除 1组基因外 ,其余 9组数据集具有二阶或三阶的上下文相关性 .这说明用高阶Markovchain来建模背景序列比单碱基模型 (零阶 )

关 键 词:non  coding sequences regulatory elements chi  square test Markov chain 

分 类 号:Q786[生物学—分子生物学] O211.62[理学—概率论与数理统计]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象