检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]上海交通大学生命科学与技术学院,上海200240 [2]上海交通大学计算机科学与工程系,上海200240 [3]复旦大学理论生命科学研究中心,上海200433
出 处:《计算机工程与应用》2005年第33期79-82,99,共5页Computer Engineering and Applications
摘 要:论文主要利用计算语言学中使用的统计学方法定量分析生物物种的亲缘关系。以包含生物体遗传信息的核酸序列为研究对象,采用计算语言学的思想和方法,将每一个生物体的核酸序列看作一篇很长的自然语言文本,抽取核酸序列的双核苷酸频率分布特征向量,用以表征其数字特征。而后采用PearsonCorrelationCoefficient(Pearson相关系数)定量分析其亲缘关系的远近程度。将119个细菌的全基因组核酸序列进行两两比对,对所得的7021个r值进行分析,得出的结论是:亲缘关系越相近的物种,其Pearson相关系数越大。取定0.985作为“属”的分界阈值时,得到召回率为75.824%,准确率为73.404%。论文对定量分析生物学核酸序列的相似性和对生物亲缘关系远近的建模有重要的实际意义。In this paper,we use a kind of statistics method which is mainly used in computational linguistics to do quantitative analysis of the relationship of biology species.Our research objects are nucleotide sequences which contain the genetic information of species,and the method is based on computational linguistic.Every nucleotide sequence is viewed as a very long natural language text and we do information extraction of such text.We extract Di-nucleotide frequency profile vectors.Pearson Correlation Coefficient is used to analyze the relationship of biology species quantitatively.We analyze the whole genome sequences of 119 bacteria,and obtain 7,021 r-values.These data suggest that the more similar the two species are the higher the r-value is.We set 0.985 as the threshold of Genus,with the correlated recall being 75.824%,precision being 73.404%.This paper has important practical meaning in analyzing and modeling the relationship of biology species.
关 键 词:Pearson相关系数 核酸序列 自然语言文本
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117