双特征参数基因识别算法实现  

Double Feature Gene Identification Algorithm

在线阅读下载全文

作  者:徐娅[1] 葛成伟[1] 赵礼翔[1] 饶凤[2] 程浩[2] 

机构地区:[1]南京工业大学电子与信息工程学院,江苏南京210009 [2]南京工业大学理学院,江苏南京210009

出  处:《数学的实践与认识》2013年第14期85-93,共9页Mathematics in Practice and Theory

摘  要:基因识别问题首要的工作是对数字化后的基因序列利用离散傅里叶变换(DFT)进行频谱分析.对于很长的DNA序列,功率谱或信噪比计算量很大,推导出了DNA序列在Voss映射、Z-curve映射和实数映射下的信噪比快速算法,以及在Voss映射与Z-curve映射下的信噪比的关系.针对阈值确定的问题提出了基于滑动窗口的局部阈值的算法,在分类时达到了很好的效果.另外,实现了基于移动序列信噪比曲线的基因识别方法.最后,由于DNA序列的3-周期性实际上反映了核苷酸在基因序列的三个子序列上分布的"非均衡性",因此引入"方差均值"特征来衡量该非均衡性,提出了基于方差均值的单因素基因识别方法及以信噪比和方差均值作为特征向量,并设计多项式分类器的基因识别算法.The priority task of Gene identification is to analyze the spectrum of a numerical DNA sequence after Discrete Fourier Transform. But when calculating a power spectrum or a signal-to-noise ratio (SNR), computation will be a trouble for a long DNA sequence. So a fast algorithm for SNR is deduced. And then, this paper puts forward a local threshold algorithm based on the sliding window for the problem of the threshold. In addition, the Gene identi- fication algorithm based on the moving sequence ST curve is complemented. At last, since 3-periodicity of DNA sequence in fact reflects the distribution of the four nucleotides in the three subsequence, introduce "mean of variance" to describe the non-equilibrium. Therefore, a single factor identification algorithm based on mean of variance and a double factor one based on SNR and mean of variance are proposed.

关 键 词:基因识别 3-周期性 局部阈值 移动序列信噪比曲线 方差均值 

分 类 号:TN911.4[电子电信—通信与信息系统] O242.1[电子电信—信息与通信工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象