不同实验类型的基因表达数据聚类分析方法研究  被引量:2

Effects of Data Preprocessing and Measuring Metrics for Different Gene Expression Data

在线阅读下载全文

作  者:刘天飞[1] 唐国庆[1] 李学伟[1] 

机构地区:[1]四川农业大学动物科技学院,雅安625014

出  处:《畜牧兽医学报》2009年第2期180-184,共5页ACTA VETERINARIA ET ZOOTECHNICA SINICA

基  金:国家自然科学基金(30771534);教育部"长江学者和创新团队发展计划";"猪抗病营养的分子机制"团队项目(IRT0555-6)

摘  要:就基因芯片数据聚类分析中广泛应用的K-means算法对常见的2种类型的基因芯片数据上的应用进行研究。结果表明,不同类型的基因芯片数据适用于不同的预处理方式和不同的相似度。对于时间序列数据集,对数化转换后,相似度选择协方差所得结果最好。对于非时间序列数据集,对数转化最好,相似度选取欧氏距离、平方欧氏距离、马氏距离都比较好。The effects of different measuring metrics and data preprocessing for different gene expression data on K-means clustering were studied. The results illustrated that different data preprocessing ways made significant differences under different measuring metrics. The best data preprocessing in K means clustering was to select log transformations for the time-course gene expression dataset, and measuring metrics is to select covariance metrics. However, the best data preprocessing is log transformations for other datasets, three measuring metrics (Euclidean distance, squared Euclidean distance and Manhattan distance) led to better results.

关 键 词:基因表达 聚类分析 K-MEANS 相似度 数据预处理 

分 类 号:Q3-3[生物学—遗传学] Q348

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象