基于信息论k-modes聚类法的基因表达数据分析  

K-modes algorithm for gene expression data analysis based on information theory

在线阅读下载全文

作  者:刘文远[1] 李建飞[1] 王宝文[1] 于家新[1] 

机构地区:[1]燕山大学信息科学与工程学院,河北秦皇岛066004

出  处:《生物信息学》2009年第2期95-98,共4页Chinese Journal of Bioinformatics

基  金:国家自然科学基金(60474065;60671025)

摘  要:k-均值聚类算法是一种广泛应用于基因表达数据聚类分析中的迭代变换算法,它通常用距离法来表示基因间的关系,但不能有效的反应基因间的相互依赖的关系。为此,提出基于信息论的k-modes聚类算法,克服了以上缺点。另外,还引入了伪F统计量,一方面,可以对空间中有部分重叠的点进行有效的分类;另一方面,可以给出最佳聚类数目,从而弥补了k-modes聚类法的不足。使其成为一种非常有效的算法,从而达到较优的聚类效果。K- means clustering algorithm is an iterative transformation algorithm which is widely applied in gene expression data clustering analysis, it measures the relationship between genes by distance, but which can not reflect the interdependence relationship of genes effectively. For this, an attribute clustering algorithm - k - modes based on information theory was proposed, which overcomes the demerits mentioned above. In addition, we have also introduced pseudo F - statistics, on the one hand, some of the overlapping points in space realizes effective classification; on the other hand, it can give the best clustering number, thereby making up for the shortage of k - modes clustering method. All of these merits made the proposed method very effective to achieve optimum clustering effect.

关 键 词:基因表达数据 聚类分析  互信息 伪F统计量 

分 类 号:Q786[生物学—分子生物学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象