基于互信息量的生物信息数据特征标注方法

Feature Annotation Method of Biological Information Data Based on Mutual Information

机构地区：[1]电子科技大学计算机科学与工程学院,成都611731 [2]绵阳师范学院数学与计算机科学学院,四川绵阳621000

出　　处：《电子科技大学学报》2013年第6期916-920,共5页Journal of University of Electronic Science and Technology of China

基　　金：四川省教育厅自然科学研究项目(12ZB070)

摘　　要：提出了一种用于排位特征变量的基于特征矩阵信息增益的无监督特征标注准则(IGC)及直接选择法(DS)、累积最大熵法(CEM)和最大信息增益法(IGM)3种新的特征过滤方法来降低聚类的复杂度。使用经典的QC或K-means聚类算法,在杆状病毒数据集(RSV)、混合血统白血病数据集(MLL)和急性白血病患者数据集(ALP)等3种不同的生物信息数据集上测试并对比了这些特征过滤方法和目前的偏差选择(VS)和基因修剃(GS)过滤方法对聚类结果的影响。试验结果表明,3种特征过滤方法在加速聚类过程及保持初始数据的聚类结构上都具有明显的优势。A unsupervised feature annotation criterion-information gain criterion （IGC）-based on feature matrix information gain is proposed to rank the feature variable. According to this rank, three new feature filtering methods- direct selection （DS）, cumulate maximum entropy （CEM）, and information gain maximum （IGM） are given to reduce clustering complexity. The clustering results of these three filtering methods with two existing variance selection （VS） and gene shaving （GS） methods were tested and compared by using classic QC or K-means algorithm and three biological datasets： rod-shaped viruses （RSV）, mixed-lineage leukemia （MLL）, and acute leukemia patients （ALP）. The experiment results show our feature filtering method has obvious superiority in accelerating the clustering procedure and preserving the clustering structure of initial data.

关键词：特征标注特征过滤信息增益 Jaccard群落系数奇异值分解熵

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于互信息量的生物信息数据特征标注方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于互信息量的生物信息数据特征标注方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索