检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:季姜帅 裴颂文[1,2] JI Jiang-shuai;PEI Song-wen(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China;Shanghai Key Laboratory of Data Science,Fudan University,Shanghai 200433,China)
机构地区:[1]上海理工大学光电信息与计算机工程学院,上海200093 [2]复旦大学上海市数据科学重点实验室,上海200433
出 处:《小型微型计算机系统》2022年第9期1808-1813,共6页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(61975124)资助;上海市自然科学基金项目(20ZR1438500)资助;上海市科委科技行动计划专项基金项目(19DZ2301100,20DZ2303500)资助;上海市数据科学重点实验室开放课题项目(2020090600003)资助.
摘 要:随着对基因致病理论研究的深入,产生了大量的异质基因表达量数据,且这些基因数据普遍存在高维度、非对称和高噪声等特性,因此通用的聚类算法面向异质基因数据的聚类精度不高.本文提出了一种面向异质基因数据的智能层次聚类算法(HCIGA).构建了融合精英保留法与轮盘赌的选择算子,并通过优化适应度函数和小生境策略保持种群多样性,加快收敛速度,提升聚类精度.HCIGA的有效性在脑肿瘤、肺癌、肾脏癌和乳腺癌数据集上进行测试,结果表明,与层次聚类算法(AGNES)、遗传K-Means算法(GKA)、DPeak和谱聚类算法相比,HCIGA算法的聚类精确度在五种算法中均为最佳,本文并将HCIGA算法应用于头颈部鳞状细胞癌(HNSC)数据集,成功识别出6种癌症亚型.With the development of researching on the theory of genetic pathogenicity, a large number of heterogeneous gene expression data have been generated.These genetic data generally have high dimension, asymmetry and high noise characteristics.Therefore, the clustering accuracy of the general clustering algorithm for heterogeneous gene data is not high.This paper proposes an intelligent hierarchical clustering algorithm(HCIGA)for heterogeneous gene data.HCIGA constructs a selection operator that integrates the elite retention method and roulette, as well as maintains the diversity of population by optimizing fitness function and niche strategy, which accelerates the convergence rate and improves clustering accuracy.The effectiveness of HCIGA is tested on the brain tumor, lung cancer, kidney cancer and breast cancer datasets, the results show that compared with AGNES,GKA,DPeak and spectral clustering algorithm, the clustering accuracy of the HCIGA is the best among the five algorithms.Then HCIGA algorithm is applied to the head and neck squamous cell carcinoma(HNSC)dataset, and successfully identifies 6 cancer subtypes.
关 键 词:聚类分析 遗传算法 基因表达量 数据挖掘 小生境技术
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7