融合矩阵分解和空间划分的微生物数据扩增方法  

Fusing matrix factorization and space partition microbial data augmentation algorithm

作  者:温柳英 吴俊[1] 闵帆[1] WEN Liuying;WU Jun;MIN Fan(School of Computer and Software,Southwest Petroleum University,Chengdu 610500,Sichuan,China)

机构地区:[1]西南石油大学计算机与软件学院,四川成都610500

出  处:《山东大学学报(理学版)》2025年第1期14-28,44,共16页Journal of Shandong University(Natural Science)

基  金:中央引导地方科技发展专项资助项目(2021ZYD0003)。

摘  要:针对微生物数据类内和类间不平衡、高稀疏性的问题,提出一种融合矩阵分解和空间划分的数据扩增算法。采用矩阵分解技术将原始数据空间分解为对象子空间和特征子空间,提取潜在空间表示,对象子空间划分为多个数据子空间,缓解了类内不平衡问题。为了解决类间不平衡问题,在每个数据子空间中生成合成样本,使用欧氏距离对合成样本进行过滤,获得高质量的样本。在9个微生物数据集上实验,再与9个采样算法进行性能对比。结果表明,本文算法生成的样本在多样性上具有较大优势,采用多个分类器时,能识别出更多的阳性样本。Aiming at the problems of intra-class imbalance and inter-class imbalance and high sparsity of microbial data,a data augmentation method that fuses matrix factorization and space partition is proposed.Matrix factorization technology is used to decompose the original data space into object subspace and feature subspace to extract the latent space representation.The object subspace is divided into multiple data subspaces to alleviate the intra-class imbalance problem.Synthetic samples are then generated in each data subspace to address the inter-class imbalance.Synthetic samples are filtered using Euclidean distance to obtain high-quality samples.The experiment is conducted on 9 microbial data sets,and the performance is compared with 9 sampling algorithms.The results show that the samples generated by the proposed method have great advantages in diversity,and more positive samples can be identified under multiple classifiers.

关 键 词:矩阵分解 空间划分 类内不平衡 类间不平衡 对象子空间 特征子空间 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象