大模型辅助的域适应算法在基因预测的应用  

Application of domain adaptation algorithm on gene prediction facilitated with foundational model

在线阅读下载全文

作  者:田雨竹 关佶红[1] TIAN Yuzhu;GUAN Jihong(College of Electronic and Information Engineering,Tongji University,Shanghai 201804,China)

机构地区:[1]同济大学电子与信息工程学院,上海201804

出  处:《智能计算机与应用》2023年第12期191-194,F0003,共5页Intelligent Computer and Applications

基  金:国家自然科学基金(62172300)。

摘  要:域适应问题旨在解决由于源数据集和目标数据集存在域偏差,导致在源数据集上训练的模型在目标数据集上的泛化能力差的问题。当前域适应领域的工作通过强制特征空间中目标数据和源数据同分布,来对齐两个域的数据,从而提高模型在目标数据上的表现,这类方法在以下两种情况下表现不佳:一是两部分数据存在各自特有的类别;二是目标数据集原始特征质量不佳。针对这两个问题,本文提出使用预训练大模型增强目标数据集特征表示,且保留两个域数据的分布差异的域适应算法,并将其应用在生物信息中的空间数据缺失基因预测问题上。通过在多个数据集上的实验,本文提出的缺失基因预测方法在预测准确性上有所提升。The focus of domain adaptation is to mitigate issues stemming from domain discrepancies between source and target datasets,which impairs the generalization of models trained on the source dataset when applied to the target dataset.Current approaches in this field strive to align the data distributions across domains in feature space,thereby enhancing the model′s performance on target data.These methods,however,may falter when distinct categories are present in each dataset or when the intrinsic features of the target dataset are of subpar quality.Addressing these challenges,this article proposes a domain adaptation algorithm that leverages pretrained large-scale models to enrich the feature representation of the target dataset while maintaining the distinct data distributions of both domains.Applied specifically to the prediction of missing genes in spatial transcriptomics data,the methodology outlined in this study has shown an increase in prediction accuracy across various datasets.

关 键 词:域适应问题 预训练大模型 缺失基因预测 

分 类 号:TP399[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象