面向医学领域生成任务的大语言模型性能评测研究

机构地区：[1]安徽理工大学计算机科学与工程学院,安徽淮南232001 [2]中国科学院合肥物质科学研究院,安徽合肥230031 [3]安徽中医药大学第二附属医院,安徽合肥230061

出　　处：《电脑知识与技术》2025年第4期11-16,共6页Computer Knowledge and Technology

基　　金：安徽高校自然科学重大项目(KJ2020ZD40);安徽省科技重大专项(202103a07020004);安徽省科技重大专项(202303a07020006-4);安徽省科技重大专项(202304a05020071);安徽省科技重大专项(2023CXMMTCM012)。

摘　　要：文章针对医学领域大语言模型评测的不足,构建了4个医学评测任务,并选取8个中文开源大语言模型进行性能评估。结果表明,通用模型Qwen2.5-7B-Instruct表现最佳,而现有开源医学领域大语言模型的性能相对较差。研究还发现,指令遵循能力较强的大语言模型在医学领域任务中具有更大的优势。本研究为医学领域大语言模型的选择和优化方向提供了重要参考。

关键词：大语言模型医学领域性能评测指令遵循开源模型

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

面向医学领域生成任务的大语言模型性能评测研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

面向医学领域生成任务的大语言模型性能评测研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索