大模型知识蒸馏方法研究进展  

Knowledge distillation methods for large models:a research review

在线阅读下载全文

作  者:李通 羊红光 刘康 路凯[1] 刘龙[1] LI Tong;YANG Hongguang;LIU Kang

机构地区:[1]西安理工大学,陕西西安710048

出  处:《河北省科学院学报》2025年第2期94-96,共3页Journal of The Hebei Academy of Sciences

摘  要:深度神经网络(DNNs)在各类任务中取得了显著成就。然而,高性能深度神经网络模型往往包含大量的参数,在推理阶段存在巨大的计算开销。大模型知识蒸馏技术将大型、复杂模型(教师模型)的知识迁移到较小、高效模型(学生模型)中,显著降低了模型的计算和存储需求。DeepSeek的成功让蒸馏技术愈加引人瞩目。OpenAI基于GPT-4o蒸馏出的专用小模型GPT-4o-mini具有很好的效果。

关 键 词:计算开销 知识蒸馏 大模型 深度神经网络 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象