揭秘DeepSeek 一个更极致的中国技术理想主义故事  

在线阅读下载全文

作  者:于丽丽 

机构地区:[1]不详

出  处:《科学大观园》2025年第5期20-27,共8页Grand Garden of Science

摘  要:DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%~13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。

关 键 词:注意力机制 模型架构 显存 全方位创新 理想主义 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象