HPN:阿里云大模型训练网络架构  

HPN:Alibaba Cloud's Data Center Network A rchitecture for Large Language Model Training

在线阅读下载全文

作  者:钱坤 翟恩南 操佳敏 QIAN Kun;ZHAI Ennan;CAO Jiamin(Hangzhou AliCloud Apsara Information Technology,Hangzhou 310030,China)

机构地区:[1]杭州阿里云飞天信息技术有限公司,中国杭州310030

出  处:《中兴通讯技术》2024年第6期63-67,共5页ZTE Technology Journal

摘  要:介绍了阿里云用于大型语言模型(LLM)训练的数据中心网络架构高性能网络(HPN)。HPN通过双上联、多轨、双平面的网络架构设计,避免了单链路故障带来的严重连通性影响,并且避免了哈希极化的产生。实验表明,HPN将LLM训练的端到端性能提升超过14.9%。HPN已在阿里的生产环境中部署了超过1年。The Alibaba cloud's data center network architecture for high-performance network(HPN)used in the training of large language models(LLMs)is introduced.HPN is designed with a dual-top of rank(ToR),rail-optimized,and dual-plane architecture,which avoids se-vere connectivity impacts caused by single-link failures and prevents hash polarization.Experiments have shown that HPN improves the end-to-end performance of LLM training by over 14.9%.HPN has been deployed in Alibaba's production enviroment for over a year.

关 键 词:大模型训练 网络架构 数据中心网络 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象