检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王豪杰 马子轩 郑立言 王元炜 王飞 翟季冬[1] WANG Haojie;MA Zixuan;ZHENG Liyan;WANG Yuanwei;WANG Fei;ZHAI Jidong(Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China)
机构地区:[1]清华大学计算机科学与技术系,北京100084
出 处:《清华大学学报(自然科学版)》2022年第5期943-951,共9页Journal of Tsinghua University(Science and Technology)
基 金:国家自然科学基金项目(U20A20226)。
摘 要:随着应用程序规模的增大,应用程序对计算资源的需求也日益增加,超级计算机为满足这一需求提供了良好的平台。传统的超级计算机主要面向科学计算程序,而近年来应用的多样化对超级计算机的软硬件设计提出了新要求。该文在新一代神威超级计算机上发现了在动态运行模式下内存分配的性能问题,并针对神威的体系结构特征和应用特征,设计了高效的内存分配器——SWAlloc。实验结果表明:SWAlloc可以将超大规模机器学习训练框架八卦炉的内存分配速度提升至多75 839倍;对随机生成的内存分配记录和标准测试程序集PARSEC中的内存分配记录的测试结果,验证了SWAlloc在不同应用上的通用性和高效性,可将神威超级计算机上PARSEC的内存分配效率提升至多51倍(平均提升36%)。SWAlloc已经布署于新一代神威超级计算机上,并用于SWPytorch、 SWTensorFlow等超大规模应用。Supercomputers provide enormous computing power for large applications. Traditional supercomputers have mainly targeted scientific computing problems. However, other applications have new requirements for the both supercomputer software and hardware designs. The New Generation Sunway supercomputer has an inefficient memory allocator when running in the dynamic mode. This study develops an efficient memory allocator, SWAlloc, that reduces the memory allocation time of the brain scale pretrained model training framework, BaGuaLu, by up to 75 839 times. Evaluations using PARSEC also show that SWAlloc can speed up the memory allocation by up to 51 times(36% on average). SWAlloc has been deployed on the New Generation Sunway supercomputer for use by various large applications, including SWPytorch and SWTensorFlow.
分 类 号:TP316[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.216.105.175