检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李垠桥 阿敏巴雅尔 肖桐 薄乐 朱靖波 张俐 LI Yinqiao;HAN Ambyer;XIAO Tong;BOLe;ZHU Jingbo;ZHANG Li(NLP Laboratory,Northeastern University,Shenyang,Liaoning 110819,China)
机构地区:[1]东北大学自然语言处理实验室,辽宁沈阳110819
出 处:《中文信息学报》2018年第7期37-43,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金(61672138);国家自然科学基金(61432013);中央高校基本科研业务费
摘 要:数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIA TITAN X(Pascal)GPU设备在循环神经语言模型上进行训练,两种方法分别可获得约25%和41%的速度提升。同时,该文还针对数据并行方法的适用性以及不同的硬件设备连接方式对传输速度的影响进行了讨论。Data parallelism aims at reducing time consumption without changing network structure while training neural language model.However,the result is not satisfactory due to frequent data transmission between multiple devices.In this paper,we compare the effect of gradient update strategies based on the All-Reduce algorithm and the sampling-based approach in data transmission.On four NVIDIA TITAN X(Pascal)GPUs,they achieve an acceleration rate of 25% and 41%,respectively.We also discuss the applicability of data parallelism and influence of hardware connection mode.
关 键 词:数据并行 神经语言模型 All-Reduce 采样
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28