检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:林新华[1,2] 王一超[1] 秦强[1] 李硕 文敏华[1] 松岡聡
机构地区:[1]上海交通大学高性能计算中心,上海200240 [2]东京工业大学 [3]Intel公司,美国波特兰or97124
出 处:《计算机工程与科学》2016年第9期1741-1747,共7页Computer Engineering & Science
基 金:国家863计划(2014AA01A302);日本学术振兴会RONPAKU Fellowship资助
摘 要:Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据。然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一。基于以上结论,针对vgather的性能建模可以帮助用户深入地掌握和理解Xeon Phi协处理器的性能特性。在实验方法上,本文方法与现存的通过程序段内嵌入汇编代码进行数据统计不同,使用PAPI等性能分析工具直接收集硬件计数器的统计结果,作为模型的实验数据。本文的性能模型基于AGI事件次数和根据VPU_DATA_READ次数估算得出的vgather所导致的平均延迟构建而成。该模型能够对Xeon Phi应用代码中由vgather所导致的总延迟进行预测。最终,为了验证模型预测的准确性,将该模型应用在三维7点stencil应用代码上,预测结果显示,vgather耗时占计算总耗时的约40%。再将该结果与利用intrinsics指令去除vgather后的计算耗时进行了对比验证,结果显示模型预测准确。基于上述结论,采用硬件计数器的统计结果在Xeon Phi协处理器上针对vgather构建了性能模型。同时,通过与其他平台的vgather对比,认为该模型也可以应用在同样具备vgather的Intel CPU处理器平台上。Vgather is a hardware-implemented vector instruction introduced by Intel Initial Many- Core Instructions (IMCI) for Xeon Phi. Its target is to help SIMD registers access data from non-contig- uous memory locations. However, experimental results show that it can also be one of the key perform- ance bottlenecks on Xeon Phi. We model the performance of Vgather by using the profiling tool PAPI to directly collect the results of hardware performance counters. Address Generation Interlock (AGI) e- vents are profiled as the number of Vgather and the average latency of Vgather are estimated with VPU _DATA_READ events based on which we model the total latencies of Vgather instructions. 3D7P sten- cils are used to evaluate our model and the results show that Vgather spents nearly 40~ of total kernel time. We implement a Vgather-free version with intrinsic instruction to validate this model. Our contri- bution includes modeling Intel IMCI vgather instruction with hardware counters and validating it by stencils. The model can also be applicable on CPUs.
关 键 词:性能建模 vgather XEON PHI 硬件计数器
分 类 号:TP303[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.47