检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张宗茂 董德尊[1] 王子聪 常俊胜[1] 张晓云 王绍聪 ZHANG Zong-mao;DONG De-zun;WANG Zi-cong;CHANG Jun-sheng;ZHANG Xiao-yun;WANG Shao-cong(College of Computer Science and Technology,National University of Defense Technology,Changsha 410073,China)
机构地区:[1]国防科技大学计算机学院,湖南长沙410073
出 处:《计算机工程与科学》2024年第9期1521-1528,共8页Computer Engineering & Science
基 金:湖南省杰出青年科学基金(2021JJ10050);国防科技大学科研计划项目(ZK22-23)。
摘 要:便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算过程中对稠密输入向量的不规则访问操作会导致大量Cache访问请求失效,从而影响SpMV算法执行效率。为了评估便笺式存储器对SpMV向量算法的性能影响,使用ARM SVE指令对基于CSR格式的SpMV算法向量化,并将算法中的热点数据即稠密输入向量存储在便笺式存储器中,在集成了便笺式存储器的ARM架构处理器中对SpMV向量算法进行了性能分析。在gem5模拟器中针对来自真实应用程序的2562个稀疏矩阵进行了实验。实验结果表明,集成了便笺式存储器的处理器与传统多级Cache处理器相比,针对向量化SpMV算法能够实现的最大加速比为7.45,平均加速比为1.11。Scratchpad memory(SPM),as an on-chip high-speed memory with a simple structure,fixed access latency,and direct software control,has been widely used in modern processor design.Sparse matrix vector multiplication(SpMV)is one of the critical kernel computation functions in high performance computing,artificial intelligence,and other application domains.In traditional multi-level cache processors,the irregular access operations of dense input vectors during the computation of the SpMV algorithm often lead to a significant number of cache misses,thereby affecting the execution efficiency of the SpMV algorithm.To evaluate the performance impact of scratchpad memory on the SpMV vector algorithm,this paper utilizes ARM s scalable vector extension(SVE)instructions to vectorize the SpMV algorithm based on the compressed sparse row(CSR)format.It stores the hot data,namely the dense input vectors,in the scratchpad memory and conducts a performance analysis of the SpMV vector algorithm on ARM-based processors integrated with scratchpad memory.This paper conducts experiments on 2562 sparse matrices from real-world applications using the gem5 simulator.The experimental results show that,compared to traditional processor architectures,running the SpMV vector algorithm on the processor architecture integrated with scratchpad memory can achieve a maximum speedup of 7.45 times and an average speedup of 1.11 times.
关 键 词:稀疏矩阵向量乘 便笺式存储器 CSR ARM SVE
分 类 号:TP302[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49