检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术大学计算机系
出 处:《中国科学技术大学学报》2008年第7期854-859,共6页JUSTC
基 金:当代并行机的并行算法应用基础研究(60533020)资助
摘 要:在KD-50-I平台上,基于常用优化技术,根据龙芯2F体系结构的特点,在数据预取、指令调度方面,针对高性能计算机系统中能有效解决线性代数问题的子程序集合BLAS,提出了新的优化技术,充分发挥龙芯2F处理器的性能,实现了高性能的BLAS.实际测试表明,高性能BLAS在750 MHz的龙芯2F处理器(双精度浮点峰值3 Gflops)上HPL实测峰值达到1.47 GHz,比原始BLAS提高了6倍以上,比ATLAS提高了45%.BLAS are standard operations to efficiently solve the linear algebra problems on high performance computers. Some new optimization technologies on data prefetch and instruction scheduling developed specifically for Loongson 2F characteristics were proposed based on normal optimization technologies to give full play to develop the performance of Loongson 2F processer and implement a high performance BLAS on KD-50-Ⅰ platform. According to the experiments, the actual double float operation peak of high performance BLAS on 750 MHz Loongson 2F processor(double float peak 3 Gflops) can reach 1.47 GHz, which is more than 6 times higher than BLAS, and 45% higher than ATLAS.
关 键 词:BLAS 龙芯2F KD-50-Ⅰ 数据预取 指令调度
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7