龙芯

作品数:910被引量:789H指数:13
导出分析报告
相关领域:自动化与计算机技术经济管理更多>>
相关作者:郑臣明邵宗有刘新春杨晓君胡伟武更多>>
相关机构:中国科学院中国科学院大学曙光信息产业股份有限公司中国科学技术大学更多>>
相关期刊:更多>>
相关基金:国家高技术研究发展计划国家自然科学基金国家科技重大专项国家重点基础研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=小型微型计算机系统x
条 记 录,以下是1-10
视图:
排序:
一种龙芯平台上多媒体指令优化时地址非对齐问题的解决方案
《小型微型计算机系统》2021年第1期60-63,共4页李正平 程洋洋 
国家自然科学基金项目(40000009)资助;安徽省自然科学基金项目(10000007)资助;教育部新世纪优秀人才支持计划项目(NCET-00-0001)资助。
在龙芯平台多媒体指令优化过程中,通常用浮点存取指令存取需并行计算的整数.若这些整数存放在非自然对齐的内存地址上,会导致优化函数的性能显著下降.为了保证优化函数在访问非对齐数据时也有同样的性能,本文采用龙芯通用指令中的非对...
关键词:多媒体指令 非对齐数据 访存接口 接口自适应择优算法 
面向龙芯3B体系结构的FFTW库优化被引量:1
《小型微型计算机系统》2016年第3期622-626,共5页王小乐 顾乃杰 张明 
安徽省自然科学基金项目(1408085MKL06)资助
龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,...
关键词:FFTW 龙芯3B MIPS 向量化 
龙芯3B处理器上FFT算法向量化研究被引量:7
《小型微型计算机系统》2015年第7期1639-1643,共5页张杰 顾乃杰 张明 
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助;高等学校学科创新引智计划项目(B07033)资助
龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的....
关键词:龙芯3B 优化算法 FFT 向量化 
CPUAutoplug:动态变频与自动调核相结合的电源管理方法被引量:4
《小型微型计算机系统》2014年第11期2586-2592,共7页陈华才 张福新 王剑 
国家核高基科技重大专项(2009ZX01029-001-003)资助;江苏省重大科技成果转化专项资金项目(BA2011077)资助
随着技术的发展,性能不再是衡量计算机系统的首要指标,取而代之的是性能功耗比.电源管理是降低能耗,进而提升性能功耗比的重要途径.中央处理器(CPU)是计算机系统中的主要耗能部件,传统的运行时处理器电源管理方法主要是动态变频.在一...
关键词:CPUAutoplug 动态变频 自动调核 电源管理 龙芯 
面向龙芯3B1500体系结构的DGEMM函数优化被引量:3
《小型微型计算机系统》2014年第7期1523-1527,共5页刘刚 张恒 毛睿 陆克中 
国家"八六三"高技术研究发展计划项目(2012AA01A30904)资助;广东省院士工作站建设项目(2012B090500020)资助
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现...
关键词:龙芯3B1500处理器 BLAS DGEMM 矩阵乘法 数据预取 
LAPACK线性方程求解函数在龙芯3A上的并行化被引量:1
《小型微型计算机系统》2014年第5期1085-1089,共5页刘斌斌 顾乃杰 任开新 张杰 
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多...
关键词:LAPACK BLAS 龙芯3A 多核 
龙芯3B的SIMD编译优化及分析被引量:9
《小型微型计算机系统》2012年第12期2733-2737,共5页彭飞 顾乃杰 高翔 孙明明 
国家"核高基"重大专项课题项目(2009ZX01028-002-003-005)资助;国家自然科学基金项目(60833004)资助
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B...
关键词:编译优化 SIMD 自动向量化 Builtin 龙芯3B 
面向龙芯3A体系结构的BLAS库优化被引量:8
《小型微型计算机系统》2012年第3期571-575,共5页何颂颂 顾乃杰 朱海涛 刘燕君 
国家"八六三"高技术研究发展计划项目(2008AA010902)资助;国家自然科学基金项目(60833004)资助
双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替...
关键词:矩阵乘法 BLAS 任务划分 LINPACK 
龙芯3A处理器上FFT的高效实现被引量:6
《小型微型计算机系统》2012年第3期594-597,共4页郭利财 刘燕君 
国家自然科学基金项目(60833004)资助;国家"八六三"高技术研究发展计划项目(2008AA010902)资助
FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令...
关键词:龙芯3A FFT 性能优化 KD-60 
一种多倍数据供应的编译优化方法
《小型微型计算机系统》2011年第11期2280-2284,共5页彭飞 顾乃杰 高翔 孙明明 
国家"核高基"重大专项课题项目(2009ZX01028-002-003-005)资助;国家自然科学基金项目(60833004)资助
数据的快速及时供应对访存密集型程序的性能有着直接的影响.提出一种多倍数据供应MDS(Multiple Data Supply)的编译优化方法,在不增加处理器设计复杂度的前提下,利用现有处理器的高带宽,一次对内存进行多个数据的读写,减少访存次数,提...
关键词:编译优化 MDS多倍数据供应 自动向量化 RAC替换算法 龙芯3A 
检索报告 对象比较 聚类工具 使用帮助 返回顶部