文梅

作品数:35被引量:56H指数:4
导出分析报告
供职机构:国防科学技术大学更多>>
发文主题:流处理器流体系结构寄存器文件体系结构编译器更多>>
发文领域:自动化与计算机技术电子电信更多>>
发文期刊:《计算机研究与发展》《电子设计工程》《信息技术与信息化》《计算机学报》更多>>
所获基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金长江学者奖励计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
面向飞腾迈创DSP的自主软件栈设计
《计算机工程与科学》2024年第6期968-976,共9页时洋 陈照云 孙海燕 王耀华 文梅 扈啸 
飞腾迈创DSP是国防科技大学计算机学院为了突破卡脖子技术,解决我国相关重点领域内芯片长久受制于人的现实问题而自主设计的高性能数字信号处理器。由于该系列芯片采用全自主设计的指令集,无法兼容已有的软件,一套自主完备且高效的软件...
关键词:DSP 软件栈 编译器 调试器 自主芯片 
LPGEMM:低精度通用矩阵乘法计算模拟框架研究
《信息技术与信息化》2024年第2期108-113,共6页黄浩岚 罗铁清 文梅 曹亚松 时洋 
通用矩阵乘(GEMM)算子是AI模型的核心计算,使用低精度数值格式加速GEMM对加速模型的推理和训练有重要影响。由于并不总是有合适的硬件可供选择,而且人们可能希望实验尚未在硬件中实现的新GEMM计算行为,但很难通过构建硬件的方式去进行...
关键词:深度学习 用户探索模型 通用矩阵乘 低精度 
面向迈创+MatrixZone异构系统的深度学习编程框架被引量:1
《计算机工程与科学》2023年第7期1149-1158,共10页康宇晗 时洋 陈照云 文梅 
国家自然科学基金(62002366)。
为了满足深度学习模型迭代速度快、算力要求高的需求,主流硬件厂商愈发倾向于采用通用处理器+AI专用加速核的异构系统。但是,由于AI专用加速核仅支持部分核心算子,不具备通用编程能力,如何在这样的异构架构上完成深度学习任务的高效部...
关键词:深度学习 飞腾迈创 脉动加速器 异构系统 性能优化 
面向飞腾迈创数字处理器的内核代码自动生成框架
《计算机研究与发展》2023年第6期1232-1245,共14页赵宵磊 陈照云 时洋 文梅 张春元 
国家自然科学基金项目(62002366)。
数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入...
关键词:内核代码生成 超长指令字-单指令多数据 循环分块 标量-向量协同 数字信号处理器 
一种矩阵块间提前切换的脉动阵列优化策略
《计算机工程与科学》2023年第1期1-9,共9页鞠鑫 曹亚松 文梅 汪志 冯静 
国家自然科学基金(62002366)。
AI应用对硬件算力的需求逐年增加,驱使着AI加速器不断向更高的性能演化。研究表明,AI应用的主要运算形式可以转化为矩阵乘运算,脉动阵列因为在矩阵乘运算上的独特优势,使其成为了主流矩阵乘加速技术之一。然而,矩阵在注入和流出脉动阵...
关键词:脉动阵列 AI 矩阵乘 加速器 PE利用率 
一种基于DAG的网络流量调度器被引量:2
《计算机研究与发展》2021年第12期2798-2810,共13页时洋 文梅 费佳伟 张春元 
国家重点研发计划项目(2016YFB1000400);国家自然科学基金项目(61502509,61402504)。
在如今的数据中心中,各种分布式任务往往会对各种不同的资源进行竞争,特别是网络资源.如果没有有效的网络调度,那么这种竞争就会降低整个数据中心的运行效率.以往的网络资源调度研究由于忽视了任务里计算与网络需求之间的具体关系,对于...
关键词:数据中心网络 分布式任务 网络调度 并行计算 任务完成时间 有向无环图 
SAR成像应用特征分析及硬件设计空间讨论
《计算机工程与科学》2021年第3期398-406,共9页孔玺畅 文梅 蓝强 
国家自然科学基金(62002366,61802420)。
合成孔径雷达SAR是一种主动式的对地观测系统。近年来SAR逐渐朝着多平台化发展,陆续出现了在无人机、探测车等小型移动平台上。SAR成像是运行在SAR上的成像程序,由于新的特殊运行环境的出现、其对低能耗和高算力有了更严格的要求。如何...
关键词:SAR成像 并行运算 硬件设计 X86 算力配比 
以编译为导向的Matrix-DSP程序分析与优化被引量:2
《计算机工程与科学》2020年第10期1791-1800,共10页荀长庆 陈照云 文梅 孙海燕 马奕民 
国家重点研发计划(2018YFB0204301)。
数字信号处理器(DSP)在图像处理、自动化控制、信号处理等多个领域具有广泛应用。自主研发的Matrix DSP采用了典型的单指令多数据SIMD+超长指令字VLIW的向量化架构,因此面向该架构如何实现高效的向量化编程与优化是一项重要挑战。基于Ma...
关键词:Matrix DSP 向量化编程 程序优化 编译器 
面向网络报文转发的RISC-V压缩指令定制被引量:1
《计算机工程与科学》2018年第3期381-387,共7页吕倩茹 王彦鹏 曹壮 文梅 
"十三五"国家重点研发计划(2016YFB1000401);核高基重大转型"超级计算机处理器研发"(HGJ20152X01028101)
指令流发射和指令Cache失效是处理器能量耗散的两个重要原因。松耦合的RISC指令集所产生的程序加剧了这样的能耗,而在片上Cache有限的网络设备如路由器、交换机中,因为指令流而遭受的性能下降和功耗增加更为严重。面向网络报文转发这一...
关键词:压缩指令 网络报文转发 RISC-V 
CNN卷积计算在移动GPU上的加速研究被引量:5
《计算机工程与科学》2018年第1期34-39,共6页王湘新 时洋 文梅 
国家自然科学基金(61272145)
卷积神经网络(CNN)凭借其优秀的表现正在诸如图像分类、语音识别等领域里扮演着越来越重要的角色,已经有一些研究人员想要将这个深度学习过程复制到手机上。但是,由于CNN巨大的计算量,移植程序的性能一直难以令人满意。为了探讨如何解...
关键词:CNN 手机 移动GPU 快速算法 OPENCL 
检索报告 对象比较 聚类工具 使用帮助 返回顶部