马文静

作品数:9被引量:13H指数:2
导出分析报告
供职机构:中国科学院软件研究所更多>>
发文主题:处理器BLAS异构系统HPL数据依赖更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《计算机系统应用》《大气与环境光学学报》《软件学报》更多>>
所获基金:中国科学院战略性先导科技专项国家自然科学基金国家高技术研究发展计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-9
视图:
排序:
国产SW26010-Pro处理器上3级BLAS函数众核并行优化被引量:3
《软件学报》2024年第3期1569-1584,共16页胡怡 陈道琨 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 
国家重点研发计划(2020YFB0204601)。
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发...
关键词:BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率 
面向GPU平台的并行结构化稀疏三角方程组求解器被引量:1
《软件学报》2023年第11期4941-4951,共11页陈道琨 杨超 刘芳芳 马文静 
国家重点研发计划高性能计算重点专项(2020YFB0204601)。
稀疏三角线性方程组求解(SpTRSV)是预条件子部分的重要操作,其中结构化SpTRSV问题,在以迭代方法求解偏微分方程组的科学计算程序中,是一种较为常见的问题类型,而且通常是科学计算程序的需要解决的一个性能瓶颈.针对GPU平台,目前以CUSPA...
关键词:稀疏三角线性方程组求解(SpTRSV) 模板计算 结构化网格 GPU 异构并行算法 
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术被引量:1
《软件学报》2023年第9期4421-4436,共16页胡怡 陈道琨 杨超 刘芳芳 马文静 尹万旺 袁欣辉 林蓉芬 
国家重点研发计划(2020YFB0204601)。
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数...
关键词:BLAS 1级 BLAS 2级 访存带宽 SW26010-Pro众核处理器 RMA通信 点对点同步 自适应优化 
申威1621处理器上矩阵乘法优化研究被引量:2
《软件学报》2023年第7期3451-3463,共13页闫昊 刘芳芳 马文静 陈道琨 
国家重点研发计划(2020YFB0204601)。
稠密矩阵乘法(GEMM)是很多科学与工程计算应用中大量使用的函数,也是很多代数函数库中的基础函数,其性能高低对整个应用往往有决定性的影响.另外,因其计算密集的特点,矩阵乘法效率往往也是体现硬件平台性能的重要指标.针对国产申威1621...
关键词:矩阵乘法 缓存 分块算法 优化 数据预取 
复杂异构计算系统HPL的优化被引量:2
《软件学报》2021年第8期2307-2318,共12页黎雷生 杨文浩 马文静 张娅 赵慧 赵海涛 李会元 孙家昶 
中国科学院战略性先导科技专项(C类)(XDC01030200);国家重点研发计划(2018YFB0204404,2016YFB0200601);国家自然科学基金(11871455,11971016)。
当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(high performance Linpack)是高性能计算机评测的传统基准...
关键词:复杂异构系统 平衡点理论 panel分解加速 连续流水线算法 
面向异构计算机平台的HPL方案
《软件学报》2021年第8期2329-2340,共12页孙乔 孙家昶 马文静 赵玉文 
国家重点研发计划(2018YFB0204404);中国科学院战略性先导科技专项(C类)(XDC01030200)。
HPL(high performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工...
关键词:HPL(high performance Linpack) 多设备异构平台 并行计算 
国产异构系统上的HPCG并行算法及高效实现被引量:2
《软件学报》2021年第8期2341-2351,共11页刘芳芳 王志军 汪荃 吴丽鑫 马文静 杨超 孙家昶 
中国科学院战略性先导科技专项(C类)(XDC01030200);国家重点研发计划(2018YFB0204404,2016YFB0200603)。
HPCG基准测试程序是一种新的超级计算机排名度量标准.该测试基准主要用于衡量超级计算机解决大规模稀疏线性系统的能力,更贴近实际应用,近年来广受关注.基于国产超级计算机研究异构众核并行HPCG软件具有非常重要的意义,其不仅可以提升...
关键词:HPCG 国产超级计算机 图着色 SpMV SymGS 
面向相似App推荐的列表式多核相似性学习算法被引量:2
《计算机系统应用》2017年第1期116-121,共6页卜宁 牛树梓 马文静 龙国平 
相似App推荐可以有效帮助用户发现其所感兴趣的App.与以往的相似性学习不同,相似App推荐场景主要面向的是排序问题.本文主要研究在排序场景下如何学习相似性函数.已有的工作仅关注绝对相似性或基于三元组的相似性.本文建模了列表式的相...
关键词:相似App推荐 多核学习 相对相似性 相似性学习 列表式学习 
自适应光学数值仿真成像在GPU上的实现被引量:2
《大气与环境光学学报》2014年第3期237-243,共7页吴振华 唐秋艳 王中杰 马文静 龙国平 李玉成 
国家"863"计划基金项目(2012AA010902);国家自然科学基金青年基金项目(61100072);国家自然科学基金青年科学基金项目(61303059)资助
在自适应光学(AO)系统中,成像是不可或缺的一部分。AO仿真系统中的探测器和哈特曼-夏克波前传感器的成像过程一般用二维的离散卷积来计算,而通常它的数值算法用快速傅立叶变换(FFT)实现。但是随着矩阵维数的增加,卷积的运算量会...
关键词:自适应光学系统 成像 卷积 快速傅立叶变换 图形处理器 
检索报告 对象比较 聚类工具 使用帮助 返回顶部