低面积低功耗的机器学习运算单元设计  被引量:2

An area and power-efficient machine learning functional unit

在线阅读下载全文

作  者:周聖元 杜子东 刘道福[1,3] 支天 陈云霁 Zhou Shengyuan;Du Zidong;Liu Daofu;Zhi Tian;Chen Yunji(State Key Laboratory of Computer Architecture,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049;Cambricon Tech. Ltd,Shanghai 201203)

机构地区:[1]中国科学院计算技术研究所计算机体系结构国家重点实验室,北京100190 [2]中国科学院大学,北京100049 [3]上海寒武纪信息科技有限公司,上海201203

出  处:《高技术通讯》2019年第1期12-18,共7页Chinese High Technology Letters

基  金:国家重点研发计划(2017YFA0700900;2017YFA0700902;2017YFA0700901;2017YFB1003101);国家自然科学基金(61472396;61432016;61473275;61522211;61532016;61521092;61502446;61672491;61602441;61602446;61732002;61702478;61732020);北京市自然科学基金(JQ18013);973计划(2015CB358800);"核心电子器件;高端通用芯片及基础软件产品"科技重大专项(2018ZX01031102);中国科学院科技成果转移转化重点专项(KFJ-HGZX-013);中国科学院战略性先导科技专项(B类)(XDBS01050200)资助项目

摘  要:随着机器学习(ML)算法的日益流行,研究人员提出了很多专用于机器学习算法的加速器。然而,这些加速器会被其特定用途的狭窄范围所限制。另外,尽管芯片制造工艺有所提高,但是待处理问题规模的急剧增大依然加剧了这些机器学习加速器的低效程度。针对这种现象,本文研究了4种流行的机器学习算法——k-近邻算法(k-NN),k-均值算法(k-Means),支持向量机(SVM)和逻辑回归(LR),并对这些算法中最为耗时的运算部分进行了深入分析,此外,还针对数据位宽对运算精度、硬件开销的影响进行了分析。根据以上分析,本文设计了一款可以支持多种机器学习算法的运算单元,该运算单元混合使用16位浮点数和32位浮点数的运算器,实现了低面积、低功耗的需求。实验结果表明,本文提出的运算单元可以在几乎不损失正确率的情况下,减少69. 80%的总面积开销以及68. 98%的总功耗开销。With the increasing popularity of machine learning(ML)techniques,many dedicated ML accelerators have been proposed.However,such accelerators are still limited by their narrow scope for their specified purposes.Moreover,despite restricted improvements from silicon technology,the expanding scale of problems exacerbates the inefficiency of proposed ML accelerators.In this paper,we thoroughly analyze the most time-consuming parts of four popular ML algorithms,i.e.,k-nearest neighbors(k-NN),k-Means,support vector machine(SVM)and logistic regression(LR).In addition,in order to achieve higher area and power efficiency,we further study the effect of data-width on accuracy and hardware overheads.Based on the analysis,we propose a functional unit accommodating various ML algorithms,which consists of mixed-bit floating point operators--including both 16-bit floating point operators and 32-bit floating point operators.The results of the experiments show that the proposed functional unit can reduce 69.80%of total area consumption and 68.98%of total power consumption with little accuracy loss.

关 键 词:机器学习(ML) 运算单元 加速器 低面积 低功耗 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象