检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]国防科学技术大学计算机学院,湖南长沙410073
出 处:《计算机工程与科学》2012年第7期60-64,共5页Computer Engineering & Science
基 金:国家863计划资助项目(2009AA011704);教育部"高性能微处理器技术"创新团队研究计划
摘 要:基于块匹配算法的运动估计是图像和视频应用中的关键技术。SAD运算是运动估计中最主要的运算形式,具有极高的计算复杂度和传输带宽需求。本文提出了一种可配置的SAD运算加速器结构,采用一个16×1规模的PE阵列和一个加法树结构加速SAD运算的执行。本文将PE阵列和加法树结构的流水线进行细致划分,有效提高了工作频率。加速器采用DMA事件机制,大部分的数据传输可以与SAD计算并行进行,减少了数据传输延迟引起的性能下降。实验结果显示,搜索16×16大小的搜索窗口,本文结构只需要4102个周期。基于SMIC0.13μm的CMOS标准单元工艺对本文结构进行综合,最高工作频率可达到750MHz,面积约为16.8k门和3.5KB的片上存储器。Block-matching based motion estimation is one of the most important techniques in image and video applications.The sum of absolute difference(SAD) is the major computation in motion estimation and requires huge computation complexity and transmission bandwidth.This paper proposes a reconfigurable SAD accelerator,in which a 16×1 processing elements(PE) array and an adder tree structure are used to improve the execution speed of SAD computation.The pipeline partition of PE array and adder tree is performed carefully in order to increase the work frequency.In order to reduce the performance loss caused by data transfer delay,a DMA event mechanism is employed to transmit data when the SAD accelerator is working.The experimental results show that,the proposed architecture needs 4102 cycles for searching a 16×16 search window.With a 0.13μm CMOS standard cell technology,the proposed accelerator requires only 16.8 k gates and 3.5 KB of memory at the 750MHz operation frequency.
分 类 号:TP302.2[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222