历史上的今天

今天是:2025年08月14日(星期四)

正在发生

2020年08月14日 | 技术文章:详解FPGA如何实现FP16格式点积级联运算

发布者:硬件实验室 来源: EEWORLD作者: 杨宇关键字:FPGA  Achronix 手机看文章 扫描二维码
随时随地手机看文章

摘要:通过使用Achronix Speedster7t FPGA中的机器学习加速器MLP72,开发人员可以轻松选择浮点/定点格式和多种位宽,或快速应用块浮点,并通过内部级联可以达到理想性能。


神经网络架构中的核心之一就是卷积层,卷积的最基本操作就是点积。向量乘法的结果是向量的每个元素的总和相乘在一起,通常称之为点积。此向量乘法如下所示:

image.png?imageView2/2/w/550 

图 1 点积操作


该总和S由每个矢量元素的总和相乘而成,因此s=a1b1+a2b2+a3b3+...本文讲述的是使用FP16格式的点积运算实例,展示了MLP72支持的数字类型和乘数的范围。


此设计实现了同时处理8对FP16输入的点积。该设计包含四个MLP72,使用MLP内部的级联路径连接。每个MLP72将两个并行乘法的结果相加(即aibi+ai+1bi+1),每个乘法都是i_a输入乘以i_b输入(均为FP16格式)的结果。来自每个MLP72的总和沿着MLP72的列级联到上面的下一个MLP72块。在最后一个MLP72中,在每个周期上,计算八个并行FP16乘法的总和。

最终结果是多个输入周期内的累加总和,其中累加由i_first和i_last输入控制。 i_first输入信号指示累加和归零的第一组输入。 i_last信号指示要累加和加到累加的最后一组输入。最终的i_last值可在之后的六个周期使用,并使用i_last o_valid进行限定。两次运算之间可以无空拍。


  • 配置说明

image.png?imageView2/2/w/550 

表 1 FP16点积配置表


  • 端口说明

image.png?imageView2/2/w/550 

表 2 FP16点积端口说明表


  • 时序图

image.png?imageView2/2/w/550 

图 2 FP16点积时序图


其中,


image.png?imageView2/2/w/550

 

那么,以上运算功能如何对应到MLP内部呢?其后的细节已分为MLP72中的多个功能阶段进行说明。


  • 进位链


首先请看下图,MLP之间的进位链结构,这是MLP内部的专用走线,可以保证级联的高效执行。

image.png?imageView2/2/w/550 

图 3 MLP进位链


  • 乘法阶段


下图是MLP中浮点乘法功能阶段,其中寄存器代表一级可选延迟。

image.png?imageView2/2/w/550 

图 4 MLP乘法功能阶段框图


MLP72浮点乘法级包括两个24位全浮点乘法器和一个24位全浮点加法器。两个乘法器执行A×B和C×D的并行计算。加法器将两个结果相加得到A×B + C×D。


乘法阶段有两个输出。下半部分输出可以在A×B或(A×B + C×D)之间选择。上半部分输出始终为C×D。


乘法器和加法器使用的数字格式由字节选择参数以及和参数设置的格式确定。 


浮点输出具有与整数输出级相同的路径和结构。MLP72可以配置为在特定阶段选择整数或等效浮点输入。输出支持两个24位全浮点加法器,可以对其进行加法或累加配置。 进一步可以加载加法器(开始累加),可以将其设置为减法,并支持可选的舍入模式。


最终输出阶段支持将浮点输出格式化为MLP72支持的三种浮点格式中的任何一种。 此功能使MLP72可以外部支持大小一致的浮点输入和输出(例如fp16或bfloat16),而在内部以fp24执行所有计算。

image.png?imageView2/2/w/550 

图 5 MLP浮点输出阶段框图


需要强调的是本设计输入和输出都是FP16格式,中间计算过程,即进位链上的fwdo_out和fwdi_dout 都是FP24格式。具体逻辑框图如下所示:

image.png?imageView2/2/w/550 

图 6 FP16点积逻辑框图


MLP内部数据流示意图:

image.png?imageView2/2/w/550 

图 7 FP16点积在MLP内部数据流图


最终ACE的时序结果如下:


image.png?imageView2/2/w/550 



关键字:FPGA  Achronix 引用地址:技术文章:详解FPGA如何实现FP16格式点积级联运算

上一篇:大陆集团投资建立自动驾驶用人工智能超级计算机
下一篇:​Socionext开发出弱光条件下的目标检测

推荐阅读

   全国各地虽然都进入了炎炎夏日,但放假的学生党依然按捺不住躁动的心,在全国各地开始了夏季旅行。而暑假出门旅行,手机续航是非常影响体验的因素,如果手机没电“自动关机”是非常掉链子的。目前一些上市手机逐步开始跨入4000mAh时代了,如果你正打算在这最近换机,追求长续航,买它们就对了。接下来,新浪手机就为大家介绍几款4000mAh起长续航手机...
今年7 月,应西藏拉萨供电公司邀请,国网泰州供电公司输电无人机巡检团队对藏中电力联网工程500 千伏朗许线等线路进行无人机全自主智能巡检测试。测试全程采用大疆无人机,成功达成各项考验指标。这是我国首次在雪域高原实现无人机全自主电力巡检,充分验证了高海拔地区自主巡检的可行性。“电力天路”作业难相较于平原地区,高原地区巡检作业条件尤其艰...
据BusinessKorea报道,三星电子今(13)日宣布,公司的3D封装技术已通过测试,将立即运用在7nm、5nm制程上。图源:BusinessKorea该报道称,三星的3D 封装技术命名为“X-Cube”,借助三星TSV技术,X-Cube在速度和功率方面实现了重大飞跃,能够满足5G、人工智能、高性能计算,移动和可穿戴设备的严格性能要求。据悉,X-Cube这项技术可让芯片工程师们在进行...
小米X4发布会接近尾声的时候,雷军向大家介绍了小米内部的一个探索概念项目——四足仿生机器人CyberDog。CyberDog汇集小米11年的技术沉淀,是工程师文化和创新精神的深度凝结,也是小米对于未来科技生活的再次探索。CyberDog搭载高精度环境感知系统,全身11个高精度向大脑实时传输信息,还原更真实的生物反应。CyberDog有一个中文名字,叫“铁蛋”,小米工...

史海拾趣

小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved