新型的FPGA器件将支持多样化AI/ML创新进程

发布者:考古专家最新更新时间:2024-03-28 作者: 郭道正 :Achronix半导体中国区总经理关键字:FPGA  AI  ML 手机看文章 扫描二维码
随时随地手机看文章

近日举办的GTC大会把人工智能/机器学习(AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代的来临,而是包括GPU、FPGA和NPU等一众数据处理加速器时代的来临,就像GPU以更高的计算密度和能效胜出CPU一样,各种加速器件在不同的AI/ML应用或者细分市场中将各具优势,未来并不是只要贵的而是更需要对的。


此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点,它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。在其他算力器件品种中也是如此,AI/ML计算尤其是推理应用需要一种专为高带宽工作负载优化的新型FPGA,下面我们以Achronix的Speedster7t FPGA芯片为例来看看技术的演进方向,以及在实际推理应用中展现出来的在性价比和能效比等方面优于先进GPU的特性。


先来快速看看Speedster7t的产品亮点:该器件集成了800K到1500K等效逻辑单元以及326K到692K 6输入查找表(LUT),高达120T算力的机器学习处理单元(MLP),同时还配备了高性能存储和I/O接口,以及最高可达190Mb的嵌入式存储容量。在外部连接接口部署上,Speedster7t包含16个GDDR6通道,可提供高达4 Tbps的高速存储带宽;32对SerDes通道,支持1-112Gbps的数据速率;4个400G以太网端口(4× 400G或16× 100G)和2个PCIe Gen5端口,支持16通道(×16)和8通道(×8)配置。


Achronix的Speedster7t FPGA芯片被用户认为非常适合AI/ML推理原因是: 足够的算力,灵活可配的计算精度;高带宽大容量低成本的GDDR6(4Tbps带宽, 32GB容量);革命性的全新二维片上网络(2D NoC)路由架构;灵活通用的芯片间互联; 支持用户基于该芯片开发自定义的推理系统,比如单板多片FPGA甚至多板互联以组成更高性能(如1TBbps/64GB,2TBbps/128GB, 4TBbps/256GB…等更高带宽和更大容量的计算存储)以支持更大或超大模型推理部署。 


简而言之,相比传统的推理算力平台,Speedster7t FPGA可以提供更高性价比和能耗比的大模型推理能力; 另外,在传统的FPGA处理功能中,越来越多的用户在该系统中加入机器学习的能力, Speedster7t FPGA能很好胜任传统FPGA功能和高性能机器学习融合在一起。


一类创新性的高性能FPGA系列产品


Achronix Speedster®7t系列FPGA基于革命性的FPGA架构,该架构经过了高度优化提供了高速、高带宽内外连接,可以满足日益增长的人工智能/机器学习、网络密集型和数据加速应用的需求。Speedster7t系列FPGA芯片具有一个革命性的全新二维片上网络,以及一个针对人工智能/机器学习进行优化的高密度的机器学习处理单元阵列。通过将FPGA的可编程性与类似ASIC路由架构和计算引擎相结合,Speedster7t系列提高了高性能FPGA的标准。


全新的二维片上网络(2D NoC)提供ASIC级别的性能


Speedster7t系列FPGA芯片具有革命性的2D NoC,可在整个FPGA逻辑阵列中传输数据,并将数据传输到高性能I/O和内存子系统,同时可提供高达20 Tbps的总带宽。凭借2D NoC,在Speedster7t FPGA芯片不需要消耗任何可编程逻辑资源的情况下来进行数据传输。在该芯片上的2D NoC提供了20 Tbps的二维片上网络总带宽;该2D NoC不仅覆盖了芯片全域,而且还连接到各类高速接口和总带宽高达4 Tbps的高速存储接口。


高速接口


无论是支持输入和输出的数据流,还是存储缓冲这些数据,对于高性能计算、机器学习和硬件加速解决方案而言,都需要在片内和片外传输数据。Speedster7t系列FPGA芯片的架构可支持前所未有的带宽。包括:


400G以太网:Speedster7t系列FPGA芯片支持多达4个400GbE端口或16个100GbE端口,通过2D NoC连接到FPGA逻辑。


PCI Express Gen5:Speedster7t系列FPGA芯片配备了多个PCle Gen5接口,支持速率达32GT/s。


存储接口:GDDR6 + DDR4/5


Speedster7t器件是唯一在片上支持GDDR6存储器的FPGA,以最低的DRAM成本(每存储位)提供最快的SDRAM访问速度。Speedster7t系列FPGA芯片具有高达4 Tbps的GDDR6带宽,以很低的成本就可提供相当于基于HBM的FPGA存储器带宽。Speedster7t系列FPGA芯片包括了DDR4/5存储器接口,以支持更深入的缓冲需求。PHY和控制器支持由JEDEC规范定义的所有标准功能。


机器学习处理单元


每个Speedster7t FPGA器件都具有可编程的数学计算单元,这些单元被集成至全新的机器学习处理单元(MLP)模块中。每个MLP都是一个高度可配置的计算密集型模块,具有多达32个乘法器/累加器(MAC),支持4到24位整数格式和各种浮点模式,包括Tensorflow的bfloat16格式以及高效的块浮点格式,大大提高了性能。


MLP模块包括紧密集成的嵌入式存储器模块,以确保机器学习算法将以750 MHz的最高性能运行。这种高密度计算和高性能数据传输的结合造就了高性能机器学习处理结构,该结构可提供市场上基于FPGA的极高TOPS级别运算能力(TOPS即Tera-Operations Per Second,每秒万亿次运算)。


图中文字说明:Register File - 寄存器文件,Fracturable Adder/Accumulator - 可拆分的加法器/累加器,Float MAC - 浮点乘累加单元(MAC),Memory Cascade in - 存储器级联,Operand Cascade in - 操作数级联。


设计工具支持


Achronix Tool Suite工具套件是一个支持所有Achronix硬件产品的工具链。它可与行业标准的逻辑综合和仿真工具结合使用,从而使FPGA设计人员能够轻松地将其设计映射到Speedster7t FPGA器件中。Achronix Tool Suite工具套件包括Synopsys的Synplify Pro的优化版本和Achronix Snapshot调试器。Achronix仿真库由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO提供支持。


展望:在推理等领域帮助开发者打造综合性能优于先进GPU的应用


随着AI/ML技术在各个领域开始广泛走进应用,Achronix根据Speedster7t FPGA器件的高性能和高带宽特性,选择了推理这一个应用面非常广的技术市场方向,与合作伙伴加大了在Speedster7t FPGA器件上的推理算法和IP的研发,以期帮助更多的创新者实现突破。


该芯片提供了足够的算力,并利用其片上搭载的二维片上网络(2D NoC)和机器学习处理单元(MLP),各种高速接口和GDDR6高带宽存储接口,提供了用于大规模推理应用需要的计算器件内外连接、硬件加速和存储调用等新技术,从而可以支持开发者快速去实现创新。


这个策略取得了显著的成果,其中一个领域是加速自动语言识别(ASR)解决方案,它由搭载Speedster7t FPGA器件的VectorPath加速卡提供支持,运行Myrtle.ai提供的基于Achronix FPGA的ASR IP,从而提供业界领先的、实时的、超低延迟的语音转文本功能。运行在服务器中的单张VectorPath加速卡可替代多达20台仅基于CPU的服务器或10张GPU加速卡。


Speedster7t FPGA的技术创新为人工智能推理带来了更高性价比和更高能效比以及可以让用户开发自定义的推理硬件平台和系统。 在ASR实际性能方面,其出色的超低单词错误率和仅有最先进GPU解决方案八分之一以下的端到端延迟(包括了预处理和后处理以及与CPU做数据交互的时间)颠覆了ASR领域。该解决方案可以在标准的机器学习框架中使用垂直应用特定的或自定义的数据集进行定制或重新训练。


对于越来越多的其他的推理应用,Speedster7t FPGA的独创高带宽架构也可以为这些应用提供有力的支撑。Achronix正在通过不断研发,以完善其工具链和应用生态,将在2024年推出更好的工具来帮助各种推理应用的开发,使众多的用户更加便捷地使用Speedster7t FPGA器件或者VectorPath加速卡来实现性价比和能效提升,而不用去争抢紧俏的高性能GPU加速卡。



关键字:FPGA  AI  ML 引用地址:新型的FPGA器件将支持多样化AI/ML创新进程

上一篇:Efinix推出车规级集成RISC-V内核的FPGA
下一篇:莱迪思全新版本Radiant设计软件拓展功能安全特性

推荐阅读最新更新时间:2026-03-24 20:42

贸泽开售ROHM Semiconductor ML63Q25x AI MCU 助力实现更高效可靠的自动化、机器人及智能应用
2025年12月9日 – 专注于引入新品的全球电子元器件和工业自动化产品授权代理商贸泽电子 (Mouser Electronics) 即日起开售ROHM Semiconductor的ML63Q25x系列AI微控制器 (MCU)。 这些先进的MCU专为工业自动化、仪器仪表、机器人、消费电子和智能家居系统而设计,可实现实时、独立于网络的AI监控和预测性维护。 ML63Q25x系列可在设备故障发生前进行设备异常检测和学习,从而提高系统稳定性,同时降低维护成本和生产线停机时间。这些MCU利用ROHM专有的Solist-AI™技术,采用简单的三层神经网络算法,直接在设备上执行AI推理,从而消除了云连接要求,降低了延迟和安全风险。 所
[半导体设计/制造]
贸泽开售ROHM Semiconductor <font color='red'>ML</font>63Q25x <font color='red'>AI</font> MCU  助力实现更高效可靠的自动化、机器人及智能应用
MCU AI/ML - 弥合智能和嵌入式系统之间的差距
人工智能(AI)和机器学习(ML)是使系统能够从数据中学习、进行推理并随着时间的推移提高性能的关键技术。 这些技术通常用于大型数据中心和功能强大的GPU,但在微控制器(MCU)等资源受限的器件上部署这些技术的需求也在不断增加。 本文将探讨MCU技术和AI/ML的交集,以及它如何影响低功耗边缘设备。同时将讨论在电池供电设备的MCU上运行人工智能的困难、创新和实际应用场景。 AI/ML和MCU:简要概述 人工智能创建的计算机系统可以执行类似人类的任务,例如理解语言、寻找模式和做出决定。机器学习是人工智能的一个子集,涉及使用算法让计算机从数据中学习并随着时间的推移不断改进。机器学习模型可以寻找模式、排序对象、并从示例中预测结
[嵌入式]
人工智能 (AI) 和机器学习 (ML) – 传统汽车控制领域如何受到影响
引言 实际上,“人工智能(AI)”并没有明确的科学定义,但是一种普遍的理解是将AI 被人类观察到的学习系统作为“智能”。很难更加明确的描述其定义,因为“智能”一词已经缺乏明确的合理性。 在汽车领域,在当今和未来具有代表性且广为人知的AI相关功能应用在自动驾驶(AD)领域。这包含了物体感知、物体识别以及对结果反应的决策。这些应用通常需要很高的计算能力(100k DMIPS级别范围内)。 图像 图 1 说明更高级别的感知将如何随着时间的推移从人类驾驶员转向使用人工智能(AI)和机器学习(ML)的自动驾驶技术。(来源:NSITEXE, Inc.,2021) 较低的应用层与传统的实时执行器控制有关,如推进、转向和制动等“车辆运动”
[嵌入式]
<font color='red'>人工智能</font> (<font color='red'>AI</font>) 和机器学习 (<font color='red'>ML</font>) – 传统汽车控制领域如何受到影响
AI/ML赋能的玻璃破碎传感器:智能家居安防的新突破
摘自Silicon Labs博客 在智能家居与物联网(IoT)技术迅猛发展的今天,对高精度、低功耗且具备智能识别能力的传感器需求日益增长。作为家庭和商业安全系统的重要组成部分,玻璃破碎传感器正成为入侵检测的第一道防线。 传统的玻璃破碎检测方法依赖于声学或冲击传感技术,但存在误报率高、安装复杂及成本较高等问题。而随着人工智能(AI)与机器学习(ML)技术的引入,新一代传感器正在重新定义这一领域的性能标准。 传统玻璃破碎传感器的局限性 目前市面上常见的玻璃破碎传感器主要分为两类: 声学传感器: 利用麦克风捕捉特定频率范围内的声音信号,通过电平阈值判断是否发生玻璃破碎。然而,像门铃声、餐具碰撞、说话甚至音乐等环境噪音
[嵌入式]
<font color='red'>AI</font>/<font color='red'>ML</font>赋能的玻璃破碎传感器:智能家居安防的新突破
罗德与施瓦茨携手英伟达,AI/ML赋能神经接收器测试技术再攀高峰
罗德与施瓦 茨 (以下简称“R&S”)与英伟达(NVIDIA)携手合作,在AI驱动的无线通信研究领域取得技术突破。 双方在MWC 2025大会上展示一项创新性概念验证,该技术融合数字孪生和高保真光线追踪技术,为5G-A和6G神经接收器提供更贴近真实场景的测试方案,助力下一代通信技术的快速发展。 图:R&S与英伟达合作在MWC2025大会上展示的基于AI/ML的神经接收器 R&S在AI驱动的无线通信领域再创佳绩,其最新成果聚焦神经接收器的设计与测试。在MWC 2025大会上,R&S与英伟达联合展示一项突破性技术验证。该方案通过整合数字孪生和高保真光线追踪技术,构建了一个强大的测试框架,能够在真实传播环境下对5G-A和6
[测试测量]
罗德与施瓦茨携手英伟达,<font color='red'>AI</font>/<font color='red'>ML</font>赋能神经接收器测试技术再攀高峰
全新Reality AI Explorer Tier, 免费提供强大的AI/ML开发环境综合评估“沙盒”
包含Reality AI Tools®的自动AI模型构建、验证和部署模块,以及教程、应用示例与电子邮件支持 2024 年 7 月 16 日,中国北京讯 - 全球半导体解决方案供应商瑞萨电子今日宣布推出Reality AI Explorer Tier——作为Reality AI Tools®软件的免费版本,可用于开发工业、汽车和商业应用中的AI与TinyML解决方案 。 新推出的Reality AI Explorer Tier为用户提供免费的、全面的自助式评估沙盒访问权限。符合条件的客户现在可以访问Reality AI Tools的全部功能,包括自动化AI模型构建、验证和部署模块。Reality AI Explorer
[嵌入式]
全新Reality <font color='red'>AI</font> Explorer Tier,  免费提供强大的<font color='red'>AI</font>/<font color='red'>ML</font>开发环境综合评估“沙盒”
​IAR为瑞萨RA8系列提供全面支持,协助AIML开发
IAR Embedded Workbench for Arm 已为瑞萨RA8系列MCU开发提供支持,RA8是首款采用了搭载Arm Helium技术的Arm® Cortex®-M85处理器的系列产品 瑞典乌普萨拉 , 2023 年 1 1 月 1 日 – 嵌入式开发软件和服务的全球领 导 者 IAR 今日 宣布 ,其 最新 发布 的 IAR Embedded Workbench for Arm 9.40.2 版本 中 无缝集成 了对 瑞萨( Renesas ) RA8 MCU 的支持 , 为基于 Arm® Cortex®-M85 的 RA8 系列芯片 的开发 提供了 全套解决方案 。
[嵌入式]
​IAR为瑞萨RA8系列提供全面支持,协助<font color='red'>AI</font>和<font color='red'>ML</font>开发
SiFive 宣布推出针对生成式 AI/ML 应用的差异化解决方案,引领 RISC-V 进入高性能创新时代
P870 和 X390 全新登场:适用于基础设施、消费电子和汽车应用领域的高性能计算 美国加州圣克拉拉,2023 年10 月11 日– RISC-V 运算的先驱和领导厂商 SiFive, Inc. 今天宣布推出两款新产品,旨在满足高性能运算的最新需求 。SiFive Performance™ P870 和 SiFive Intelligence™ X390 提供最新水准的低功耗、运算密度和矢量运算能力,三者结合起来将为日益增长的资料密集型运算提供必要的性能提升。这些新产品共同创建了标量和矢量运算的强大组合,可满足现今数据流和运算密集型人工智能应用于消费性、车用和基础设施市场的需求。 在圣克拉拉举行的现场新闻和分析师活
[嵌入式]
SiFive 宣布推出针对生成式 <font color='red'>AI</font>/<font color='red'>ML</font> 应用的差异化解决方案,引领 RISC-V 进入高性能创新时代
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved