汽车领域拥抱Transformer需要多少AI算力？-电子工程世界

Transformer在汽车领域应用自然是针对视觉的，ChatGPT3这种至少需要八张英伟达A100显卡的大模型是绝对无法出现在汽车上的。视觉类的Transformer以微软亚洲研究院的Swin Transformer和谷歌大脑的ViT为代表。Swin Transformer出现较早，其出现证明Transformer能大幅超越CNN，即SOTA。

Transformer特别适合多种分类的语义分割应用，而语义分割又是OccupancyNetwork的关键。语义分割方面，即使训练数据不多，Transformer也能压倒CNN或FPN。如果是简单的目标检测，训练数据不多的情况下，CNN基本不落下风。

汽车领域拥抱Transformer需要多少AI算力？AI算力需求与输入像素数和模型参数关系最为密切，要计算AI算力需求，有一个关键的名词：token，其在自然语言处理（NLP）里指最小的词；在图像领域，指patch，即最小的图像“块”，而tokenization是指将输入的语言或图像切割为token的过程，通常transformer是16*16像素，这个自然是像素越小越好，一句话分词分的越细，这句话的语义也就更准确，一句话分的越粗，语义偏差就可能越大。据此经简化计算，200万像素所包含的token数就是大约1万个。800万像素就是大约4万个。

Transformer结构图

980cb8e8-3ca6-11ee-ac96-dac502259ad0.png?imageView2/2/w/1000

来源：互联网

Transformer由N个相同的层组成，每层包含两部分，一部分为自注意力，另一部分为MLP，每一层最后都有一个归一化。

谷歌的ViT结构

983a3318-3ca6-11ee-ac96-dac502259ad0.png?imageView2/2/w/1000

来源：谷歌

视觉领域的Transformer主要是使用了Encoder部分，如上图所示。

微软亚洲研究院提出的Swin Transformer结构

98906dbe-3ca6-11ee-ac96-dac502259ad0.png?imageView2/2/w/1000

来源：微软亚洲研究院

与谷歌简单地硬切割patch有所不同，微软为了避免太多的token，在token化的过程中下了很多工夫，但实际计算量差不多。

Transformer第一步是将输入图像转换为嵌入矩阵X，同时也有空间位置编码。

98a42066-3ca6-11ee-ac96-dac502259ad0.png?imageView2/2/w/1000

位置编码是采用了三角函数算法，这个算法是标量计算，CPU做起来效率最高。

第二步是多头注意力计算。

98bd262e-3ca6-11ee-ac96-dac502259ad0.png?imageView2/2/w/1000

对于一个视频输入序列X，它需要和权重参数模型做矩阵乘法，即和k、v、q的权重矩阵做乘法。然后，计算每个Query（X与q的矩阵乘积）和所有Key（X与k的矩阵乘积）的匹配度，并用这个匹配度来计算Value的加权和：

Attention(Q,K, V) = softmax(Q * K^T / sqrt(d)) * V

这里的Q就是Query，K就是Key，V就是Value（X与v矩阵乘积）。X基本上等同于视频的token数量，k、v、q参数量。总计算量为2*3*网络隐藏层维度h的平方。

991be4f2-3ca6-11ee-ac96-dac502259ad0.png?imageView2/2/w/1000

把几个head自注意力做Concat。总运算量为2*网络隐藏层维度的平方

接下来是归一化层，最后是前馈层。

992fff5a-3ca6-11ee-ac96-dac502259ad0.png?imageView2/2/w/1000

总计算量是2*8*网络隐藏层维度的平方。

最后累加这三层的总计算量为（6+2+16=24）*网络层数*网络隐藏层维度的平方。

假设一个网络有520亿参数，64层隐藏层，隐藏层的维度是8192，那么每个token的推理计算量就是64*24*（8192的平方）=103079215104次运算，这个数值除以2就是515亿，基本等同于网络的总参数量，实际就是每个token，推理时需要两次运算，一次矩阵乘法，一次是累加。

最终计算量为token数量*2*网络参数总量。

目前，Transformer视觉模型仍然远远落后于语言模型。具体而言，SwinTransformer二代参数大约30亿， ViT-E有 40亿参数，而入门级语言模型通常超过 100亿参数，更别说具有5400亿参数的大型语言模型。值得注意的是，谷歌于2023年2月推出了220亿参数的ViT-22B。

假设我们使用ViT-E模型，输入八百万像素的视频，采用16*16的patch，那么token数大约是4.08万个，通常自动驾驶帧率是每秒30帧（即每秒计算30次），那么每秒运算量就是30*4.08万*40亿*2=2400万亿次，即4896TOPS。如果是200万像素，那么token约为1万个，算力需要1200TOPS。

显然，这个算力需求太高，需要降级，视觉Transformer参数最小为10亿个，特斯拉AI日上就写了其参数是10亿个。不过，大模型参数越多，效果越好，然后再降低帧率到15Hz。有人会说乘积累加如果设计的非常好，勉强来说一次计算也可以完成，即我们常说MAC运算。

不过，Transformer每层最后都有非线性的归一化运算，它在每一层之外是串行结构，层内是并行结构，难以实现一次计算完成乘积累加；如果是CNN网络，全并行结构，是可以实现，更何况还有位置编码等标量计算。

最低下限就是15*1万*10亿*2=300万亿次，即300TOPS。特斯拉一代FSD的算力不过144TOPS。

实际上，无论是GPU还是AI加速器，其利用率都是很低的，特别是transformer其独特的网络结构，它是源自串行的RNN网络，AI加速器或者说AI专用芯片基本上都是针对矩阵并行计算设计的，几乎没考虑过串行。GPU略微好点，CPU的效率最高，奈何CPU核心数太少。

一般GPU的利用率是45%，低的只有30%，最高一般不超过55%，而AI专用芯片估计只有20-30%。https://arxiv.org/pdf/2104.04473.pdf，这篇文章里有详细数据，由英伟达、微软和斯坦福大学联合完成的论文，采用的是1024个英伟达A100的运算体系，典型的运算效率是45%，谷歌的TPV4针对Transformer做了优化，增加了稀疏核，最终的利用率略高，也只是50%，没做过优化的AI专用芯片，最低甚至是0%，完全无法运行。

这样一来，最低下限又要增加了，按50%的利用率，最低下限是600TOPS。然而这只是两百万像素，现在国内基本都是800万像素，且不止一个摄像头是800万像素。现在我们建设Transformer只用在一个800万像素摄像头上，并且AI处理器只负责这一个摄像头，即便如此算力还需要2400TOPS，需要10个Orin-X级联，还需要一个近千美元的PCIe交换机。实际上即便是在学术领域，目前最高的视觉Transformer的分辨率是1536*1536=236万像素，这可是在1024个A100显卡上运行的。

除了处理器本身，还有一个瓶颈，那就是存储带宽。在算力需求不高的时代，处理器的延迟主要来自存储系统，因为处理器运算力很强，但到了1000TOPS时代，处理器的延迟成了最主要的构成。

CPU控制GPU工作的流程

9964f8cc-3ca6-11ee-ac96-dac502259ad0.png?imageView2/2/w/1000

来源：互联网

GPU和AI芯片都是协处理器，也就是Device，CPU才是Host主机。GPU和AI芯片与鼠标、键盘、显示器、打印机一样都算是外设，任务的分派和调度，数据流的控制以及数据的读取与写入均受CPU控制。数据首先是在CPU指令调度下才读取的，数据整形（如果AI芯片或GPU内部有标量运算单元也可以做）后再交给GPU，计算完后再传输给CPU写入内存。

某些系统会有DMA如MCU，DMA是指无需经过CPU的直接存储，但需经过数据总线，数据总线带宽未必有内存宽；DMA主要是缓解CPU的工作压力，因为MCU内部的CPU性能很弱。数据中心也有一些基于通讯协议的DMA，通常只用于数据中心的多显卡系统。

AI运算的过程由CPU发起，取指令、译码、读取数据、运算、写入结果。由于Transformer的权重模型太大，至少1GB以上，所以无法放进芯片内部，只能放在DRAM内部，每一次运算都需要调取权重模型一次，计算完的结果还要写入存储DRAM。

前面我们看到，由于Transfomer需要超高算力，处理器本身计算消耗的时间已经是延迟的最低下限，没有留给读取和写入存储系统的时间，冯诺依曼架构又是数据和指令是分开存储的，无法同时读取。换言之，存储系统读取权重模型和写入结果的时间必须快到可以忽略不计。即便我们假设写入结果的时间可以忽略，但是高达1GB权重的读取时间要做到可以忽略不计，那么需要存储带宽达到1TB/s，那么每次读取权重模型的时间可以接近1毫秒，可以忽略不计。实际存储带宽也是有利用率，通常不会到80%。

最新的GDDR6X最高可以做到1TB/s的带宽，但这只是最小10亿的参数量，典型视觉transformer的参数量是30-40亿，存储带宽需要3-4TB/s，英伟达4万美元的H100PCIe的带宽不过2.04TB/s。

最后我们来简单计算一下训练所需要的计算量，语言大模型的训练量30000亿个Token，换算成800万像素就是681小时左右的视频，训练需要一次前向反馈和一次反向传播，还需要一次中间激活，大约是推理运算量的4倍。

我们将参数量取30亿，训练681小时的运算量为3万亿*30亿*8=720万亿亿，假设用128个英伟达A100（FP16算力是312TOPS）做训练，GPU利用效率是45%，那么需要大约4.7天训练完成。128个英伟达A100，目前价格大约是128*50万人民币=6400万人民币，从训练的角度看，大型车企还是撑的住的。

关键字：汽车领域 Transformer AI算力引用地址：汽车领域拥抱Transformer需要多少AI算力？

上一篇：KEMET T599系列车规聚合物钽电容在汽车设计中的应用说明
下一篇：倍思45W T-Space拓展坞拆解报告

推荐阅读最新更新时间：2026-03-25 08:30

摩尔线程 × 小马智行｜以国产AI算力加速中国自动驾驶规模化落地

2月6日，摩尔线程与“全球Robotaxi第一股” 小马智行正式宣布达成战略合作。双方将聚焦L4级自动驾驶技术落地与规模化应用，围绕小马智行技术核心——世界模型及虚拟司机系统的训练与优化展开深度协同，共同探索“AI算法+AI算力”深度融合的合作新范式，以安全可靠的AI算力，赋能自动驾驶技术迭代和商业落地。此次合作是中国人工智能领域产业链协同创新的重要示范—— 小马智行首次在关键训练与仿真环节规模化应用国产AI算力，也标志着摩尔线程国产全功能GPU正式进入自动驾驶核心领域。双方将基于摩尔线程MTT S5000训推一体智算卡及夸娥智算集群，共同推进小马智行世界模型及车端模型训练的适配与验证

[汽车电子]

摩尔线程 × 小马智行｜以国产<font color='red'>AI</font><font color='red'>算</font><font color='red'>力</font>加速中国自动驾驶规模化落地

破解AI算力狂飙下散热难题，数据中心液冷方案首次实现“计算-存储-散热”一体化

随着数据中心单机架功率突破100千瓦，传统风冷在几何级增长的热量面前已无以为继。液冷技术以其卓越性能，成为了应对这一挑战的关键路径。目前，全球液冷市场在高速增长之中，2024年全球液冷市场增长96%，光冷板式就占据了90%以上的份额。可以说，对于高速发展的AI数据中心来说，散热的重要性远比想象中要重要得多。去年，英特尔颠覆业界的至强6900系列性能核处理器正式面世，最高配备128核心性能核。如此强劲的性能，想要发挥出100%的功力，散热一定是不能忽视的问题。在今年的英特尔技术创新与产业生态大会（Intel Connection）上，携手本地生态伙伴——新华三、英维克、忆联及国内领先内存厂商，发布了基于英特尔至强6900

[半导体设计/制造]

破解<font color='red'>AI</font><font color='red'>算</font><font color='red'>力</font>狂飙下散热难题，数据中心液冷方案首次实现“计算-存储-散热”一体化

车圈内卷新方向，从AI高算力芯片到4D雷达的“智驾全家桶”来了

说到当下汽车行业最热门的话题，那肯定是智能辅助驾驶！世强提供从主控到传感的一体化解决方案，构建“感知-决策-执行”的完整闭环。首先，来看智能汽车的大脑。AI的发展，让智能辅助驾驶直接起飞，助力障碍物识别与路径规划！世强方案中的这款高性能SoC芯片，专为L2/L2+级行泊一体域控制器打造。采用先进制程，集成高性能CPU、GPU和AI加速单元，提供40Tops的强劲算力，处理多路摄像头和雷达数据，决策精准，驾驶无忧。 ↑使用了高性能SoC芯片的开发板接着，是汽车的四肢与触觉——感知周围环境的核心。这里展示的4D毫米波雷达，相比传统雷达，分辨率和精度更高，探测距离可达200米，穿透力强，即使在大雾、暴雨天气中也能

[汽车电子]

用铠侠BiCS Flash，为AI算力创造新可能

AI的计算、数据传输与存储已经成为当下数据中心和服务器端最为关注的问题之一。在有限的空间和成本内如何实现更高的收益，如何让存储方案给计算单元提供充足的数据支持，加速数据交换，节省电力和散热成本都值得探讨，其中就包括闪存技术如何扮演起关键角色。闪存技术最初被广泛应用在消费级产品中，旨在缩小存储方案占用空间、提升性能。随着闪存技术的不断升级，这项技术已经从成为消费级产品存储主力，并紧接着在网络、云计算的企业级存储中提供高速的数据存取支持。如今数据存储正在迈向AI时代，通过大量创新型的存储方案创造更多可能性。例如，为了使用GPU处理这些数据并进行AI训练和推理，高性能、大容量、低功耗的闪存设备必不可少。例如铠侠第八代Bi

[嵌入式]

用铠侠BiCS Flash，为<font color='red'>AI</font><font color='red'>算</font><font color='red'>力</font>创造新可能

高达2070TFLOPS算力｜腾视科技基于NVIDIA Jetson Thor系列模组，重磅推出全栈AI边缘智算大脑解决

在飞速发展的当下，物理与领域正迎来一场前所未有的变革。腾视科技紧跟时代步伐，基于NVIDIA Jetson Thor系列模组，重磅推出全栈AI边缘智算大脑解决方案，以高达2070LOPS的AI算力性能，为行业发展注入强大动力，开启物理AI新纪元。 NVIDIA Jetson Thor系列：强大性能引领行业变革 NVIDIA Jetson Thor系列模组专为物理AI和机器人开发打造，是卓越性能的代名词。其采用先进的NVIDIA Blkwell ，集成Transformer引擎和Multi-Instance GPU (MIG) 技术，轻松应对各类复杂AI工作负载。在AI计算性能方面，Jetson T50

[机器人]

中兴微电子亮相ICDIA 2025，共话RISC-V架构推动AI算力普惠化进程

7月11-12日， “第五届中国集成电路设计创新大会暨IC应用生态展”（ICDIA创芯展）在苏州盛大开幕。作为中国领先的集成电路设计企业，深圳市中兴微电子技术有限公司（以下简称“中兴微电子”）深度参与此次盛会。公司副总经理石义军与电子芯片设计专家王飞鸣在大会期间发表主题演讲，深入阐述RISC-V开放架构如何赋能大语言模型（LLM）高效推理，推动AI算力普惠化进程。中兴微电子副总经理石义军随着大语言模型从实验室走向千行百业，推理部署的“最后一公里”成为技术落地的关键战场。当前，大模型推理对算力的需求呈指数级增长，传统GPU方案在高成本和专用性上的局限，制约了其在规模化普及，尤其是在中小场景和行业应用中的广泛落地。

[嵌入式]

中兴微电子亮相ICDIA 2025，共话RISC-V架构推动<font color='red'>AI</font><font color='red'>算</font><font color='red'>力</font>普惠化进程

车载AI算力需求激增，紫光国芯车规级LPDDR4如何满足低功耗高性能？

车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式增长据IDC预测，到2026年，全球车载AI芯片市场规模将达到320亿美元，年复合增长率超过35%。在算力方面，从L2到L4级自动驾驶，单车所需的算力从数十TOPS（每秒万亿次操作）增长到数百甚至上千TOPS，呈现指数级增长趋势。性能挑战：车载AI应用需要高速数据传输和快速访问能力，以支持实时图像识别、目标检测和路径规划等计算密集型任务。可靠性挑战：车载环境复杂多变，温度范围宽（-40℃至125℃），且存在振动、湿度等恶劣条件，对芯片可靠性提出严格要求。长生命周期：汽车产品通常需要10-15年的供应保障，远超消费电子产品。贞光科技

[汽车电子]

车载<font color='red'>AI</font><font color='red'>算</font><font color='red'>力</font>需求激增，紫光国芯车规级LPDDR4如何满足低功耗高性能？

爱簿智能首款算力本AIBOOK重磅发布，为开发者打造装进背包的“AI实训室”

2025年4月7日，北京—— 爱簿智能今日正式发布革命性产品AIBOOK，行业首款算力本暨首台Linux AI 开发本。该产品以50TOPS端侧算力为核心，搭载Linux原生环境及开箱即用的AI开发工具套件，通过端云一体架构实现“AI实训”能力，同时将强大功能浓缩于轻薄机身，旨在重新定义个人AI生产力工具的行业标准。作为个人AI智算中心的开创性产品，AIBOOK的问世将推动人人都是开发者的时代愿景迈入现实。技术革命催生新物种：算力本终结“开发困境” 从Stable Diffusion引爆AIGC创作革命，到DeepSeek震撼全球科技圈，短短三年，大模型迎来“ 开源

[手机便携]

爱簿智能首款<font color='red'>算</font><font color='red'>力</font>本AIBOOK重磅发布，为开发者打造装进背包的“<font color='red'>AI</font>实训室”

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■你晒单我买单2026第1期报名中，DigiKey得捷带您畅享好物！

■有奖直播：AI基础设施技术测试周

■免费申请《一本书讲透汽车功能安全：标准详解与应用实践》，挑战《ISO26262标准》共读，赢好礼

■装备焕新月：e络盟Multicomp Pro系列产品，小投入，大升级 —— 装备焕新惊喜体验