AI大模型时代,GPU高速互连如何正确破局

发布者:EEWorld资讯最新更新时间:2024-11-05 来源: EEWORLD关键字:AI  大模型  GPU 手机看文章 扫描二维码
随时随地手机看文章

在LLM热潮中,我们不仅要关注GPU本身,还要关注互连技术。随着AI参数量成倍地增加,甚至“上不封顶”地扩展,如果想要服务器扛住这样的“巨浪”,就要编织更多的网,形成非常强大的算力网络;如果想要释放GPU集群的全部潜力,每个节点间的通信都要顺畅无阻,犹如铺设一条条“高速公路”。

从UEC到UALink,取代现有技术

GPU领域,比较典型的两个互连技术是InfiniBand和NVLink/NLSwitch技术,前者用于服务器间连接,可以形成大型AI算力网络,后者可以将GPU和GPU互连,至多让576个GPU实现每秒1.8TB的通信。

毋庸置疑,两种私有协议的性能都很强劲,但它们都非常封闭,在一定程度上制约了技术的持续演进与效能优化潜力。目前,行业更为通用的做法是通过成立联盟,制定公开的协议标准。众人拾柴火焰高,参与的玩家越多,互连技术进化得就越快,协议标准也就越趋于统一。

去年7月,AMD、Arista、博通、思科、EVIDEN等公司联合成立超以太网联盟(Ultra Ethernet Consortium,简称UEC),随后增强型以太网开始取代InfiniBand技术,迅速成为GPU新的加速节点。一些公司也因此获得了丰厚的利润,例如Arista公司的AI集群互连销售额显著增长。

就在10月28日,AMD、AWS、谷歌和思科等九家巨头宣布正式成立UALink联盟(Ultra Accelerator Link Consortium,简称UALink联盟),主推AI服务器Scale UP互连协议——UALink。这一协议一经推出便广受关注。UALink是新一代AI/ML集群性能的高速加速器互连技术,拥有低延迟和高带宽的特点,具备高性能内存语义访问的原生支持,可以完美适配GPU等AI加速器的编程模型,在一个超节点内实现一点规模的AI计算节点互连。除此之外,UALink的优势还包括显存共享,支持Switch组网模式,以及超高带宽和超低时延能力等。

区别于专注在Scale Out(横向/水平扩展)的UEC,UALink协议已经成为最具潜力的AI服务器Scale UP(纵向/垂直扩展)互连开放标准,正在迅速构建起一个AI服务器Scale UP互连技术的超级开放生态。

QQ_1730774127741.png?imageView2/2/w/1000

10月28日官网公布的UALink联盟9家创始成员单位

UALink如何在中国市场落地

作为一个互连系统开发标准,UALink在落地过程中需要覆盖多个产业环节,因此成员涵盖了芯片制造商、交换机提供商、服务器提供商等整个产业链的关键角色。然而,由于AI大模型产业在国内具备本土特色,因此UALink如何在中国市顺利场落地,面临着巨大的挑战。

为了打造一个原生支持AI场景的Scale UP开放生态系统,阿里云在今年9月倡议并牵头成立了ALS(ALink System,加速器互连系统)开放生态系统,依托于ODCC(开放数据中心委员会),解决Scale UP互连系统的行业发展规范问题。目前已有20多家AI芯片、互连芯片、服务器整机硬件和IP设计厂商加入,成员单位已就相关协议标准制定和实行路径选择展开交流。

目前,ALS已形成从协议到芯片、从硬件设备到软件平台的系统体系,主要包括ALS-D数据面和ALS-M管控面两个组成部分:ALS-D数据面互连采用UALink协议,具备UALink的一切优势,还增加定义了在网计算等特性;ALS-M可为不同芯片方案提供标准化接入方案,同时为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。

QQ_1730774158594.png?imageView2/2/w/1000

ALink System架构示意图

正因为全面兼容国际标准UALink生态,ALS可以与行业伙伴开放共建超高性能、超大规模的Scale UP集群互连能力,一级互连64~80个节点,二级互连可达千级节点,提供PB级共享显存和TB级互连带宽。

在今年9月底的云栖大会上,阿里云展示了其面向下一代超大规模AI集群的磐久AI Infra 2.0服务器,开放性地定义了AI计算节点和Scale UP/Scale Out互连系统,可以在统一硬件架构下支持业界主流AI方案,引领AI领域的“一云多芯”。

QQ_1730774184575.png?imageView2/2/w/1000

2024云栖大会阿里云磐久AI Infra 2.0服务器展示区

磐久AI Infra 2.0服务器的有六大亮点:一是计算节点业界密度最高,单机柜支持最大80个AI计算节点;二是计算节点集成阿里自研CIPU 3.0芯片,既能帮助实现Scale Out网络扩展,又能兼顾云网络弹性、安全的要求;三是供电效率高,在业界率先采用400V PSU,单体供电效率可达98%,整体供电效率提高2%;四是节能,机柜级液冷方案可根据实际负载动态调整CDU冷却能力来降低能耗,单柜冷却系统节能30%;五是方便运维,全新的CableCartridge后维护设计,支持全盲插,零理线易运维、零误操作,维护效率提升50%;六是可靠性高,支持弹性节点、智能路由、高可靠供电、分布式CDU等技术,可实时监控、探测各种硬件故障并自愈,硬件故障域也缩减到节点级。

除了积极拥抱UALink和牵头成立ALink System产业生态,阿里云也在积极推动UALink技术生态影响力的建设,在刚刚过去的2024开放计算全球峰会人工智能特别关注议程(Special Focus Tracks)上,阿里云服务器研发资深总监文芳志受邀和UALink联盟主席Kurtis Bowman联合发表了题为'UALink: Pioneering the AI Accelerator Revolution'的演讲,重点阐述了AI服务器Scale UP互连技术领域的发展趋势,UALink标准的路线图,UALink联盟和ALink System产业生态未来的合作潜力,以及阿里云磐久AI Infra 2.0服务器的落地实践思路。

QQ_1730774210501.png?imageView2/2/w/1000

阿里云服务器研发资深总监文芳志和UALink联盟主席Kurtis Bowman联合演讲

对AI来说,Scale UP非常重要

都是增强现有系统能力,处理更大规模能力,为什么要分成Scale-up(向上/垂直扩展)和Scale-out(横向/水平扩展)两张网?

两张网络的目标不同,Scale Out是在计算集群内部,利用外置网卡技术,通过横向扩展机柜的数目,实现到数万甚至数十万张卡的互连;Scale UP是超节点内部,采用GPU直出技术,通过十倍于Scale Out的吞吐能力,达成数十、数百的GPU高效协同。

这两张网,将业务逻辑紧密耦合在一起。可以说,两张网对于AI,尤其是AIGC或LLM都相当重要。AI基础设施的计算效能要求很高,为了最大化达成端到端MFU,需要Scale UP和Scale Out都进行最大程度的优化。由于需要解决的互连问题各不相同,尤其是10倍左右的流程差异,Scale UP需要采用不同于Scale Out的协议设计来将性能发挥到极致。

在这种极致协议的实现落地过程中,需要众多厂商和生态共同参与,一个开放的生态能够最大程度地复用已有技术和解决方案,将整个系统的性能、成本、稳定性做到最佳。但不难预见,无论是UALink,还是ALS,将发挥出协同开放的优势。

QQ_1730775070797.png?imageView2/2/w/1000

值得关注的是,UALink的重要技术基底是Infinity Fabric 协议,Infinity Fabric是一种成熟的高速互连技术,它由AMD开发,在自家的CPU、GPU产品中都有所使用,目前已经迭代到第四代,从最初的CPU间互连已经可以实现GPU间互连。在Infinity Fabric技术的加持下,UALink推进的速度也会很快。


关键字:AI  大模型  GPU 引用地址:AI大模型时代,GPU高速互连如何正确破局

上一篇:边缘 AI:彻底改变实时数据处理和自动化
下一篇:智能无处不在:安谋科技“周易”NPU开启端侧AI新时代

推荐阅读最新更新时间:2026-03-25 13:52

谷歌AI芯片获单:Anthropic将使用100万个TPU训练模型
北京时间10月24日,据路透社报道,AI创业公司Anthropic周四表示,其Claude大模型将使用多达100万个谷歌AI芯片进行训练,这些芯片价值数百亿美元。Anthropic希望借此在快速发展的AI领域提升其生成式AI产品的性能。 作为Anthropic的投资者之一,谷歌还将为Anthropic提供额外的云计算服务。这项交易凸显了生成式AI在训练、部署以及持续推理过程中对算力的巨大需求。 对谷歌而言,这笔交易正值其扩大自研张量处理单元(TPU)对外可用性之际,这些芯片过去主要用于内部。谷歌目前通过其云服务向外出租TPU。 Anthropic表示,之所以选择TPU,是因为其性价比高、效率优越,而且公司此前已有使用这些处理器训练
[半导体设计/制造]
宇树王兴兴直言:人形机器人要“自主干活”,通信、AI模型和安全需先破局
(电子发烧友网报道 文/章鹰)2025年9月25日上午,2025骁龙技术峰会在北京正式拉开序幕。在谈及具身的进化话题,高通公司研发高级副总裁、全球研发负责人侯纪磊与宇树创始人、CEO王兴兴展开了一场别开生面的大咖对话,围绕人形未来发展的关键节点,机器人市场爆发的关键挑战和当下发展的痛点等热点话题,王兴兴给出了精彩的阐述和技术趋势分析。 左: 高通公司研发高级副总裁、全球AI研发负责人侯纪磊 右:宇树科技创始人、CEO王兴兴 从能用到好用,人形机器人需突破具身智能AI大模型瓶颈 具身智能本身是一个具有物理形态的智能,人形机器人今年开始规模化交付,哪些节点比较关键? 王兴兴:我们希望机器人具备AI能力,可以处理图像、文字,
[机器人]
当主控SoC遇上AI模型,物奇智能蓝牙芯片驱动端侧AI新场景
随着大模型等人工智能技术的飞速发展,终端AI作为大模型部署前沿,正引领交互形态从单一语言向多模态交互演进,催生出众多创新场景。在这场新技术浪潮中,AI耳机与AI眼镜凭借其可穿戴属性、高频交互的即时性,成为端侧AI落地的重要载体,将超越传统音频播放范畴,演变为人机交互的关键接口,带来前所未有的智能体验。 借助AI大模型技术,AI耳机与AI眼镜集成了多模态交互能力,支持AI语音交互、实时翻译等丰富的场景化功能。而承载这些能力实现,同样离不开蓝牙主控SoC芯片这一底层连接基座。作为国内领先的智能蓝牙音频芯片厂商,物奇早已前瞻布局AI耳机与AI眼镜两大创新领域。其通过深度应用关键AI技术构建的软硬件系统级芯片方案,兼具高性能音频处理和高效
[嵌入式]
当主控SoC遇上<font color='red'>AI</font><font color='red'>大</font><font color='red'>模型</font>,物奇智能蓝牙芯片驱动端侧<font color='red'>AI</font>新场景
基于AI模型的新能源汽车智能座舱多模态交互技术研究综述
【摘要】 智能座舱是汽车智能化的重要组成部分,多模态交互是智能座舱的核心功能。为了研究AI 大模型赋能智能座舱实现多模态交互的技术原理,利用AI 大模型的学习和泛化能力,分析了多模态交互技术框架和关键技术,评估国内外科技公司和车企在多模态交互领域的应用案例,如百度、华为、腾讯和科大讯飞的大语言模型,并对其效果进行对比。对比结果表明,AI 大模型在多模态交互中的应用显著提高了任务处理效率与准确性,增强了智能座舱的人机交互体验。最后探讨了AI 大模型在智能座舱应用中面临的挑战与前景,为AI 技术在智能座舱领域的深入发展和应用提供参考。 0 引言 智能座舱是新能源汽车智能化的重要组成部分,也是提升汽车用户体验的核心要素 。随着汽
[汽车电子]
基于<font color='red'>AI</font><font color='red'>大</font><font color='red'>模型</font>的新能源汽车智能座舱多模态交互技术研究综述
智能座舱进阶4.0时代:模型加持,引爆座舱AI革命
AI加持下,新一轮座舱革命,蓄势待发。 自去年12月,理想汽车开始批量推送OTA5.0,多模态认知大模型Mind GPT首次上车,赋能理想同学拥有类似于 ChatGPT、Midjourney 等生成式 AI 的能力,拉开了智能座舱的AI竞争序幕。 紧接着今年4月,蔚来自研的AI大模型NOMI GPT正式上线,可以实现视觉(图像)、听觉(声音)、触觉(车身传感器信息)等维度的感知能力,具备包括语音、视觉和文本等多种形式的交互能力。 5月20日,小鹏汽车首发全域大语言模型,将AI大语言模型的推理能力融合到用车的全场景中,实现了自研 XPGT 大模型、阿里通义大模型以及智谱 AI 大模型的融合。 10月,小鹏发布的AI天
[汽车电子]
重磅!《2024 AI模型推动新一代具身智能机器人产业发展蓝皮书》正式发布!
2024年8月28日,由中国高科技门户OFweek维科网主办,OFweek维科网· 机器人 、OFweek维科网·智能制造共同承办的“ 全数会 2024(第五届)中国人形机器人技术创新发展大会”在深圳福田会展中心隆重开幕。 当天下午,大会举办了“《2024 AI大模型推动新一代具身 智能机器人 产业发展蓝皮书》发布会”,该蓝皮书由OFweek行业研究中心编撰,松灵机器人(AgileX Robotics)、微亿智造、阿普奇三家企业参与联合编撰工作。 《2024 AI大模型推动新一代具身智能机器人产业发展蓝皮书》在调研终端应用及相关供应企业精准数据基础上,对当前具身智能机器人产业主要研发成果、产品应用特点进行了详细解析,是OFwe
[机器人]
消息称字节旗下 PICO 研发多款 AI 穿戴设备,搭载豆包模型
6 月 21 日消息,Tech 星球报道称,字节旗下的 PICO 从去年下半年开始在研发多个穿戴设备,这些设备将搭载 AI。 字节正在招聘 ID 设计师,负责智能设备的工业设计,招聘提到了孵化成果推动落地,团队位于深圳。 字节管理层看到了将可穿戴设备转变为生成式 AI 服务平台的潜力,字节跳动在 5 月份以约 5000 万美元收购了耳机制造商 Oladance,团队正在融合进字节体系。 ▲ Oladance 耳机 字节官方也对外做出回应,“豆包业务正在探索与智能可穿戴设备相结合,为用户提供更自然和便捷的交互体验。” 字节的豆包大模型从今年上半年开始,陆续与多个硬件厂商进行合作,并将豆包能力开放给各种硬件厂商,在今年 5 月的火
[物联网]
消息称字节旗下 PICO 研发多款 <font color='red'>AI</font> 穿戴设备,搭载豆包<font color='red'>大</font><font color='red'>模型</font>
中国信通院公布 AI 代码模型评估,阿里云、华为、商汤等首批通过
6 月 11 日消息,中国信息通信研究院公布了可信 AI 代码大模型评估的首轮评估名单,阿里云通义灵码、华为云盘古、智谱 codegeex 等国产 AI 大模型均入选并首批通过。 此次大模型评估以《智能化软件工程技术和应用要求 第 1 部分:代码大模型》标准为依据,围绕通用能力、专用场景能力、应用成熟度,为模型能力提升和企业选型提供规范性参考。 《智能化软件工程技术和应用要求 第 1 部分:代码大模型》(标准编号 AIIA / PG 0110-2023)标准于 2024 年 1 月 25 日正式发布,该标准由中国信通院与中国工商银行联合牵头发起,涵盖通用能力、专用场景能力和应用成熟度三大部分,包括 100 多个能力要求。 此次
[网络通信]
中国信通院公布 <font color='red'>AI</font> 代码<font color='red'>大</font><font color='red'>模型</font>评估,阿里云、华为、商汤等首批通过
小广播
最新网络通信文章
厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 综合资讯 其他技术 下一代网络 短距离无线 基站与设施 RF技术 光通讯 标准与协议 物联网与云计算 有线宽带

索引文件: 3 

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved