英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

发布者:EE小广播最新更新时间:2024-04-20 来源: EEWORLD关键字:英特尔  至强  处理器  Meta  模型 手机看文章 扫描二维码
随时随地手机看文章

近日,Meta重磅推出其80亿和700亿参数的Meta Llama 3开源大模型。该模型引入了改进推理等新功能和更多的模型尺寸,并采用全新标记器(Tokenizer),旨在提升编码语言效率并提高模型性能。


在模型发布的第一时间,英特尔即验证了Llama 3能够在包括英特尔®至强®处理器在内的丰富AI产品组合上运行,并披露了即将发布的英特尔至强6性能核处理器(代号为Granite Rapids)针对Meta Llama 3模型的推理性能。


英特尔至强处理器可以满足要求严苛的端到端AI工作负载的需求。以第五代至强处理器为例,每个核心均内置了AMX加速引擎,能够提供出色的AI推理和训练性能。截至目前,该处理器已被众多主流云服务商所采用。不仅如此,至强处理器在进行通用计算时,能够提供更低时延,并能同时处理多种工作负载。


事实上,英特尔一直在持续优化至强平台的大模型推理性能。例如,相较于Llama 2模型的软件,PyTorch及英特尔® PyTorch扩展包(Intel® Extension for PyTorch)的延迟降低了5倍。这一优化是通过Paged Attention算法和张量并行实现的,这是因为其能够最大化可用算力及内存带宽。下图展示了80亿参数的Meta Lama 3模型在AWS m7i.metal-48x实例上的推理性能,该实例基于第四代英特尔至强可扩展处理器。


image.png?imageView2/2/w/1000

图1:AWS实例上Llama 3的下一个Token延迟


不仅如此,英特尔还首次披露了即将发布的产品——英特尔®至强® 6性能核处理器(代号为Granite Rapids)针对Meta Llama 3的性能测试。结果显示,与第四代至强处理器相比,英特尔至强6处理器在80亿参数的Llama 3推理模型的延迟降低了2倍,并且能够以低于100毫秒的token延迟,在单个双路服务器上运行诸如700亿参数的Llama 3这种更大参数的推理模型。


image.png?imageView2/2/w/1000

图2:基于英特尔®至强® 6性能核处理器(代号Granite Rapids)的Llama 3下一个Token延迟


考虑到Llama 3具备更高效的编码语言标记器(Tokenizer),测试采用了随机选择的prompt对Llama 3和Llama 2进行快速比较。在prompt相同的情况下,Llama 3所标记的token数量相较Llama 2减少18%。因此,即使80亿参数的Llama 3模型比70亿参数的Llama 2模型参数更高,在AWS m7i.metal-48xl实例上运行BF16推理时,整体prompt的推理时延几乎相同(该评估中,Llama 3比Llama 2快1.04倍)。


开发者可在此查阅在英特尔至强平台上运行Llama 3的说明。


产品和性能信息

英特尔至强处理器:


在英特尔®至强® 6处理器(此前代号Granite Rapids)上进行测试,使用2个英特尔®至强® Platinum,120核,超线程开启,睿频开启,NUMA 6,集成加速器可用[已使用]:DLB[8],DSA[8],IAA[8],QAT[8],总内存1536GB(24x64GB DDR5 8800 MT/s[8800 MT/s]),BIOS BHSDCRB1.IPC.0031.D44.2403292312,微码0x810001d0,1x以太网控制器I210千兆网络连接1x SSK存储953.9G,Red Hat Enterprise Linux 9.2(Plow),6.2.0-gn r.bkc.6.2.4.15.28.x86_64,基于英特尔2024年4月17日的测试。


在第四代英特尔®至强®可扩展处理器(此前代号Sapphire Rapids)上进行测试,使用AWS m7i.metal-48xl实例,2个英特尔®至强® Platinum 8488C,48核,超线程开启,睿频开启,NUMA 2,集成加速器可用[已使用]:DLB[8],DSA[8],IAA[8],QAT[8],总内存768GB(16x32GB DDR5 4800 MT/s[4400 MT/s]);(16x16GB DDR5 4800 MT/s[4400 MT/s]),BIOS亚马逊EC2,微码0x2b0000590,1x以太网控制器弹性网络适配器(ENA)亚马逊弹性块存储(EBS)256G,Ubuntu 22.04.4 LTS,6.5.0-1016-ws,基于英特尔2024年4月17日的测试。


关键字:英特尔  至强  处理器  Meta  模型 引用地址:英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

上一篇:让AI无处不在,英特尔以AI平台创新助奥运释放科技魅力
下一篇:量子互联网关键连接首次实现

推荐阅读最新更新时间:2026-03-22 12:00

全新英特尔至强6处理器:为满足AI模型和数据集增长需求而生
英特尔至强6家族又添新成员:释放GPU潜能,AI性能更出色 配备Priority Core Turbo的全新至强6处理器可提升AI工作负载性能,并将率先应用于英伟达最新推出的DGX B300 AI系统。 今日, 英特尔推出三款全新英特尔® 至强® 6系列处理器,特别满足搭载领先GPU的AI系统的需求 。这些处理器配备性能核(P-core),并集成了英特尔创新的Priority Core Turbo(PCT)以及英特尔® Speed Select – 睿频频率(Intel® SST-TF)技术,能够提供定制化的CPU核心频率,进而提升GPU在高强度AI工作负载下的性能。 三款全新至强6处理器现已面市,其中一款将作为主控
[网络通信]
全新<font color='red'>英特尔</font><font color='red'>至强</font>6<font color='red'>处理器</font>:为满足AI<font color='red'>模型</font>和数据集增长需求而生
英特尔至强和AI PC等产品为Meta Llama 3生成式AI工作负载提供加速
英特尔丰富的AI产品——面向数据中心的至强处理器,边缘处理器及AI PC等产品为开发者提供最新的优化,助力其运行Meta新一代大语言模型Meta Llama 3。 Meta今日推出其下一代大语言模型(LLM)——Meta Llama 3。在发布的第一时间,英特尔即优化并验证了80亿和700亿参数的Llama 3模型能够在英特尔® 至强® 处理器、英特尔® Gaudi加速器、英特尔® 酷睿™ Ultra处理器和英特尔锐炫™ 显卡的AI产品组合上运行。 英特尔副总裁兼人工智能软件工程总经理李炜 表示:“英特尔一直积极与AI软件生态系统的领先企业展开合作,致力于提供兼具性能与易用性的解决方案。Meta Llama 3是AI大语言
[网络通信]
英特尔推出三款 AI GPU 系统头节点至强处理器
5 月 23 日消息,英特尔当地时间昨日宣布推出三款面向搭载领先 GPU 的 AI 系统对高性能头节点处理器需求的至强 6000P Granite Rapids 系列处理器。 这三款处理器均集成了英特尔 Priority Core Turbo (PCT) 和 Speed Select-Turbo Frequency (SST-TF) 技术,能够提供定制化的 CPU 核心频率,进而提升 GPU 在高强度 AI 工作负载下的性能。 两项技术中的 PCT 能够动态地让高优先级核心以更高的睿频频率运行,而低优先级核心则以基础频率运行,从而实现 CPU 资源的优化配置,这能够加速数据向 GPU 的传输,亦显著提高整个系统的运行效率。
[嵌入式]
英特尔携手壳牌推出基于至强处理器的浸没式液冷数据中心解决方案
英特尔携手壳牌打造浸没式液冷认证方案,助力数据中心迈向高效未来 打造业界领先的浸没式液冷解决方案,为数据中心用户在AI时代构建可持续、高效液冷的发展路径。 在AI和计算能力飞速发展的当下,数据中心对强大基础设施的需求持续增长,随之而来的散热问题也愈发凸显,因此IT运维人员正在积极寻找高效、可扩展且可持续的散热方案。其中,液冷技术因其卓越的散热效果而备受青睐,据Dell’Oro Group1预测,到2028年,企业在液冷方面的投入将占数据中心散热管理收入的36%。然而,尽管浸没式液冷技术性能卓越,但由于业界仍缺乏经过验证且易于部署的浸没式液冷解决方案,其推广和应用仍面临诸多挑战。 面对数据中心液冷领域的关键挑战,英特尔携
[网络通信]
​<font color='red'>英特尔</font>携手壳牌推出基于<font color='red'>至强</font><font color='red'>处理器</font>的浸没式液冷数据中心解决方案
MWC 2025:英特尔展示基于至强6处理器的基础网络设施
摘要:英特尔推出芯片创新技术,助力实现人工智能驱动的下一代网络 集成AI功能的英特尔至强6系统级芯片,与前几代产品相比,可带来高达2.4倍的无线接入网(RAN)容量提升1,和70%的每瓦性能提升2; 集成的人工智能加速器将AI RAN性能提升了高达3.2倍3; 与5G核心网解决方案合作伙伴的深度合作,加快了英特尔®至强®6能效核处理器在整个生态系统中的应用; · 基于 5G核心网工作负载的独立验证确认了英特尔®至强®6能效核处理器机架性能的提高、能耗的降低以及能效的提升。 2025年3月3日,巴塞罗那,西班牙—— AI和 5G 技术的蓬勃发展,正在重新定义网络与连接的方式,电信行业也正在经历一场重大变革
[网络通信]
英特尔推出第三批至强6处理器:引领数据中心与AI新时代
自从去年6月开始,英特尔至强处理器跨越到“至强6”阶段,英特尔热火朝天地更新了两批产品,一时成了行业热搜,引发众多行业人士围观。可以说,至强6不仅彻底“挤爆牙膏”,在性能上进行了大升级,同时也是一个顺应当前时代的产品,面向AI、科学计算、传统大数据、网络以及存储等应用都进行了迭代升级。 2024年6月,推出Sierra Forrest Xeon 6处理器,当时它的核心数量刷新了整个市场记录,打到了最高144个E核;紧接着2024年9月,英特尔又发布了至强6性能核最高端的产品6900P,最高128个P核,再一次震动了数据中心市场。在第二批至强6更新之际,英特尔便预告,至强6第三批产品正在路上。 2月24日,英特尔正式披露第三
[嵌入式]
<font color='red'>英特尔</font>推出第三批<font color='red'>至强</font>6<font color='red'>处理器</font>:引领数据中心与AI新时代
新突破!超高速内存,为英特尔至强6性能核处理器加速
英特尔携手行业伙伴,以创新方法实现标准DRAM模块内存带宽翻倍,该即插即用的解决方案可释放至强6性能核处理器潜力。 一直以来, 英特尔深耕处理器市场——这些处理器被看作是保障计算机出色运行的“大脑”,但不能忽略的是,系统内存(DRAM)在提升整体性能方面也扮演着重要角色。 特别是在服务器领域,由于处理器核心数量的增长速度超过了内存带宽的提升,这就意味着每个核心实际可用的内存带宽相应减少了。 像天气建模、计算流体动力学和某些特定的AI场景,它们往往需要运行大量的工作负载,这样一来,处理器核心与内存带宽之间的失衡,就可能会导致计算瓶颈。现在,技术创新为我们带来了新的解决办法。 经过多年与行业伙伴的合作,英特尔工程师
[网络通信]
新突破!超高速内存,为<font color='red'>英特尔</font><font color='red'>至强</font>6性能核<font color='red'>处理器</font>加速
英特尔确认将为亚马逊 AWS 推出定制版至强 6 处理器
9 月 18 日消息,根据英特尔与亚马逊 AWS 双方当地时间本月 16 日新闻稿,英特尔除将在 Intel 18A 节点上代工 AWS 的一款 AI fabric 芯片外,还将为 AWS 提供定制服务器 CPU。 新闻稿提到本项合作建立在英特尔为 AWS 制造至强可扩展处理器的现有关系之上,英特尔将为 AWS 供应定制版 Intel 3 工艺至强 6 处理器,但未确认定制产品使用的是性能核还是能效核、基于 -SP 平台还是 -AP 平台、是否集成亚马逊方面指定的额外 ASIC 电路。 此外英特尔和 AWS 还将探索基于 Intel 18A 及未来 Intel 18AP、Intel 14A 制程生产更多新 AWS 芯片设计以及现有
[嵌入式]
小广播
最新网络通信文章
厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 综合资讯 其他技术 下一代网络 短距离无线 基站与设施 RF技术 光通讯 标准与协议 物联网与云计算 有线宽带

索引文件: 2 

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved