6月13日,在芯原AI专题技术研讨会上,芯原NPU IP研发副总裁查凯南表示:“大模型对于现在最大的颠覆性在于,端侧模型和云端模型可以通过自然语言进行交互,显著提升智能效果。”
不过,云端和边端的分工有所不同。云端大多使用的是超级大模型,通常在70B以上,可能需要几百甚至几千张卡进行计算,同时云端能够同时胜任大模型的推理和训练任务。边端在算力、容量限制下,基本是在2B~13B的规模,除了语言模型,端侧还需要许多其它模型,比如视觉模型、语音模式、通用模型、图像生成、美图、PPT生成。
因此,为了满足端侧和云端的不同需求,NPU设计要求有所不同。端侧更关注低功耗、PPA(性能、功耗、面积)优化以及更好的隐私性,主要用于推理,同时需要具备浮点运算能力,重点在于低比特的量化及压缩能力。而云端则需要高性能、高TOPS(每秒万亿次运算)能力,进行分布式的推理和训练,要求较高的浮点和定点算力比例,以及高精度计算能力,同时,云端还需要与大型生态系统的兼容性。
端侧方面芯原拥有VIP9X00和GC9XX00AI AI-GPU IP,云侧则拥有CCTC-MP Tensor Core GPU IP。其中端侧的NPU IP能够高效地处理各类神经网络和计算任务,最小化数据传输,成为推动嵌入式智能设备发展的关键要素。

芯原的NPU主要分为DSA、嵌入式系统、数据中心三个方向。

值得一提的是,这些NPU IP基于GPU架构体系进行优化,利用可编程、可扩展及并行处理能力,为各类主流AI算法提供硬件加速的微处理器技术。

最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力,适用于Transformer和卷积神经网络(CNN)。
此外,VIP9000系列还融合了4位量化和压缩技术,以解决带宽限制问题,方便在嵌入式设备上部署生成式人工智能(AIGC)和大型语言模型(LLM)算法,如Stable Diffusion和Llama 2。

在过去两年中,Transformer已经成为主导模型,不仅在大语言模型上表现出色,在视觉、语音、Pixel等领域表现优异,相对传统卷积神经网络,效果提升明显。
芯原的架构则针对Transformer进行了定制优化,最新的IP包含了针对Transformer的特定优化,包括4bit、8bit、16×4、16×8的量化压缩,显著减少了带宽的消耗。
对于通用运算的GEMM/GEMV以及矩阵运算中,在一个具有40~48TOPS算力的AIPC中,其性能可以提升10倍。
经过优化,芯原的NPU在Stable diffusion 1.5中,能够达到20 steps under 2 seconds,在LLaMA2 7B中能够达到20 Tokens/s,性能相当出色。

软件生态对于AI的发展至关重要,芯原则提供了非常通用的软件栈,配备了广泛成熟的软件开发工具包(SDK),支持各大深度学习框架,确保客户产品能够迅速投放市场。
在应用层,芯原支持PyTorch、Transformer、ONNXRuntime等框架。在工具方面,VLLM是芯原研发的专用于大语言模型的框架,特别适用于云端。结合芯原的Acuity工具包,芯原的NPU IP支持PyTorch、ONNX和TensorFlow等主流框架。

Triton是OpenAI发明的一种高级编译语言,芯原也计划支持Triton,芯原计划在2024年10月完成对Triton的完整接入,以实现开放式的高级语言支持。
值得一提的是,通过利用芯原的FLEXA技术,VIP9000可无缝集成于芯原的图像信号处理器(ISP)及视频编码器,实现低延迟的AI-ISP和AI-Video子系统,且无需DDR内存。此外,还可根据特定需求定制,以平衡成本和灵活性,适应对功耗和空间有严格限制的深度嵌入式应用环境。
目前,采用芯原NPU IP的IA类芯片已经在全球出货超过1亿颗,客户72家,推出AI SoC 128款,市场领域超过10个。
上一篇:芯原戴伟进:大模型已经来到了边缘
下一篇:芯原汪志伟:芯原IP、平台、软件整套解决方案,助力AIGC算力进一步升级
推荐阅读最新更新时间:2026-03-24 17:27
- 边缘计算主机盒选购指南:五大核心指标解析
- Arm AGI CPU 更多细节:台积电 3nm 制程、Neoverse V3 微架构
- Arm AGI CPU 重磅发布:构筑代理式 AI 云时代的芯片基石
- Arm 拓展其计算平台矩阵,首次跨足芯片产品
- 阿里达摩院发布RISC-V CPU玄铁C950,首次原生支持千亿参数大模型
- 边缘 AI 加速的 Arm® Cortex® ‑M0+ MCU 如何为电子产品注入更强智能
- 阿里达摩院发布玄铁C950,打破全球RISC-V CPU性能纪录
- VPU中的“六边形战士”:安谋科技Arm China发布“玲珑”V560/V760 VPU IP
- 利用锚定可信平台模块(TPM)的FPGA构建人形机器人安全
- 支持 BLE 连接、由 4mA 至 20mA 电流回路供电的现场发送器参考设计
- AM2DM-0515DH60-NZ ±15 Vout、2W 双路输出 DC-DC 转换器的典型应用
- LTC6261IDC 音频耳机桥式驱动器运算放大器的典型应用
- LTC1775CS 2.5V/5A 可调输出降压稳压器的典型应用电路
- AD8601ARTZ-REEL7 符合 PC100 标准的线路输出放大器的典型应用
- 一种基于分立的 315MHz 振荡器解决方案,用于使用 BFR182 射频双极晶体管的远程无钥匙进入系统
- 使用 ROHM Semiconductor 的 BD49E39G-TR 的参考设计
- AM30EW-2405SZ 5V 三路输出 DC/DC 转换器的典型应用
- LTC3564 的电池在 1.2A 应用中达到 1.2V
- AL1676EV2,基于 AP1676 高亮度降压 LED 驱动控制器的评估板

英集芯IP2366-140W-PD充电芯片DEMO资料
Linux技术手册
现代雷达系统的信号设计
BFR340T






京公网安备 11010802033920号