芯原查凯南:NPU如何推进嵌入式智能设备发展

发布者:EEWorld资讯最新更新时间:2024-06-13 来源: EEWORLD作者: 付斌关键字:芯原  NPU  IP 手机看文章 扫描二维码
随时随地手机看文章

6月13日,在芯原AI专题技术研讨会上,芯原NPU IP研发副总裁查凯南表示:“大模型对于现在最大的颠覆性在于,端侧模型和云端模型可以通过自然语言进行交互,显著提升智能效果。”


不过,云端和边端的分工有所不同。云端大多使用的是超级大模型,通常在70B以上,可能需要几百甚至几千张卡进行计算,同时云端能够同时胜任大模型的推理和训练任务。边端在算力、容量限制下,基本是在2B~13B的规模,除了语言模型,端侧还需要许多其它模型,比如视觉模型、语音模式、通用模型、图像生成、美图、PPT生成。


因此,为了满足端侧和云端的不同需求,NPU设计要求有所不同。端侧更关注低功耗、PPA(性能、功耗、面积)优化以及更好的隐私性,主要用于推理,同时需要具备浮点运算能力,重点在于低比特的量化及压缩能力。而云端则需要高性能、高TOPS(每秒万亿次运算)能力,进行分布式的推理和训练,要求较高的浮点和定点算力比例,以及高精度计算能力,同时,云端还需要与大型生态系统的兼容性。


端侧方面芯原拥有VIP9X00和GC9XX00AI AI-GPU IP,云侧则拥有CCTC-MP Tensor Core GPU IP。其中端侧的NPU IP能够高效地处理各类神经网络和计算任务,最小化数据传输,成为推动嵌入式智能设备发展的关键要素。



芯原的NPU主要分为DSA、嵌入式系统、数据中心三个方向。



值得一提的是,这些NPU IP基于GPU架构体系进行优化,利用可编程、可扩展及并行处理能力,为各类主流AI算法提供硬件加速的微处理器技术。



最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力,适用于Transformer和卷积神经网络(CNN)。


此外,VIP9000系列还融合了4位量化和压缩技术,以解决带宽限制问题,方便在嵌入式设备上部署生成式人工智能(AIGC)和大型语言模型(LLM)算法,如Stable Diffusion和Llama 2。



在过去两年中,Transformer已经成为主导模型,不仅在大语言模型上表现出色,在视觉、语音、Pixel等领域表现优异,相对传统卷积神经网络,效果提升明显。


芯原的架构则针对Transformer进行了定制优化,最新的IP包含了针对Transformer的特定优化,包括4bit、8bit、16×4、16×8的量化压缩,显著减少了带宽的消耗。


对于通用运算的GEMM/GEMV以及矩阵运算中,在一个具有40~48TOPS算力的AIPC中,其性能可以提升10倍。


经过优化,芯原的NPU在Stable diffusion 1.5中,能够达到20 steps under 2 seconds,在LLaMA2 7B中能够达到20 Tokens/s,性能相当出色。



软件生态对于AI的发展至关重要,芯原则提供了非常通用的软件栈,配备了广泛成熟的软件开发工具包(SDK),支持各大深度学习框架,确保客户产品能够迅速投放市场。


在应用层,芯原支持PyTorch、Transformer、ONNXRuntime等框架。在工具方面,VLLM是芯原研发的专用于大语言模型的框架,特别适用于云端。结合芯原的Acuity工具包,芯原的NPU IP支持PyTorch、ONNX和TensorFlow等主流框架。



Triton是OpenAI发明的一种高级编译语言,芯原也计划支持Triton,芯原计划在2024年10月完成对Triton的完整接入,以实现开放式的高级语言支持。


值得一提的是,通过利用芯原的FLEXA技术,VIP9000可无缝集成于芯原的图像信号处理器(ISP)及视频编码器,实现低延迟的AI-ISP和AI-Video子系统,且无需DDR内存。此外,还可根据特定需求定制,以平衡成本和灵活性,适应对功耗和空间有严格限制的深度嵌入式应用环境。


目前,采用芯原NPU IP的IA类芯片已经在全球出货超过1亿颗,客户72家,推出AI SoC 128款,市场领域超过10个。

关键字:芯原  NPU  IP 引用地址:芯原查凯南:NPU如何推进嵌入式智能设备发展

上一篇:芯原戴伟进:大模型已经来到了边缘
下一篇:芯原汪志伟:芯原IP、平台、软件整套解决方案,助力AIGC算力进一步升级

推荐阅读最新更新时间:2026-03-24 17:27

推出基于FD-SOI工艺的无线IP平台,支持多样化物联网及消费电子应用
为多种无线标准提供高集成、低功耗和业经市场验证的解决方案 2025年9月24日,中国上海——芯原股份今日发布其无线IP平台,旨在帮助客户快速开发高能效、高集成度的芯片,广泛应用于物联网和消费电子领域。该平台基于格罗方德(GF)22FDX ® (22纳米FD-SOI)工艺,支持短程、中程及远程无线连接,并提供完整的IP解决方案,可实现具有竞争力的功耗、性能及面积(PPA)。 该平台针对低能耗蓝牙(BLE)、双模蓝牙(BTDM)、NB-IoT及Cat.1/Cat.4等标准提供完整的IP解决方案,包括射频(RF)、基带以及软件协议栈。其中GNSS、802.11ah及802.15.4g等射频IP已被多家客户芯片采用并实现规模化量产
[物联网]
<font color='red'>芯</font><font color='red'>原</font>推出基于FD-SOI工艺的无线<font color='red'>IP</font>平台,支持多样化物联网及消费电子应用
与新基讯联合推出云豹系列第二代5G RedCap/4G LTE双模调制解调器IP
推动蜂窝移动通信技术不断迭代,加速轻量级5G应用落地 2025年1月23日,中国上海—— 芯原股份宣布其与无线通信技术和芯片提供商新基讯科技有限公司(简称“新基讯”)联合推出经量产验证的云豹系列第二代5G RedCap/4G LTE双模调制解调器(Modem)IP——云豹2。 此次推出的新一代Modem IP全面融合复用了4G与5G硬件加速器,面积与功耗均达到业内领先水准。 该IP符合3GPP 5G Rel-17协议标准,同时支持5G RedCap和4G LTE FDD/TDD,上下行传输速率分别达到170Mbps和120Mbps;具备多卡多待能力,支持URLLC、5G LAN、网络切片等5G特色功能。此外,采用云
[网络通信]
<font color='red'>芯</font><font color='red'>原</font>与新基讯联合推出云豹系列第二代5G RedCap/4G LTE双模调制解调器<font color='red'>IP</font>
赛昉基于RISC-V的JH-7110智能视觉处理平台采用了的显示处理器IP
芯原可扩展且灵活的DC8200 IP可提供显示设备自适应能力和高质量显示效果,赋能沉浸式视觉体验 2024年3月21日,中国上海—— 芯原股份(芯原)今日宣布赛昉科技(简称“赛昉”)基于RISC-V架构的量产SoC昉·惊鸿-7110(JH-7110)采用了芯原的显示处理器IP DC8200。 该SoC具有高性能、低功耗和高安全性的特点,为云计算、工业控制、网络附加存储(NAS)、平板电脑、人机界面(HMI)等多种应用提供完整的智能视觉处理平台解决方案。 芯原的DC8200 IP支持高级的图像质量增强,可为用户提供卓越的视觉体验。 该IP还可通过配置来为目标应用提供最佳的解决方案。通过集成芯原自有的压缩技术,DC820
[嵌入式]
赛昉基于RISC-V的JH-7110智能视觉处理平台采用了<font color='red'>芯</font><font color='red'>原</font>的显示处理器<font color='red'>IP</font>
业界领先的嵌入式GPU IP赋能先楫高性能的HPM6800系列RISC-V MCU
先楫新一代的仪表显示产品具有高画质、低功耗等特点 2024年3月4日,中国上海—— 芯原股份今日宣布先楫半导体(简称“先楫”)的HPM6800系列新一代数字仪表显示及人机界面系统应用平台采用了芯原的高性能2.5D图形处理器(GPU)IP。 HPM6800系列产品基于RISC-V CPU内核,具备高算力、低功耗、高集成度和出色的多媒体功能,适用于汽车仪表、人机交互界面(HMI),以及电子后视镜(CMS)等需要复杂图形处理、高分辨率显示和高性能多媒体用户界面的应用。 芯原支持OpenVG的2.5D GPU IP能够为MCU/MPU设备提供高能效的图形处理和优质的图像输出,同时显著降低CPU负载。 凭借成熟的可扩展性,该GP
[嵌入式]
<font color='red'>芯</font><font color='red'>原</font>业界领先的嵌入式GPU <font color='red'>IP</font>赋能先楫高性能的HPM6800系列RISC-V MCU
第二代面向汽车应用的ISP系列IP已通过ISO 26262 ASIL B和ASIL D认证
ISP8200-FS系列IP可满足快速增长的汽车市场持续演进的需求 2024年1月8日,美国拉斯维加斯—— 芯原股份 今日宣布其专为高性能汽车应用而设计的图像信号处理器(ISP)IP ISP8200-FS和ISP8200L-FS已通过汽车功能安全标准ISO 26262认证,达到随机故障安全等级ASIL B级和系统性故障安全等级ASIL D级。 认证证书由领先的功能安全咨询公司ResilTech颁发。芯原第一代通过ISO 26262认证的ISP IP已被多家汽车客户采用,ISP8200-FS系列IP在此基础上针对汽车应用进行了升级,提供更先进的ISP技术和多个增强的关键功能。 面向汽车应用的ISP8200-FS系列IS
[汽车电子]
<font color='red'>芯</font><font color='red'>原</font>第二代面向汽车应用的ISP系列<font color='red'>IP</font>已通过ISO 26262 ASIL B和ASIL D认证
IP授权业务收入占比增加,股份去年净利润亏损收窄
2月24日晚间,芯原股份发布2020年年度业绩快报,2020年度芯原股份实现营业收入15.06亿元,同比增长12.40%;本年度归属于母公司所有者的净利润为-2,556.64万元,亏损进一步收窄,收窄幅度为37.90%;归属于母公司所有者的扣除非经常性损益的净利润为-10,658.51万元,扣非后亏损增加596.01万元。 对于业绩变动,芯原股份认为主要影响因素有以下几个方面: 即使在全球新冠疫情爆发的大背景下,芯原股份2020年度业绩仍然实现增长,营业收入较2019年度增长12.40%,主要由半导体IP授权业务及量产业务增长所驱动,两类业务收入同比增长率分别为46.94%及22.49%。 报告期内,芯原股份综合毛利率显著提升
[手机便携]
<font color='red'>IP</font>授权业务收入占比增加,<font color='red'>芯</font><font color='red'>原</font>股份去年净利润亏损收窄
微电子购买Arteris IP的 FlexNoC®互连技术
美国加利福尼亚州坎贝尔2018年3月13日消息——Arteris IP是经过实际验证的系统级芯片(SoC)互连半导体知识产权(IP)产品的创新供应商,今天宣布,芯原微电子控股有限公司(VeriSilicon)已购买多项Arteris FlexNoC互联IP产品的使用权,在数据中心、汽车和其他应用中用作系统级芯片(SoC)片上通信的主干部件。 芯原微电子是一家从事硅半导体平台服务(SiPaaS®)的公司,为广泛的市场提供全面的系统级芯片(SoC)解决方案。芯原微电子团队擅长使用Arteris IP来优化系统级芯片的片上通信,在芯片设计中多次成功实施Arteris片上网络(NoC)互连技术。芯原微电子公司使用Arteris互连IP
[半导体设计/制造]
因为汽车行业,国科微ADAS芯片“看上了”视觉处理器IP
先进驾驶辅助系统(Advanced Driver Assistant System),简称ADAS,是利用安装于车上的各式各样的传感器, 在第一时间收集车内外的环境数据, 进行静、动态物体的辨识、侦测与追踪等技术上的处理, 从而能够让驾驶者在最快的时间察觉可能发生的危险, 以引起注意和提高安全性的主动安全技术。下面就随汽车电子小编一起来了解一下相关内容吧。 ADAS 采用的传感器主要有摄像头、雷达、激光和超声波等,可以探测光、热、压力或其它用于监测汽车状态的变量, 通常位于车辆的前后保险杠、侧视镜、驾驶杆内部或者挡风玻璃上。早期的ADAS 技术主要以被动式报警为主,当车辆检测到潜在危险时, 会发出警报提醒驾车者注意异常的车辆或道
[汽车电子]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved