看过来，RK3576开发板NPU方案你用对了吗？-电子工程世界

摘要

本文基于米尔 MYD-LR3576 开发板，详细记录了如何利用 500 万像素 USB 摄像头实现 640×640 分辨率的 YOLO5s 目标检测，并将结果实时输出至 1080P 屏幕的全流程。通过系统级的软硬件协同优化，最终将端到端延迟控制在 40ms 以内，实现了 20FPS 的稳定实时检测性能。文章重点剖析了摄像头特性分析、显示通路选择、RGA 硬件加速、RKNN NPU 集成等关键技术环节，为嵌入式 AI 视觉系统的开发与调优提供了一套完整的思路与实践方案。

image.png?imageView2/2/w/550

图：米尔基于RK3576核心板开发板

一、系统架构与性能目标

1.1 硬件平台

 主控芯片：Rockchip RK3576（四核A72+四核A53，6TOPS NPU，RGA,GPU,VPU）

 摄像头：500万像素USB摄像头（支持MJPEG/YUYV格式）

 显示器：4K HDMI显示屏（通过Weston桌面环境显示）

 开发板：米尔MYD-LR3576

1.2 软件平台

使用米尔官方 V2.0.0 SDK 提供的 buildroot 镜像，内核版本为 6.1.118。

系统信息如下：

root@myd-lr3576-buildroot:/# uname -a

Linux myd-lr3576-buildroot 6.1.118 #1 SMP Fri Sep 26 02:34:15 UTC 2025 aarch64 GNU/Linux

1.3 性能目标

• 实时性：完成从摄像头采集 → NPU推理 → 屏幕显示的完整流程，耗时不超过摄像头一帧的时间。

• 输入/输出：尽可能提高摄像头采集帧率，并在显示端支持更高的输出分辨率。

• 功能：实现 YOLO5s 目标检测，并在视频画面中实时绘制检测框。

二、数据处理流程与优化实践

摄像头数据需要经历哪些过程才能到显示端输出，参考下图

image.png?imageView2/2/w/550

2.1 CPU 处理方案及其瓶颈

image.png?imageView2/2/w/550

如果把摄像头数据直接显示到屏幕上，先了解清楚它们输入输出关系。

摄像头输出可以用v4l2-ctl -D -d /dev/videoxx --list-formats-ext

Display输出可用用cat /sys/kernel/debug/dri/0/state查看

image.png?imageView2/2/w/550

根据实时性来说，需要选择最高fps分辨率对应输出，这里选择640x480 20fps，那么它需要把YUYV格式替换成RGBA8888才能显示。

显示大小不超过屏幕最大分辨率3840x2160即可。

CPU处理是如下过程

image.png?imageView2/2/w/550

若要将摄像头采集的 YUYV 格式数据直接显示到屏幕，需先转换为 RGBA8888 格式。在 CPU 上进行格式转换与缩放的性能如下（输入为 640×480 YUYV）：

image.png?imageView2/2/w/550

可见，CPU 在处理 1080P 分辨率时已接近能力上限，更高分辨率则无法满足实时性要求。

2.2 引入 RGA 进行硬件加速

RGA作为RK3576 2D处理芯片模块，它的作用是对图片做旋转，缩放，旋转，镜像以及格式转换。

根据手册信息，它能处理数据的性能是物理地址 > dma > 虚拟地址。那么用RGA来替换CPU的格式转换和缩放。

image.png?imageView2/2/w/550

RGA是一次进行转换和缩放，下面是对比CPU运算的对比图

使用 RGA 替代 CPU 进行格式转换与缩放后，性能对比如下：

image.png?imageView2/2/w/550

RGA 的引入带来了数量级的性能提升，尤其是 DMA 模式，大幅降低了处理延迟。

2.3 GPU 直接显示方案

调试阶段常使用 OpenCV 的 imshow 显示图像，但其依赖 CPU 参与，无法满足实时性要求。系统实际采用 DRM 显示框架与 Weston 桌面环境，因此我们选用 Wayland-client 方案进行直接显示，实现 GPU 直显。

image.png?imageView2/2/w/550

不同输入模式下的显示耗时对比：

image.png?imageView2/2/w/550

2.4 NPU 推理流程与耗时分析

image.png?imageView2/2/w/550

通用模型，通过rknn-toolkit2转换成rknn后就可以通过RKNN API来调用和推导。

这里我们直接采用同事提供的rknn模型，yolov5s-640-640.rknn和coco_80_labels_list.txt，以及一些调用参考代码。

它的输入必须是640x640RGB格式

rknn推理虚拟地址关键步骤如下

image.png?imageView2/2/w/550

实际测试后rknn_run 这个阶段大概耗时 26~31ms之间

rknn_outputs_get 获取数据后即可进行内部处理，检测出目标，坐标，信心指数，根据实际需求绘制在屏幕上，这一步可以多进程异步处理，不算在串行时间内，笔者测试大概会多花8ms左右。

image.png?imageView2/2/w/550

因此总计一下摄像头实时采集NPU推理到显示整个过程耗时情况

image.png?imageView2/2/w/550

结论：NPU 推理阶段（T2）仍是系统的主要耗时环节。但通过 DMA + RGA + 直接显示的优化组合，系统整体延迟大幅降低，且在高分辨率输出下仍能保持稳定的帧率。

2.5 多摄像头系统资源占用分析

虚拟内存方案

1个摄像头

image.png?imageView2/2/w/550

4个摄像头

image.png?imageView2/2/w/550

Dma方案

1路摄像头输出

image.png?imageView2/2/w/550

2路摄像头输入

image.png?imageView2/2/w/550

三、总结

在嵌入式 AI 视觉系统中，NPU 的算力是决定性能上限的关键因素。然而，要达到这一上限，必须构建高效的数据流水线。本文实践表明，通过 RGA 硬件加速、DMA 零拷贝数据传输以及 GPU 直接显示的协同优化，能够彻底释放 RK3576 平台的异构计算潜力，将端到端延迟控制在数十毫秒内，实现高清、实时的目标检测应用。这一优化思路同样适用于其他具备类似硬件加速单元的嵌入式 AI 平台。

关键字：开发板 NPU 核心板算力引用地址：看过来，RK3576开发板NPU方案你用对了吗？

上一篇：纳芯微推出基于QM隔离驱动NSI67xx-Q1、满足ASIL C功能安全等级的电驱系统方案
下一篇：栅极驱动市场竞争激烈，纳芯微为何能够独具一格

推荐阅读最新更新时间：2026-03-07 14:30

米尔首发！全志T527第一款核心板，高性能8核处理器带AI NPU

今天，米尔电子联合战略合作伙伴全志科技，隆重发布国产第一款T527核心板及开发板。基于全志T527高性能国产处理器，可选AI功能MPU，配备八核 Cortex-A55内核，采用RISC-V协处理器；T527核心板支持 2Tops NPU ，满足边缘智能AI加速应用；支持丰富的通讯接口，包括2路千兆以太网、1路PCIE2.1、2路CAN、10路UART串口等超多接口，功能强大。T527为智慧商显、零售支付、智慧教育、商用机器人、智慧车载、视觉辅驾、工业控制、边缘计算、智能配电终端等千行百业赋能。米尔基于全志T527的核心板在国产工业核心模组领域，八核Cortex-A55具备相当强的竞争力，欢迎广大客户咨询。

[嵌入式]

米尔首发！全志T527第一款<font color='red'>核心板</font>，高性能8核处理器带AI <font color='red'>NPU</font>

看过来，RK3576开发板NPU方案你用对了吗？

摘要本文基于米尔 MYD-LR3576 开发板，详细记录了如何利用 500 万像素 USB 摄像头实现 640×640 分辨率的 YOLO5s 目标检测，并将结果实时输出至 1080P 屏幕的全流程。通过系统级的软硬件协同优化，最终将端到端延迟控制在 40ms 以内，实现了 20FPS 的稳定实时检测性能。文章重点剖析了摄像头特性分析、显示通路选择、RGA 硬件加速、RKNN NPU 集成等关键技术环节，为嵌入式 AI 视觉系统的开发与调优提供了一套完整的思路与实践方案。图：米尔基于RK3576核心板开发板一、系统架构与性能目标 1.1 硬件平台  主控芯片：Rockchip RK3576（四核A72

[电源管理]

看过来，RK3576<font color='red'>开发板</font><font color='red'>NPU</font>方案你用对了吗？

I/O完成关键突破，我国算力核心部件攻克国产化“最后1%”

2月4日，光合组织成员单位灵达发布服务器存储控制与高速网络连接系列国产核心 I/O部件。灵达发布的灵可达Linkdata产品采用纯自研架构，在性能与能效方面实现同步提升，打破该类关键部件长期依赖进口的局面。目前，灵可达Linkdata产品已在通用服务器、AI 服务器及重点行业应用场景中实现规模化交付。纯自研 I/O部件夯实底座能力本次发布的灵可达Linkdata产品覆盖HBA卡、RAID 卡及10G/25G网卡等核心I/O部件，均基于纯自研架构设计，实现了100%自主可控。其中，存储产品全面支持Tri-Mode规格，可同时兼容SATA、SAS与NVMe三种协议形态，领先国内同类产品，为未来以NVMe为主的存储架构

[半导体设计/制造]

I/O完成关键突破，我国<font color='red'>算</font><font color='red'>力</font>核心部件攻克国产化“最后1%”

应对端侧AI算力、内存、功耗“三堵墙”困境，安谋科技Arm China “周易”X3给出技术锦囊

AI大模型正加速从云端向边缘与端侧渗透，然而，算力、内存、功耗等却成了制约其规模化落地的“高墙”。专为AI计算而生的神经网络处理器（NPU），成为破墙关键。安谋科技Arm China“周易”X3 NPU IP，通过架构创新、软硬件协同优化与开放生态等，为应对端侧AI“算力墙”、“内存墙”、“功耗墙”困境给出技术锦囊。锦囊一：应对“算力墙”，从“定点”到“浮点”，架构升级与算力灵活配置端侧AI从CNN向Transformer迁移，对高精度浮点运算的需求激增。传统NPU受限于架构适配性差、算力调度效率低等，难以满足复杂AI场景的动态需求。为应对大模型对端侧算力的严苛需求，“周易”X3提供了高效的解决方案。 “周

[嵌入式]

应对端侧AI<font color='red'>算</font><font color='red'>力</font>、内存、功耗“三堵墙”困境，安谋科技Arm China “周易”X3给出技术锦囊

破解AI算力狂飙下散热难题，数据中心液冷方案首次实现“计算-存储-散热”一体化

随着数据中心单机架功率突破100千瓦，传统风冷在几何级增长的热量面前已无以为继。液冷技术以其卓越性能，成为了应对这一挑战的关键路径。目前，全球液冷市场在高速增长之中，2024年全球液冷市场增长96%，光冷板式就占据了90%以上的份额。可以说，对于高速发展的AI数据中心来说，散热的重要性远比想象中要重要得多。去年，英特尔颠覆业界的至强6900系列性能核处理器正式面世，最高配备128核心性能核。如此强劲的性能，想要发挥出100%的功力，散热一定是不能忽视的问题。在今年的英特尔技术创新与产业生态大会（Intel Connection）上，携手本地生态伙伴——新华三、英维克、忆联及国内领先内存厂商，发布了基于英特尔至强6900

[半导体设计/制造]

破解AI<font color='red'>算</font><font color='red'>力</font>狂飙下散热难题，数据中心液冷方案首次实现“计算-存储-散热”一体化

特斯拉下一代芯片AI5：算力暴涨，自动驾驶瓶颈仍未破解？

特斯拉的新一代AI5芯片马上要来了，与现有硬件相比，AI5在计算性能、能效以及成本控制上均有巨大提升，马斯克宣称AI5将带来“人类驾驶安全性提升1000%”的飞跃，到底怎么样呢？在特斯拉的辅助驾驶体系中，自制的AI芯片是核心大脑，负责实时处理来自车载摄像头的大量视觉数据，并结合算法模型做出毫秒级决策。从HW3（AI3）到HW4（AI4），特斯拉不断强化车载计算平台，以更高的算力来支撑其端到端神经网络。特斯拉在自动驾驶体系上的核心逻辑：依赖硬件突破以弥补算法和感知的瓶颈。根据特斯拉公布的信息，AI5的计算性能将比AI4提升50倍，而成本仅为十分之一，内存容量提升九倍，并采用更高效的块量化与softm

[汽车电子]

用铠侠BiCS Flash，为AI算力创造新可能

AI的计算、数据传输与存储已经成为当下数据中心和服务器端最为关注的问题之一。在有限的空间和成本内如何实现更高的收益，如何让存储方案给计算单元提供充足的数据支持，加速数据交换，节省电力和散热成本都值得探讨，其中就包括闪存技术如何扮演起关键角色。闪存技术最初被广泛应用在消费级产品中，旨在缩小存储方案占用空间、提升性能。随着闪存技术的不断升级，这项技术已经从成为消费级产品存储主力，并紧接着在网络、云计算的企业级存储中提供高速的数据存取支持。如今数据存储正在迈向AI时代，通过大量创新型的存储方案创造更多可能性。例如，为了使用GPU处理这些数据并进行AI训练和推理，高性能、大容量、低功耗的闪存设备必不可少。例如铠侠第八代Bi

[嵌入式]

用铠侠BiCS Flash，为AI<font color='red'>算</font><font color='red'>力</font>创造新可能

研华 MIC-743边缘AI新品首发基于英伟达Thor平台提供强劲算力

近日，研华科技重磅推出基于NVIDIA Jetson Thor平台的边缘AI新品 MIC-743，这款突破性产品以高达2070 FP4 TOPS的AI算力重新定义边缘计算性能边界，其紧凑型设计与工业级可靠性完美结合，提供强算力+小体积+高稳定的黄金三角组合。适用于当前自动化设备、边缘端VLM（视觉语言模型）和机器人等热门应用。为视觉语言模型（VLM）和大型语言模型（LLM）提供强劲算力支持 MIC-743基于NVIDIA ® Jetson T5000™ Thor模块，可提供高达2,070 FP4 TFLOPsAI算力，支持复杂边缘应用的实时推理。其2560个CUDA core和96个Tensor core为深度

[工业控制]