rk3399平台MNN推理引擎benchmark测试：CPU与GPU性能对比-电子工程世界

背景介绍

MNN是阿里巴巴开源的一款轻量级深度学习推理引擎，专为移动端和嵌入式设备优化。本文基于rk3399平台，对MNN进行benchmark测试，比较CPU和GPU（通过OpenCL）的推理性能，以评估其在嵌入式环境中的适用性。

测试环境与步骤

测试在rk3399开发板上进行，首先通过Git克隆MNN仓库，并使用交叉编译工具链构建项目。在CMake配置中，启用了OpenCL支持以测试GPU加速，同时编译了benchmark工具。部署时，将生成的库文件和模型文件复制到目标设备，并运行benchmark测试程序，分别测试CPU（参数设为0）和GPU（参数设为3）模式。

测试结果分析

在CPU模式下，MNN表现稳定，多个模型的推理时间在13ms到505ms之间，例如MobileNetV2_224模型平均耗时42.041ms。而在GPU模式下，使用OpenCL加速后，性能反而下降，部分模型如SqueezeNetV1.0耗时增至159.619ms，且出现算子错误（如“scalePtrCL == nullptr”警告），表明OpenCL实现存在兼容性或性能问题。相比之下，作者提到在rk3568平台上OpenCL测试流畅，这暗示rk3399的GPU驱动或MNN适配可能需进一步优化。

结论与引导

本次测试显示，在rk3399平台上，MNN的CPU推理性能可靠，但GPU通过OpenCL加速时效果不佳，存在速度慢和算子错误问题。这可能是硬件适配或软件配置所致，建议开发者深入排查。更多详细步骤、完整测试数据和视频演示，请参考原帖子：rk3399使用阿里推理引擎MNN使用cpu和gpu进行benchmark，OpenCL效果不佳？。

关键字：rk3399 benchmark CPU GPU OpenCL 性能测试引用地址：rk3399平台MNN推理引擎benchmark测试：CPU与GPU性能对比本文为EEWorld论坛网友原创，未经授权谢绝转载。如需转载或用于商业请联系作者并注明出处。如认为该文章侵权或违规请联系：bbs_service@eeworld.com.cn

上一篇：pyarmnn图像分类推理入门教程
下一篇：得捷电子Follow me第4期项目总结：W5500-EVB-Pico与lwip网络应用开发

推荐阅读最新更新时间：2026-04-24 09:17

备战下世代SoC　高通GPU率先支援OpenCL

高通(Qualcomm)正全力发展开放运算语言(OpenCL)软硬体。因应行动装置萤幕朝1,080p、4K×2K规格发展，一线晶片商均戮力发展异质核心协同运作技术，以推升下世代应用处理器系统单晶片(SoC)运算效能并降低功耗。其中，高通已抢先业界将绘图处理器(GPU)升级支援OpenCL规格，并开发相应的底层虚拟机器(LLVM)，以软体管理方式让GPU分担中央处理器(CPU)及数位讯号处理器(DSP)影像处理任务。高通产品市场总监鲍山泉提到，今年预计量产的Snapdragon 600和800系列处理器，均将支援OpenCL标准，强化影像处理能力。高通产品市场总监鲍山泉表示，行动装置面对的影像运算任务复杂度日益

[手机便携]

AI芯片即将被颠覆？效率比CPU高100倍，功耗比GPU低1000倍

上世纪，一个名为“skunkworks”的项目构建了一个工程工作站，它的算力在当时非常出色，但为了驱动这个大家伙，处理器和主板都依赖着复杂的水冷系统散热。巧合的是，这一散热系统发生了故障，最终计算机内部完全被熔化。现在，随着通用算力诸如GPU需求增加，加之每年部署的边缘设备越来越多，更多人开始关注计算的能源需求和散热。也就是说，谁能在更低功耗释放更多算力，就能赢得未来。这两天，国外一家芯片初创公司Efficient Computer脱离“隐身模式”，并推出一款可重新配置的数据流处理器架构（Reconfigurable Dataflow Processor Architecture）的处理器——即Fabric架构。

[嵌入式]

AI芯片即将被颠覆？效率比<font color='red'>CPU</font>高100倍，功耗比<font color='red'>GPU</font>低1000倍

凌华科技发布基于Intel® Core™ Ultra的 COM Express计算模块，集成CPU+GPU+NPU，省电高达50%

面向电池供电、性能需求较高的边缘应用，cExpress-MTL 引入了英特尔的模块化架构，可以简化设计/开发的工作重点摘要： 1.基于Intel® Core™ Ultra处理器的 COM Express 计算模块cExpress-MTL，集成了多达 8 个 Xe 核心 (128 EU)、一个 NPU 和 14 个 CPU 核心 (6P+8E)，TDP 为 28W，GPU性能是上一代产品的 1.9 倍，功耗更低，提供专用的AI加速。 2. 利用Intel® 模块化架构中的低功耗 E 核心，Intel® Core Ultra™ 的能效比第 13 代Intel Core处理器高出 30-50%。 3. 除了硬件加速

[工业控制]

凌华科技发布基于Intel® Core™ Ultra的 COM Express计算模块，集成<font color='red'>CPU</font>+<font color='red'>GPU</font>+NPU，省电高达50%

Imagination联合Ventana，展示异构CPU-GPU SoC仿真成果

11 月 6 日消息，高性能 RISC-V CPU 设计公司 Ventana 联合 Imagination 共同开发异构 CPU-GPU SoC，两家公司将于下周的 RISC-V 峰会上展示其仿真模型。据介绍，两家公司都是 RISC-V International 和 RISC-V 软件生态系统 (RISE) 项目的主要成员，并且都是开放架构的坚定倡导者。 Ventana Micro Systems 成立于 2018 年，其首款产品是 Veyron V1，于 2022 年 12 月在 RISC-V 峰会上推出。Ventana 将于下周推出 Veyron V2，此次联合创新成果预计也是围绕这一目标进行的。据称，V2 相比 V

[半导体设计/制造]

华为公布倒装芯片封装最新专利：改善散热、CPU、GPU等都能用

8月16日消息，从国家知识产权局官网获悉，华为技术有限公司日前公开了一项名为“具有改进的热性能的倒装芯片封装”专利，申请公布号为CN116601748A。据了解，该专利实施例提供了一种倒装芯片封装、一种装备有应用封装结构的电路的装置以及一种组装封装的方法，更直观来说，就是一种提供芯片与散热器之间的接触方式，能帮助改善散热性能。该专利可应用于CPU、GPU、FPGA（现场可编程门阵列）、ASIC（专用集成电路）等芯片类型，设备可以是智能手机、平板电脑、可穿戴移动设备、PC、工作站、服务器等。专利提到，近来，半导体封装在处理性能方面的进步对热性能提出了更高的要求，以确保稳定操作。就此而言，倒装芯片封装在热性能方面具有优

[半导体设计/制造]

工信部：加强CPU、GPU和服务器等重点产品研发，增强算力产业自主创新能力

7月17日，记者从2023中国算力（基础设施）大会新闻发布会上了解到，近年来，我国算力基础设施建设扎实推进，发展动能持续增强，据测算，算力每投入1元，将带动3至4元的GDP经济增长。工信部副部长张云明在发布会上介绍，近五年，我国数据中心机架数量年复合增长率超过30%，截至2022年底，在用标准机架超过650万架，算力总规模达180EFLOPS，仅次于美国，存力总规模超过1000EB（1万亿GB）。2023年，工信部遴选公布了2022年国家新型数据中心典型案例名单，为推动算力基础设施高质量建设和应用，更好地支撑经济社会各领域数字化转型树立了标杆。 “但是，我们也看到，与推动数字经济与实体经济深度融合、实现经济社会高质量发展的目标任

[网络通信]

魅族18手机新增支持 CPU / GPU 调频功能，可以锁低频、高频

4月23日消息，近期不少网友发现，魅族18手机新增支持CPU处理器调频功能。　　微博博主 @肥威表示，在魅族 18 手机更新了 Flyme 9.2.5.3A 稳定版后，最新系统里面竟然自带锁频功能，简直是骁龙 888 福音，针对 CPU 小核、大核、超大核都可以做最低频和最高频的设置，GPU 也可以。除了很多人都需要的限频（对 18 这种小机身尤为重要），喜欢往死里拉满上背夹的也可以锁高频来用。本来是藏在开发者选项的，可以设置快捷方式到启动器。　　并且该博主还发现，原来这只是启动 App 瞬间会恢复最高频率，进去应用以后就是手动设置的频率，这样更聪明，不会减弱瞬时性能，又可以起到限频的作用。

[手机便携]

魅族18手机新增支持 <font color='red'>CPU</font> / <font color='red'>GPU</font> 调频功能，可以锁低频、高频

【自适应计算在机器人领域的应用】连载二：工业类比CPU／GPU，ASIC和FPGA，谁更适合机器人计算

： Víctor Mayoral-Vilches 和 Giulio Corradi，公司连载二：工业类比／，和，谁更适合机器人计算 CPU 和通用 GPU （GPGPU）是两种广泛使用的商业计算平台，因为它们可用性高且具有通用性。这些计算技术的通用性，是机器人专家对其特别感兴趣的原因。但是通用性的代价是： 1. 通用平台的固定架构难以适应新的机器人场景。追加功能往往需要追加硬件，这也往往意味着要花时间对新的硬件进行新的系统集成度。 2. 通用性必然导致其在时效上的缺陷，从而影响确定性形成（难以满足严格的实时性要求）。 3. 其功耗通常比专用计算架构（如 FPGA 或 ASIC）高一到两个数量级（1）。

[机器人]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■【上海/深圳线下报名】TI工业自动化与机器人功能安全研讨会

■威健&NXP 5月8日有奖直播报名中！

■Littelfuse技术日【北京站】诚邀您报名，通讯设备/轨道交通/人工智能/医疗电子专场，5月22日（周五）

■填问卷赢好礼 | 想学电源设计？来MPS小课堂！