rk3399平台MNN推理引擎benchmark测试:CPU与GPU性能对比

最新更新时间:2026-04-14 来源: EEWorld 论坛作者: LitchiCheng关键字:rk3399  benchmark  CPU  GPU  OpenCL  性能测试 手机看文章 扫描二维码
随时随地手机看文章

背景介绍

MNN是阿里巴巴开源的一款轻量级深度学习推理引擎,专为移动端和嵌入式设备优化。本文基于rk3399平台,对MNN进行benchmark测试,比较CPU和GPU(通过OpenCL)的推理性能,以评估其在嵌入式环境中的适用性。

测试环境与步骤

测试在rk3399开发板上进行,首先通过Git克隆MNN仓库,并使用交叉编译工具链构建项目。在CMake配置中,启用了OpenCL支持以测试GPU加速,同时编译了benchmark工具。部署时,将生成的库文件和模型文件复制到目标设备,并运行benchmark测试程序,分别测试CPU(参数设为0)和GPU(参数设为3)模式。

测试结果分析

在CPU模式下,MNN表现稳定,多个模型的推理时间在13ms到505ms之间,例如MobileNetV2_224模型平均耗时42.041ms。而在GPU模式下,使用OpenCL加速后,性能反而下降,部分模型如SqueezeNetV1.0耗时增至159.619ms,且出现算子错误(如“scalePtrCL == nullptr”警告),表明OpenCL实现存在兼容性或性能问题。相比之下,作者提到在rk3568平台上OpenCL测试流畅,这暗示rk3399的GPU驱动或MNN适配可能需进一步优化。

结论与引导

本次测试显示,在rk3399平台上,MNN的CPU推理性能可靠,但GPU通过OpenCL加速时效果不佳,存在速度慢和算子错误问题。这可能是硬件适配或软件配置所致,建议开发者深入排查。更多详细步骤、完整测试数据和视频演示,请参考原帖子:rk3399使用阿里推理引擎MNN使用cpu和gpu进行benchmark,OpenCL效果不佳?

关键字:rk3399  benchmark  CPU  GPU  OpenCL  性能测试 引用地址:rk3399平台MNN推理引擎benchmark测试:CPU与GPU性能对比 本文为EEWorld论坛网友原创,未经授权谢绝转载。如需转载或用于商业请联系作者并注明出处。如认为该文章侵权或违规请联系:bbs_service@eeworld.com.cn

上一篇:pyarmnn图像分类推理入门教程
下一篇:得捷电子Follow me第4期项目总结:W5500-EVB-Pico与lwip网络应用开发

推荐阅读最新更新时间:2026-04-24 09:17

备战下世代SoC 高通GPU率先支援OpenCL
    高通(Qualcomm)正全力发展开放运算语言(OpenCL)软硬体。因应行动装置萤幕朝1,080p、4K×2K规格发展,一线晶片商均戮力发展异质核心协同运作技术,以推升下世代应用处理器系统单晶片(SoC)运算效能并降低功耗。其中,高通已抢先业界将绘图处理器(GPU)升级支援OpenCL规格,并开发相应的底层虚拟机器(LLVM),以软体管理方式让GPU分担中央处理器(CPU)及数位讯号处理器(DSP)影像处理任务。   高通产品市场总监鲍山泉提到,今年预计量产的Snapdragon 600和800系列处理器,均将支援OpenCL标准,强化影像处理能力。 高通产品市场总监鲍山泉表示,行动装置面对的影像运算任务复杂度日益
[手机便携]
AI芯片即将被颠覆?效率比CPU高100倍,功耗比GPU低1000倍
上世纪,一个名为“skunkworks”的项目构建了一个工程工作站,它的算力在当时非常出色,但为了驱动这个大家伙,处理器和主板都依赖着复杂的水冷系统散热。巧合的是,这一散热系统发生了故障,最终计算机内部完全被熔化。 现在,随着通用算力诸如GPU需求增加,加之每年部署的边缘设备越来越多,更多人开始关注计算的能源需求和散热。也就是说,谁能在更低功耗释放更多算力,就能赢得未来。 这两天,国外一家芯片初创公司Efficient Computer脱离“隐身模式”,并推出一款可重新配置的数据流处理器架构(Reconfigurable Dataflow Processor Architecture)的处理器——即Fabric架构。
[嵌入式]
AI芯片即将被颠覆?效率比<font color='red'>CPU</font>高100倍,功耗比<font color='red'>GPU</font>低1000倍
凌华科技发布基于Intel® Core™ Ultra的 COM Express计算模块,集成CPU+GPU+NPU,省电高达50%
面向电池供电、性能需求较高的边缘应用,cExpress-MTL 引入了英特尔的模块化架构,可以简化设计/开发的工作 重点摘要: 1.基于Intel® Core™ Ultra处理器的 COM Express 计算模块cExpress-MTL,集成了多达 8 个 Xe 核心 (128 EU)、一个 NPU 和 14 个 CPU 核心 (6P+8E),TDP 为 28W,GPU性能是上一代产品的 1.9 倍,功耗更低,提供专用的AI加速。 2. 利用Intel® 模块化架构中的低功耗 E 核心,Intel® Core Ultra™ 的能效比第 13 代Intel Core处理器高出 30-50%。 3. 除了硬件加速
[工业控制]
凌华科技发布基于Intel® Core™ Ultra的 COM Express计算模块,集成<font color='red'>CPU</font>+<font color='red'>GPU</font>+NPU,省电高达50%
Imagination联合Ventana,展示异构CPU-GPU SoC仿真成果
11 月 6 日消息,高性能 RISC-V CPU 设计公司 Ventana 联合 Imagination 共同开发异构 CPU-GPU SoC,两家公司将于下周的 RISC-V 峰会上展示其仿真模型。 据介绍,两家公司都是 RISC-V International 和 RISC-V 软件生态系统 (RISE) 项目的主要成员,并且都是开放架构的坚定倡导者。 Ventana Micro Systems 成立于 2018 年,其首款产品是 Veyron V1,于 2022 年 12 月在 RISC-V 峰会上推出。Ventana 将于下周推出 Veyron V2,此次联合创新成果预计也是围绕这一目标进行的。 据称,V2 相比 V
[半导体设计/制造]
华为公布倒装芯片封装最新专利:改善散热、CPUGPU等都能用
8月16日消息,从国家知识产权局官网获悉,华为技术有限公司日前公开了一项名为“具有改进的热性能的倒装芯片封装”专利,申请公布号为CN116601748A。 据了解,该专利实施例提供了一种倒装芯片封装、一种装备有应用封装结构的电路的装置以及一种组装封装的方法,更直观来说,就是一种提供芯片与散热器之间的接触方式,能帮助改善散热性能。 该专利可应用于CPU、GPU、FPGA(现场可编程门阵列)、ASIC(专用集成电路)等芯片类型,设备可以是智能手机、平板电脑、可穿戴移动设备、PC、工作站、服务器等。 专利提到,近来,半导体封装在处理性能方面的进步对热性能提出了更高的要求,以确保稳定操作。 就此而言,倒装芯片封装在热性能方面具有优
[半导体设计/制造]
工信部:加强CPUGPU和服务器等重点产品研发,增强算力产业自主创新能力
7月17日,记者从2023中国算力(基础设施)大会新闻发布会上了解到,近年来,我国算力基础设施建设扎实推进,发展动能持续增强,据测算,算力每投入1元,将带动3至4元的GDP经济增长。工信部副部长张云明在发布会上介绍,近五年,我国数据中心机架数量年复合增长率超过30%,截至2022年底,在用标准机架超过650万架,算力总规模达180EFLOPS,仅次于美国,存力总规模超过1000EB(1万亿GB)。2023年,工信部遴选公布了2022年国家新型数据中心典型案例名单,为推动算力基础设施高质量建设和应用,更好地支撑经济社会各领域数字化转型树立了标杆。 “但是,我们也看到,与推动数字经济与实体经济深度融合、实现经济社会高质量发展的目标任
[网络通信]
魅族18手机新增支持 CPU / GPU 调频功能,可以锁低频、高频
4月23日消息,近期不少网友发现,魅族18手机新增支持CPU处理器调频功能。   微博博主 @肥威 表示,在魅族 18 手机更新了 Flyme 9.2.5.3A 稳定版后,最新系统里面竟然自带锁频功能,简直是骁龙 888 福音,针对 CPU 小核、大核、超大核都可以做最低频和最高频的设置,GPU 也可以。除了很多人都需要的限频(对 18 这种小机身尤为重要),喜欢往死里拉满上背夹的也可以锁高频来用。本来是藏在开发者选项的,可以设置快捷方式到启动器。   并且该博主还发现,原来这只是启动 App 瞬间会恢复最高频率,进去应用以后就是手动设置的频率,这样更聪明,不会减弱瞬时性能,又可以起到限频的作用。
[手机便携]
魅族18手机新增支持 <font color='red'>CPU</font> / <font color='red'>GPU</font> 调频功能,可以锁低频、高频
【自适应计算在机器人领域的应用】连载二:工业类比CPUGPU,ASIC和FPGA,谁更适合机器人计算
: Víctor Mayoral-Vilches 和 Giulio Corradi,公司 连载二:工业类比/,和,谁更适合机器人计算 CPU 和通用 GPU (GPGPU) 是两种广泛使用的商业计算平台,因为它们可用性高且具有通用性。这些计算技术的通用性,是机器人专家对其特别感兴趣的原因。但是通用性的代价是: 1. 通用平台的固定架构难以适应新的机器人场景。追加功能往往需要追加硬件,这也往往意味着要花时间对新的硬件进行新的系统集成度。 2. 通用性必然导致其在时效上的缺陷,从而影响确定性形成(难以满足严格的实时性要求)。 3. 其功耗通常比专用计算架构(如 FPGA 或 ASIC)高一到两个数量级 (1)。
[机器人]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved