一个用于周视语义占用网格感知的基准测试

发布者:快乐家庭最新更新时间:2024-06-11 来源: elecfans关键字:基准测试 手机看文章 扫描二维码
随时随地手机看文章

摘要

语义占用网格感知对于自动驾驶至关重要,因为自动驾驶车辆需要对3D城市场景进行细粒度感知。然而,现有的相关基准测试在城市场景的多样性方面存在不足,并且仅评估前视预测感知。为了全面评估周视感知算法,我们提出了OpenOccupancy,这是第一个用于周视语义占用网格感知的基准测试方法。在OpenOccupancy基准测试中,我们通过添加稠密的语义占用网格标注来扩展大规模的nuScenes数据集。以前的标注依赖于LiDAR点云的叠加,由于LiDAR数据的稀疏,导致一些占用标签被遗漏。为了缓解这个问题,我们引入了增强与净化(AAP)流程,将标注密度提高了约2倍,其中涉及约4000个人工小时的标注过程。此外为OpenOccupancy基准测试建立了基于摄像头、LiDAR和多模态的基线模型。此外考虑到周视占用感知的复杂性在于高分辨率3D预测的计算负担,我们提出了级联占用网络(CONet)来改进粗糙预测,相对于基线模型提高了约30%的性能。我们希望OpenOccupancy基准测试能促进周视占用感知算法的发展。


主要贡献

尽管目前对于语义占用网格感知越来越受到关注,但大多数相关基准都是针对室内场景设计的,SemanticKITTI 将占用感知扩展到驾驶场景,但其数据集规模相对较小且多样性有限,这影响了开发占用感知算法的泛化和评估。此外,SemanticKITTI只评估前视图的占用网格结果,而对于安全驾驶而言,周视感知更为关键。为解决这些问题,我们提出了OpenOccupancy,这是第一个用于周视语义占用感知的基准。在OpenOccupancy基准中引入了nuScenes-Occupancy,它将大规模的nuScenes数据集与密集的语义占用标注相结合。

6498e2c2-3a2e-11ee-9e74-dac502259ad0.png?imageView2/2/w/1000

如表1所示,nuScenes-Occupancy标注的场景和帧数比多约40倍和20倍。值得注意的是,通过人工直接标注大规模的占用标签几乎是不现实的。因此引入了Augmenting And Purifying (AAP)流程,以高效地标注和稠密的占用标签。

64b7a02c-3a2e-11ee-9e74-dac502259ad0.png?imageView2/2/w/1000

图1:nuScenes-Occupancy为nuScenes数据集中的所有关键帧提供了稠密的语义占用网格标签,在这里展示了标注的地面真值,体积大小为(40 × 512 × 512),网格大小为0.2米。

图1展示了稠密标注的可视化效果。为了促进未来研究,我们在OpenOccupancy基准中建立了基于相机、基于LiDAR和多模式的基线。实验结果显示,基于相机的方法在小物体(如自行车、行人、摩托车)方面表现更好,而基于LiDAR的方法在大型结构区域(如行驶表面、人行道)方面表现更优。值得注意的是,多模式基线通过自适应融合两种模态的中间特征,相对提高了基于相机和基于LiDAR方法的整体性能,分别提升了47%和29%。考虑到周围占用感知的计算负担,所提出的基线只能生成低分辨率的预测。为了实现高效的占用感知,我们提出了级联占用网络(CONet),在所提出的基线之上构建了一个从粗糙到精细的流程,相对提高了性能约30%。主要贡献总结如下:

提出了OpenOccupancy,这是第一个针对驾驶场景中周围占用感知的基准。

通过nuScenes数据集引入了AAP流程,它高效地标注和稠密化了周围语义占用标签,结果形成了第一个用于周围语义占用分割的数据集nuScenes-Occupancy。

我们在OpenOccupancy基准上建立了基于相机、基于LiDAR和多模式的基线。此外,我们引入了CONet来减轻高分辨率占用预测的计算负担,相对提高了基线性能约30%。

主要内容

周视语义占用网格感知

周视语义占用感知是指生成场景的完整3D表示,包括体积占用和语义标签,与前视图感知的单目范例不同,周视占用感知算法旨在在周围视图的驾驶场景中生成语义占用,具体而言,给定360度的输入Xi(例如LiDAR扫描或周围视图图像),感知算法需要预测周围的占用标签F(Xi) ∈ R D×H×W,其中D、H、W是整个场景的体积大小。值得注意的是,周视图的输入范围比前视觉传感器覆盖的范围大约多了5倍,因此,周视占用网格感知的核心挑战在于高效构建高分辨率的占用表示。

nuScenes-Occupancy

SemanticKITTI 是首个用于室外占据感知的数据集,但在驾驶场景方面缺乏多样性,并且仅评估前视感知,为了创建一个大规模的环境占据感知数据集,我们引入了nuScenes-Occupancy,它在nuScenes数据集的基础上添加了稠密的语义占用标注。作者引入了AAP(Augmenting And Purifying)流程来高效地标注和密集化占据标签。

整个AAP流程如算法1所示。

64e757e0-3a2e-11ee-9e74-dac502259ad0.png?imageView2/2/w/1000

如图2所示,伪标签对初始标注是补充的,而增强和纯化标签更密集和精确,值得注意的是增强和纯化标注中每个帧中约有40万个占据体素,比初始标注密集了约2倍。总之,nuScenes-Occupancy包含28130个训练帧和6019个验证帧,在每个帧中对占据的体素分配了17个语义标签。

65176872-3a2e-11ee-9e74-dac502259ad0.png?imageView2/2/w/1000

图2:初始标注、伪标注和增强纯化标注之间的对比,红圈和蓝圈突出显示增强标注更加密集和准确的区域。

OpenOccupancy基线

大多数现有的占据感知方法都是为前视感知而设计的,为了将这些方法扩展到周围的占据感知,需要对每个相机视角的输入进行单独处理,这是低效的。此外,两个相邻输出的重叠区域可能存在不一致性,为了缓解这些问题,我们建立了一致地从360度输入(例如LiDAR扫描或环视图像)中学习周围语义占据的基线,具体而言,为OpenOccupancy基准提出了基于相机的、基于LiDAR的和多模态的基线,如图3所示。

6535c9b6-3a2e-11ee-9e74-dac502259ad0.png?imageView2/2/w/1000

图3:三种提出的基线的整体架构,LiDAR分支利用3D编码器提取体素化的LiDAR特征,相机分支使用2D编码器学习环视图特征,然后将其转换为生成3D相机体素特征,在多模态分支中,自适应融合模块动态地集成两种模态的特征。所有三个分支都利用3D解码器和占据头来产生语义占据,在占据结果图中,红色和紫色圈圈标示出多模态分支可以生成更完整和准确的预测。

实验

在OpenOccupancy基准测试中,基于nuScenes-Occupancy评估周围语义占据感知性能,对提出的基线、CONet和现代占据感知算法进行全面实验。所有模型在8个A100 GPU上以8个批次大小进行训练,共训练24个时期。利用OpenOccupancy基准测试,我们分析了六种现代方法(MonoScene ,TPVFormer,3DSketch ,AICNet ,LMSCNet,JS3C-Net )以及提出的基线和CONet的周围占据感知性能,从表2的结果可以看出:

与单视图方法相比,周围占据感知范式表现出更好的性能。

提出的基线对周围占据感知具有适应性和可扩展性。

相机和LiDAR的信息相互补充,多模态基线显著提高了性能。

周视占据感知的复杂性在于高分辨率3D预测的计算负担,这可以通过提出的CONet来减轻。

657dcea0-3a2e-11ee-9e74-dac502259ad0.png?imageView2/2/w/1000

这里提供可视化结果(见图5)来验证CONet可以基于粗糙预测生成精细的占据网格结果。

65a2f45a-3a2e-11ee-9e74-dac502259ad0.png?imageView2/2/w/1000

图5:语义占据预测的可视化,第1行是周视图像。第2行和第3行显示了由多模态基线和多模态CONet生成的相机视图的粗糙和精细占据,第4行比较了它们的全局视图预测。

总结

本文提出了OpenOccupancy,这是首个用于驾驶场景中周视语义占据感知的基准测试,具体而言引入了nuScenes-Occupancy,它基于提出的AAP流水线扩展了nuScenes数据集,带有稠密的语义占据标注,在OpenOccupancy基准测试中建立了基于相机、基于LiDAR和多模态的基线。此外还提出了CONet来减轻高分辨率占据预测的计算负担。在OpenOccupancy基准测试中进行了全面的实验,结果显示基于相机和基于LiDAR的基线相互补充,而多模态基线进一步提高了性能,分别提高了47%和29%。此外所提出的CONet相对于基线提高了约30%,并且延迟开销最小。我们希望OpenOccupancy基准测试对于周视语义占据感知的发展有所帮助。


关键字:基准测试 引用地址:一个用于周视语义占用网格感知的基准测试

上一篇:新能源汽车800v快充技术分析
下一篇:800V平台车型,电池包电压为什么不到800V?

推荐阅读最新更新时间:2026-03-24 21:12

自动驾驶中基于网格的交通场景感知介绍
本文介绍了中基于网格的交通场景感知:研究综述。基于网格的感知是移动感知和导航的关键领域。尽管如此,在自动驾驶中以网格为中心的感知不如以目标为中心的感知那么常用,因为自动驾驶汽车需要精确感知高度动态的大规模室外交通场景,并且以网格为中心的感知具有较高复杂度和计算代价。技术和的快速发展为以网格为中心的感知提供了新的视角,并且使得很多实时得以部署。目前的和学术研究证明了以网格为中心的感知具有较大优势,例如全面的精细环境表示、对遮挡具有更强鲁棒性、更高效的融合以及更安全的规划策略。鉴于目前缺乏对这一快速发展领域的调研,本文对自动驾驶汽车中基于网格的感知进行分层结构化的回顾。本文总结了先前和目前占据网格技术的知识,并且从三方面对算法进行系
[机器人]
AMD 创下 STAC 基准测试最快电子交易执行速度世界纪录
从复杂的算法交易和交易前风险评估到实时市场数据传输,当今领先的交易公司、做市商、 对冲基金、经纪商和交易所都在不断追求最低时延的交易执行 ,以获得竞争优势 。 AMD 与全球领先的高级交易和执行系统提供商 Exegy 合作,取得了创世界纪录的 STAC-T0 基准测试结果,实现了最低 13.9 纳秒 ( ns ) 的交易执行操作时延。相比此前的记录,这一结果可令 tick-to-trade 时延至多降低 49%,是迄今为止发布的最快 STAC-T0 基准测试结果 1 。此前的最高速度记录为 24.2 纳秒,同样来自采用 AMD 加速卡的参考设计 1 。 STAC 基准测试是业界用于测试高速时间序列报价数据分析解决
[嵌入式]
AMD 创下 STAC <font color='red'>基准</font><font color='red'>测试</font>最快电子交易执行速度世界纪录
是德科技推出全新网络基准测试解决方案
是德科技推出全新网络基准测试解决方案,助力移动运营商验证多个 4G 和 5G 网络上的体验质量 解决方案支持扩展,只需一次路测即可完成全套测量 是德科技公司日前宣布,推出全新Nemo 网络基准测试解决方案(NBM),助力移动运营商在多个 5G 新空口(NR)网络和 4G LTE 网络上验证最终用户体验质量(QoE)。是德科技提供先进的设计和验证解决方案,旨在加速创新,创造一个安全互联的世界。 根据全球移动供应商协会的数据,过去一年间,采用商用 5G 部署的移动运营商的数量增加了一倍以上。在大规模部署继续展开的同时,移动运营商和监管机构也会随之扩大基准测试范围,从而了解他们的网络与竞争对手的网络在性能上有何差异。是德
[测试测量]
是德科技推出全新网络<font color='red'>基准</font><font color='red'>测试</font>解决方案
采用A14X芯片的Apple Silicon Mac基准测试成绩解密
苹果即将在本月的发布会上揭晓首款搭载自研 ARM 芯片的 Mac 新机,但在此之前,网络上已经曝光了“A14X”芯片的基准测试成绩。可知这枚八核芯片的基础频率为 1.8GHz,动态加速可达 3.1GHz —— 标志着首款主频超过 3GHz 的 Apple Silicon 定制芯片 —— 辅以 8GB RAM,单核 / 多核得分为 1634 / 7220 。   作为对比,2020 款 iPad Pro 采用的 A12Z 芯片的单核 / 多核得分为 1118 / 4657 。   可见得益于 RAM 和 GPU 方面的改进,A14X 在 Geekbench 5 基准测试套件的各项性能提升上还是相当显著的。不过与 A14 的
[手机便携]
RF WCDMA基准比较测试白皮书
概览 通过与传统的仪器进行比较,了解软件定义的PXI RF仪器在速度上的优势。如WCDMA测量结果所示,基于多核处理器并行执行的LabVIEW测量算法与传统仪器相比可以实现明显的速度提升。 介绍 你在早晨7:00伴着摇滚音乐的声音醒来,收音机闹钟里的RDS接收器提示你正在收听来自Guns N Roses 乐队的Welcome to the Jungle。然后,在你品尝咖啡期时,可以在书房通过WLAN接收器来查收邮件。当准备好工作后,你走出家门,使用一个315MHz的FSK发射机来打开车锁。坐到车里,驶上道路,你又可以享受无线电收音机所提供的没有广告的娱乐节目。稍后,你会通过蓝牙耳机会与车内的3G手机建立连接。几分钟内,车载的
[测试测量]
RF WCDMA<font color='red'>基准</font>比较<font color='red'>测试</font>白皮书
西班牙电信,博科在NFV参比实验室联合测试中树立vEPC性能基准
西班牙电信(Telefonica)(纽约证券交易所股票代码:TEF)和博科(Brocade)(纳斯达克股票代码:BRCD)在西班牙电信NFV参比实验室框架下完成了虚拟EPC(vEPC)实施方案的性能基准测试。测试结果表明,建立在创新的Virtual Core for Mobile(VCM)解决方案平台之上的博科vEPC允许服务提供商构建敏捷的网络,能够迅速扩展以满足新服务的性能要求。VCM软件架构是专为降低生产成本、支持快速推出服务以及动态分配虚拟资源打造的。它能让服务提供商为多种多样的用途提供服务,包括传统以用户为中心的服务、物联网/M2M、虚拟运营商(MVNO)、专用LTE和移动边缘计算等。 博科移动网络副总裁Nishi K
[网络通信]
Imagination 率先展示全新 Futuremark 3DMark OpenGL ES 3.0 基准测试
2014 年 3 月 7 日 —— Imagination Technologies在2014世界移动通信大会(Mobile World Congress)上率先展出了在移动硬件上运行的 3DMark Cloud Gate 基准测试,令参展观众耳目一新。3DMark Cloud Gate 是一款面向移动平台的全新 OpenGL ES 3.0 基准测试,由世界领先的高性能基准测试软件供应商 Futuremark设计开发。 Imagination 于2014 世界移动通信大会 (Mobile World Congress) 中独家展示了在其 PowerVR Series6 Rogue GPU 上运行的 3DM
[嵌入式]
Imagination 率先展示全新 Futuremark 3DMark OpenGL ES 3.0 <font color='red'>基准</font><font color='red'>测试</font>
RF WCDMA 基准比较测试白皮书
概览 通过与传统的仪器进行比较,了解软件定义的PXI RF仪器在速度上的优势。如WCDMA测量结果所示,基于多核处理器并行执行的LabVIEW测量算法与传统仪器相比可以实现明显的速度提升。 介绍 你在早晨7:00伴着摇滚音乐的声音醒来,收音机闹钟里的RDS接收器提示你正在收听来自Guns N’ Roses 乐队的Welcome to the Jungle。然后,在你品尝咖啡期时,可以在书房通过WLAN接收器来查收邮件。当准备好工作后,你走出家门,使用一个315MHz的FSK发射机来打开车锁。坐到车里,驶上道路,你又可以享受无线电收音机所提供的没有广告的娱乐节目。稍后,你会通过蓝牙耳机会与车内的3G手机建立连接。几分钟
[测试测量]
RF WCDMA <font color='red'>基准</font>比较<font color='red'>测试</font>白皮书
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved