您当前所在位置：智能汽车 > 查看内容

纯视觉4D占用预测新基线 | Cam4DOcc：面向端到端一体化的纯视觉新方案

发布：mizhongquan 来源：

PostTime：10-12-2023 07:47

纯视觉4D占用预测新基线 | Cam4DOcc：面向端到端一体化的纯视觉新方案

以下为文章全文：(本站微信公共账号:cartech8)

汽车零部件采购、销售通信录 填写你的培训需求，我们帮你找 招募汽车专业培训老师

写在前面&笔者的个人理解

刚出炉的Cam4DOcc，上交&国防科大&毫末联合出品！Cam4DOcc首先讨论了在自动驾驶中理解周围环境的重要性，以及目前依赖视觉图像的占用估计技术的局限性。进一步提出了Cam4Occ，这是一种用于纯视觉4D占用预测的新基准，用于评估在不久的将来周围场景的变化。为了全面比较本文的benchmark，Cam4Occ介绍了来自不同基于相机的感知和预测实现的四种基线类型，包括静态世界占用模型、点云预测的体素化、基于2D-3D实例的预测，以及本文提出的新的端到端4D占用预测网络（OCFNet）。代码即将开源！

比较新颖的部分

数据的重组：
数据集被重组为一种新颖的格式，该格式考虑了关于其运动特性的两类，即?般可移动物体（GMO）和?般静态物体（GSO），作为占?体素?格的语义标签。与 GSO 相?，GMO 通常具有更?的动态运动特性，出于安全原因，在交通活动期间需要更多关注，准确估计 GMO 的?为并预测其潜在的运动变化会显着影响?我车辆的决策和运动规划。
新数据集格式：
如图2所示：论文提出了一个新的数据集格式，该格式基于现有的数据集如nuScenes、nuScenes-Occupancy和Lyft-Level5，但进行了扩展和调整，以适应4D占用预测的需求。特别是，它关注于序列化占用状态和3D向后心向流的表示。
（1）?先将原始nuScenes数据集分割成时间?度为过去，现在和未来的序列；
（2）然后为每个序列提取可移动物体的顺序语义和实例注释并收集到GMO类中；
（3）把过去，现在和未来的帧都转换到当前坐标系（t = 0）之后对当前 3D 空间进?体素化，并使?边界框注释将语义/实例标签附加到可移动目标的网格上，在这个过程中进行了红色框内的条件删除；
（4）最后，使?标注中的实例关联?成 3D 向?流（ 3D backwardcentripetal flow）

补充：Cam4DOcc还说了标不仅是预测 GMO 的未来位置，还要估计 GSO 的占?状态和安全导航所需的?由空间，因此，进?步将原始 nuScenes 中的顺序实例注释与从nuScenes-Occupancy 转换到当前帧的顺序占?注释连接起来。这种组合平衡了?动驾驶应?中下游导航的安全性和精度。

四级占用预测任务的评估协议： Cam4DOcc为4D占用预测任务定义了一套标准化的评估协议，包括多种任务和评估指标。
（1）预测膨胀的 GMO：所有占??格的类别分为 GMO 和其他，其中来? nuScenes 和Lyft-Level5 的实例边界框内的体素?格被注释为 GMO；
（2）预测细粒度GMO：类别也分为GMO和其他，但GMO的注释直接来?nuScenes-Occupancy的体素标签；
（3）预测膨胀的GMO、细粒度GSO和?由空间：类别分为来?边界框注释的GMO、遵循细粒度注释的GSO和?由空间；
（4）预测细粒度GMO、细粒度GSO和?由空间：类别分为GMO和GSO，均遵循细粒度注释和?由空间

解析：不要看到这么以上只是作者对于模型的评估标准而已，再者说作者也说到了由于 Lyft-Level5 数据集缺少占?标签，因此我们仅对其第?个任务进?评估。

分别评估当前时刻（t=0）占用估计和未来时间 ()预测：

其中^St和St分别表示时间戳t处的估计体素状态和真实体素状态，还提供了一个单一的定量指标来评估整个时间范围内的预测性能，使用一个值计算：

更接近当前时刻的时间戳IoU对最终IoUf的贡献更大。这符合近时间戳的占用预测对后续运动规划和决策更重要的原则

四种方法作为 Cam4DOcc 中的基线： Cam4DOcc基准从占用预测、点云预测、2D实例预测的扩展，以及我们的端到端4D占用预测网络，提出了四种类型的基线：

（1）静态世界占?模型：最直接的基线之?是假设环境在短时间内保持静态，因此，可以使?当前估计的占??格作为基于静态世界假设的所有未来时间步的预测，如图3a所?；
（2）点云预测的体素化：使?环视深度估计来?成跨多个camera的深度图，然后通过光线投射来?成 3D 点云，将其与点云预测?起应?以获得预测的未来伪点，然后应用基于点的语义分割来获得每个体素的可移动和静态标签，从而产生最终的占用预测，如图3b所?；
（3）基于 2D-3D 实例的预测：许多现成的基于BEV的2D实例预测方法可以用周围视图相机图像预测不久的将来的语义，第三种基线是通过将BEV生成的网格沿z轴复制到车辆的高度来获得3D空间中的预测GMO，如图3c所示，可以看出，该基线假设驾驶表面是平的，所有移动物体都具有相同的高度，我们不评估预测GSO的基线，因为与GMO相比，通过复制提高2D结果不适合模拟具有更复杂结构的大规模背景。
（4）端到端占?预测?络OCFNet：OCFNet 接收连续的过去环视camera图像来预测当前和未来的占?状态。它利?多帧特征聚合模块来提取扭曲的 3D 体素特征，并利?未来状态预测模块来预测未来的占?情况以及 3D 向后向心流，如图3d 所示。

端到端占?预测?络OCFNet（重点！！！）：

A.多帧特征聚合模块
多帧特征聚合模块以过去的环视相机图像为输入，采用图像编码器骨干提取二维特征。这些2D特征随后被2D-3D提升模块提升并集成到3D体素特征中。所有生成的3D特征体积都通过应用6自由度自我意识汽车姿势转换到当前坐标系，产生聚合特征：Fp ∈ R(Np+1)c×h×w×l，并将时间和特征维度折叠成一维以实现以下3D时空卷积，然后将与 6-DOF相关的ego-car相邻帧之间的姿势连接起来学习他的运动感知（这里笔者理解的就是物体运动姿态高度相关的连接起来，就大概直到了物体的运动方向，当然后续也假定认为是匀速运动）：

B.未来状态预测模块以序列特征聚合的运动感知特征作为输入，未来状态预测模块使用两个头来同时预测网格的未来占用和运动。
（1）体素编码器将Fpm下采样为多尺度特征:

where i = 0, 1, 2, 3
（2）预测模块扩展了每个的通道维度，使用堆叠的3D残差卷积块，导致:

它们与体素解码器上采样的特征进一步连接，之后在占用预测头中利用softmax函数来生成粗略的占用特征：

在flow预测头中，使用额外的1×1卷积层代替softmax函数来产生粗flow特征：

（3）在占用特征和粗flow特征上使用三线性插值，和一个关于占用状态维度的附加argmax函数来生成最终的占用估计：

和基于流动的运动预测：

同时使用一般目标的语义来估计现在和预测未来的占用，此外，OCFNet不仅预测占有率，还预测空间内三维向心流作为网格运动，可用于实现实例预测
C.Loss function
使用交叉熵损失作为占用预测损失Locc，并使用平滑l1距离作为flow预测损失Lf low。显式深度损失LDeep，但这里仅计算用于监督当前占用（t=0）以提高训练效率并减少内存消耗训练OCFNet的总损失如下：

其中^D0、D0分别是2D-3D提升模块估计的深度图像和激光雷达数据投影的地面实况距离图像给出。λ1、λ2和λ3是平衡占用预测、流量预测和深度重建优化的权重

CAM4DOCC实验：评估了提议基线（包括OCFNet）在自动驾驶场景中的四个任务的占用率估计和预测性能：

提出的OCFNet对膨胀GMO进行预测。从时间戳1到Nf的预测结果和GT被赋予从暗到亮的颜色。每个运动物体的运动趋势用红色箭头表示，OCFNet和CFNet预测的nuScenes GMO占用率的结果，这表明仅使用有限数据训练的OCFNet仍然可以合理地捕捉GMO占用网格的运动

Cam4DOcc：自动驾驶纯视觉的4D占用预测基准补充材料

A.数据集设置详细信息：

如图6所示，大多数一般可移动对象（GMO）出现在我们基准测试中的至少两个历史观测和所有未来观测（[?2,4]和[?1,4]）中。长实例持续时间导致占用预测模型的有效训练策略。此外，两个数据集中超过30%的实例首先出现在当前帧中（t=0），这使得模型仅根据对象当前位置和周围条件学习预测对象运动

Cam4DOcc中定义的膨胀GMO和细粒度GMO的详细说明，如图7所示。与细粒度标签相比，膨胀的边界框式注释总体上为占用预测模型提供了更全面的训练信号。此外，来自实例边界框的结构化格式的GMO的运动更容易捕获。从图7的第二行我们还可以看到，有时细粒度体素注释不能准确地表示GMO的复杂形状，而边界框式注释可以完全涵盖整体GMO实例网格。图7的第三行还提出，与原始实例边界框标签相比，细粒度注释可能会遗漏一些被遮挡的对象，影响对这些场景进行训练和评估的合理性。因此，Cam4DOcc建议使用膨胀的GMO注释来训练当前阶段基于相机的模型，以实现更可靠的4D占用预测和更安全的自动驾驶导航。

B. OCFNET模型细节：
提出的OCFNet接收6张尺寸为900×1600的图像，这些图像由安装在车辆上的环视相机拍摄。使用ResNet50在ImageNet上进行预训练，并使用FPN作为OCFNet中的图像编码器。基于LSS的2D-3D提升模块将来自多个相机图像的图像信息转换和融合为统一的体素特征。使用3D-ResNet18作为体素编码器，并在未来状态预测模块的占用预测头和流量预测头中使用3D-FPN作为体素解码器。包含堆叠残差卷积块的预测模块对历史3D特征进行有序编码，根据未来时间视界Nf扩展通道维度，并产生未来3D特征，如图8所示。参考PowerBEV的设置，预测模块中三种残差卷积块的数量设置为2、1和2，内核大小为（3、3、1）

为了将我们的占用预测模型扩展到3D实例预测，OCFNet预测了t ∈ [0, Nf ]上的占用和3D流，对应于工作中的5个连续估计。首先从PowerBEV之后t=0处的估计占用概率中提取局部极大值，确定实例的中心。然后，以下未来帧中的实例与预测流连续关联，为了使用公式（4）中定义的损失来训练我们的OCFNet，我们设置λ1=λ3=0.5和λ2=0.05来平衡占用预测、深度重建和3D向心流预测的优化。OCFNet的总参数数为370 M，GFLOP为6434，训练时GPU内存为57 GB。

C.未来时间视界研究
进一步进行了一项关于预测不同未来时间范围内性能下降的研究。由于静态目标的占用网格在未来时间步长中不会改变，除非GT抖动，因此在这里，我们只关注预测可移动目标未来占用状态的能力。在本实验中，发布了Openoccupancy-C、PowerBEV-3D和我们的OCFNet在第一级任务和第二级任务中的性能，因为基线SPC未能预测膨胀的GMO（在实验中）。如下图所示，OCFNet在两个任务的不同时间范围内仍然是最佳性能。此外，所有基线方法在Lyft-Level5上显示出比nuScenes更好的性能，因为在Lyft-Level5上进行评估的时间相对较短。时间戳越接近当前时刻，所有基线就越容易预测占用状态

D.3D flow预测：
从图9中可以看出，运动物体的预测flow向量近似地从新帧的体素网格指向属于同一实例的过去帧的体素网格。因此，预测flow可以通过显式捕捉GMO在每个时间间隔内的运动来进一步指导占用预测。由于Cam4DOcc预测的flow向量，可以进一步关联相邻未来帧之间的一致实例，从而导致超越占用状态预测的3D实例预测。

预测的3D后向流的等值化(t ∈ [1, Nf ])。从时间戳1到Nf的输出流向量和地面实况占用分别被分配从暗到亮的颜色。每个选定运动物体的运动趋势用红色箭头表示

E.3D实例预测：
大多数现有的实例预测方法只能预测感兴趣目标在BEV表示上的未来位置，而我们的工作将这一任务扩展到更复杂的3D空间。首先在t=0时通过非最大抑制（NMS）提取实例的中心，然后使用预测的3D向后向心流在时间t ∈ [1, Nf ]上关联按像素划分的实例ID。为了报告实例预测质量，我们将度量视频全景质量（VPQ）从之前的2D实例预测扩展到我们的3D实例预测，该预测由

注意：PowerBEV-3D的实例预测结果也来自沿高度距离的预测2D流的重复

OCFNet在Lyft-Level5上显示出比PowerBEV-3D更好的3D实例预测能力，而PowerBEV-3D在nuScenes上优于OCFNet的方法。此外，OCFNet在nuScenes和Lyft-Level5上分别将OCFNet的预测提高了30.2%和13.7%。基于2D-3D实例的预测基线在nuScenes上呈现出良好的实例预测能力，因为2D向后向心流比3D对应物更容易预测。相反，在Lyft-Level5上产生了更好的预测结果，主要是OCFNet的GMO占用预测质量要好得多。
F. 在LYFT-LEVEL5的未来预测 GMO占据的可视化演示

OCFNet在Lyft-Level5小规模场景中预测膨胀GMO：