特征ic评估者是什么意思（特征id）

来源：计算机视觉深度学习和自动驾驶

综述论文“Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe“，是上海AI实验室和商汤科技的工作。

学习感知任务的BEV强大表示法是一种趋势，并引起了工业界和学术界的广泛关注。大多数自动驾驶算法的常规方法在前视图或透视图中执行检测、分割、跟踪等。随着传感器配置变得越来越复杂，集成来自不同传感器的多源信息并在统一视图中表示特征变得至关重要。BEV感知继承了几个优点，因为在BEV中表示周围场景，直观且融合友好；并且在BEV中表示目标对于后续模块最为理想，如规划和/或控制。

BEV感知的核心问题在于：（a）如何通过从透视图到BEV的视图转换来重建丢失的信息；（b）如何在BEV网格中获取真值标注；（c）如何制定流水线，纳入来自不同来源和视图的特征；以及（d）当传感器配置在不同场景中不一样时，如何适应和推广算法。

本文回顾关于BEV感知的工作，并对不同解决方案进行了深入分析。此外，还描述了行业中BEV方法的几个系统设计。此外，还介绍了一整套实用指南，提高BEV感知任务的能，包括摄像头、激光雷达和融合输入。最后，指出了该领域未来的研究方向。参考 https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe.

基于输入数据，将BEV感知研究主要分为三个部分——BEV摄像机、BEV激光雷达和BEV融合。如图描述了BEV 感知家族的概况。具体来说，BEV摄像机表示仅有视觉或以视觉为中心的算法，用于从多个周围摄像机进行三维目标检测或分割；BEV激光雷达描述了点云输入的检测或分割任务；BEV融合描述了来自多个传感器输入的融合机制，例如摄像头、激光雷达、全球导航卫星系统、里程计、高清地图、CAN总线等。

如图所示，将具有自主驾驶任务的基本感知算法（分类、检测、分割、跟踪等）分为三个级别，其中BEV感知的概念位于在中间。基于传感器输入层、基本任务和产品场景的不同组合，某种BEV感知算法可以相应表明。例如，M2BEV和BEVFormer属于多个摄像机的BEV摄像机方向，用于执行包括目标检测和BEV地图分割在内的多项任务。

BEVFusion在BEV空间设计了一种融合策略，同时从摄像机和激光雷达输入执行检测和跟踪。特斯拉发布了系统流水线，用于检测矢量空间（BEV）中的目标和车道线，用于L2高速公路导航和智能召唤。本报告除了各种输入组合和任务外，旨在总结近期先进BEV感知研究的一般流程和关键见解。

BEV感知是否会对学术界和/或社会产生真正和有意义的影响？众所周知，基于摄像机或视觉的解决方案与基于激光雷达或融合的部件之间存在巨大的能差距。例如，截至2022年8月，仅视觉与激光雷达之间的第一排名方法差距超过了nuScenes数据集上NDS的20%。Waymo基准的差距甚至超过30%。这自然促使大家研究视觉解决方案是否能够超越或等同于激光雷达方法。

BEV感知中是否存在需要实质创新的开放问题或告诫？BEV感知背后的要点是从摄像机和激光雷达输入中学习鲁棒和可泛化的特征表示。这在激光雷达分支中很容易，因为输入（点云）具有这样的特。在摄像头分支中，这是非常重要的，因为从单目或多视图设置中学习空间信息是困难的。虽然看到有人试图通过姿态估计或时域运动来学习更好的2D-对应关系，但BEV感知背后的核心问题需要从原始传感器输入进行深度估计的实质创新，特别是对于摄像头分支。

关键条件（如数据集、基准）是否准备好进行BEV感知研究？简而言之，答案是肯定的。由于BEV感知需要摄像机和激光雷达，高质量标注和2D和目标之间的精确对齐是此类基准点的两个关键评估。尽管KITTI是全面的，并在早期自动驾驶研究中引起了广泛关注，但Waymo、nuScenes和Argoverse等大规模和多样的基准为验证BEV感知想法提供了坚实的平台。这些新提出的基准通常具有高质量的标签；场景多样和数据量也在很大程度上扩大。此外，这些排行榜上的开放式挑战提供了一个公平的测试数据设置，可以在开放和敏捷的意义上比较所有技术状态。

这里介绍了一些流行的自动驾驶数据集和常用的评估指标。如表1总结了BEV感知的主要基准统计数据。

通常，数据集由各种场景组成，每个场景在不同的数据集中具有不同的长度。总持续时间从几十分钟到几百小时不等。对于BEV感知任务，目标边框标注和分割标注至关重要，高清地图配置已成为主流趋势。其中大部分可以用于不同的任务。达成的共识是，需要具有多模态和各种标注的传感器。更多类型的数据已经发表，如IMU/GPS和CAN总线。与Kaggle和EvalAI排行榜类似，这里揭示每个数据集上提交的总数量，表明某个数据集的受欢迎程度。

表2按时间顺序总结了基于输入数据和任务类型的BEV感知数据分类。我们可以看到，顶级机构发布了关于BEV感知的趋势研究。任务主题以及方法流水线（贡献）可以多种多样，这表明自动驾驶社区正在蓬勃发展。

表3描述了多年来流行排行榜上目标检测和分割的能增益。可以观察到，在BEV感知知识的精神下，能增益显著提高。

如图是BEV摄像机的普通流水线（仅摄像机感知）。它包括三个部分，包括二维特征提取、视图变换和三维解码器。在视图变换中，有两种方法来编码信息-一种是从2D特征预测深度信息；另一种是从三维空间中采样二维特征。

通常有两种方式的视图变换，一种是执行从空间到2D空间的变换，另一种是进行从2D空间到空间的变换。这两种方式要么使用空间中的物理先验，要么使用监督。

解码器接收2D/空间中的特征并输出感知结果，如边框、BEV地图分割、车道的关键点等。大多数解码器来自基于激光雷达的方法，这些方法在体素空间/BEV空间中执行检测，但仍有一些仅使用摄像头的解码器利用2D空间中的特征，并直接回归目标的定位。

作为补充说明，很少有人尝试解决预训练并将2D视觉Tranormer的成功转移到空间；这可能是感知的未来研究。

最近的研究集中于视图转换模型，其中信息是根据2D特征或先验假设构建的。从2D特征构造信息通常表示为深度估计或成本体（cost volume）。从先验假设构造信息通常表示为，采样2D特征，通过-2D投影映射构造特征。

视图变换在仅摄像头的感知中起着至关重要的作用，因为它是构建信息和编码先验假设的主要模块。大体上，它可以分为两个方面，一是利用2D特征构造深度信息并将2D特征“提升”到空间，另一个是通过到2D投影映射将2D特征编码到空间。第一种方法命名为2D-，第二种命名为-2D。如图给出了通过这两种方法执行视图转换的概要路线图。

从图中看到，从2D到，基于LSS的单目方法根据2D特征预测每个像素的深度分布，而立体视觉方法沿着成本体构建的截头锥体发散2D特征。从到2D，基于单应矩阵的方法假定稀疏的采样点，并通过摄像机参数将其投影到2D平面。基于纯网络的方法使用MLP或tranormer隐式建模从空间到2D平面的投影矩阵。

在仅摄像机的感知开始，主要焦点是如何从透视图（即2D空间）预测目标定位。这是因为2D感知在该阶段得到了很好的发展，如何为2D检测器配备感知场景的能力成为主流方法。后来，一些研究达到了BEV表征，其很容易解决空间中具有相同尺寸的目标会由于与相机的距离而在图像平面上具有不同尺寸的问题。这一系列工作要么预测深度信息，要么利用先验假设来补偿摄像头输入中的信息损失。

基于BEV的方法成功主要得益于三个方面。第一个原因是nuScenes数据集，它具有多摄像机设置，非常适合在BEV下应用多视图特征聚合。第二个原因是，大多数基于摄像头的BEV感知方法从基于激光雷达的方法中获得了很多帮助，包括检测头和相应的损失设计。第三个原因是，单目方法的长期发展使基于BEV的方法蓬勃发展，成为处理透视图中特征表示形式的良好起点。核心问题是如何从2D图像中重建丢失的信息。为此，基于BEV的方法和透视方法是解决同一问题的两种不同方法，它们并不相互排斥。

如图是BEV激光雷达感知的普通流程。主要有两个分支将点云数据转换为BEV表示。上分支提取空间中的点云特征，提供更准确的检测结果。下分支提取2D空间中的BEV特征，提供更高效的网络。

点云数据由神经网络直接处理。在连续三维空间中计算点之间的邻域关系。这带来了额外的时间消耗并限制了神经网络的感受野。最近的工作利用离散网格来表示点云数据；采用卷积运算提取特征。然而，将点云数据转换为任何形式的表示不可避免地会导致信息丢失。

BEV前的特征提取技术方法利用细粒度的体素，保留点云数据中的大部分信息，因此有利于检测。作为一种权衡，它需要高内存消耗和计算成本。将点云数据直接转换为BEV表示避免了空间中的复杂操作。当高度维被压缩时，信息的巨大损失变得不可避免。最有效的方法是用统计学表征BEV特征图，但其结果较差。基于pillar的方法平衡了能和成本，成为工业应用的流行选择。如何处理能和效率之间权衡成为基于激光雷达应用的一个重大挑战。

BEV融合方面，提出了逆透视映射（IPM），利用摄像机内外矩阵的几何约束将像素映射到BEV平面。尽管由于平地假设不准确，但提供了在BEV中统一图像和点云的可能。Lift -Splat-Shot（LSS）是第一种预测图像特征深度分布的方法，引入神经网络来学习不适定的摄像头到激光雷达转换问题。其他工作开发了不同的方法来进行视图转换。给定从透视图到BEV的视图转换方法。

如图是BEV融合算法的两种典型流水线设计，适用于学术界和工业界。主要区别在于2D到的转换和融合模块。在PV（透视视图）感知流水线（a）中，不同算法的结果首先转换为空间，然后使用先验或手工规则进行融合。BEV感知流水线（b）首先将PV特征转换为BEV，然后融合特征获得最终预测，从而保持大多数原始信息，避免手工设计。

模态特定的特征提取器用于分别提取透视图和BEV中的特征。在转换为BEV中的表示之后，融合来自不同传感器的特征图。在BEV表示中也可以引入时域和自运动信息。

由于图像在透视坐标，点云在坐标，两种模态之间的空间对齐成为一个重要问题。尽管使用几何投影关系很容易将点云数据投影到图像坐标上，但点云数据的稀疏特使得提取信息特征变得困难。相反，由于透视图中缺乏深度信息，将透视图中的图像转换为空间将是一个不适定问题。基于先验知识，先前的工作，如IPM和LSS使透视图中的信息转换为BEV成为可能，为多传感器融合和时域融合提供了统一的表示。

激光雷达和摄像机数据在BEV空间的融合为检测任务提供了令人满意的能。这种方法还保持了不同模态的独立，这为构建更强大的感知系统提供了机会。对于时域融合，通过考虑自运动信息，可以在BEV空间中直接融合不同时间戳的表示。由于BEV坐标与坐标一致，通过监控控制和运动信息很容易获得自运动补偿。考虑到鲁棒和一致，BEV是多传感器和时域融合的理想表征。

如图总结工业界各种BEV感知的架构：特斯拉、地平线和毫末。首先，用主干编码输入数据，并通过Tranormer进行BEV投影。然后，在时域和空域融合BEV特征。最后，他们用不同的头解码BEV特征。每种设计都略有不同。特斯拉将摄像机图像和IMU作为输入，而Horizon和HAOMO将点云作为输入。主干在不同的体系结构中有所不同。

在行业中执行视图转换主要有四种方法：（a）固定IPM：基于平坦地面假设，固定变换可以将PV特征投影到BEV空间；固定IPM投影也处理地平面；然而，对车辆颠簸和路面平整度比较敏感。（b）自适应IPM：利用一些姿态估计方法获得自动驾驶车的外部参数，并相应地将特征投影到BEV；尽管自适应IPM对车辆姿态具有鲁棒，但仍然假设地面平坦。（c）基于Tranormer的BEV变换采用密集Tranormer将PV特征投影到BEV空间。这种数据驱动的转换在没有事先假设的情况下运行良好，因此被特斯拉、地平线和毫末广泛采用。（d） ViDAR于2018年初由Waymo和Mobileye在不同地点并行提出，表明基于摄像头或视觉输入用像素级深度将PV特征投影到BEV空间的实践，类似于激光雷达中的表示形式。术语ViDAR相当于大多数学术文献中提出的伪激光雷达概念。配备ViDAR，可以将图像和后续特征直接转换为点云。然后，可以应用基于点云的方法来获得BEV特征。最近看到了许多ViDAR应用，例如特斯拉、Mobileye、Waymo和丰田等。总体而言，Tranormer和ViDAR的选择在行业中最为普遍。

如表4是这些方法的比较：

先前的BEV变换模块中完成了不同摄像机之间的对准。在融合单元中，进一步整合了摄像机和激光雷达的BEV特征。通过这样做，不同形式的特征最终被整合成一种统一的形式。

在时间和空间堆叠BEV特征，可以构建特征队列。时间堆栈每固定时间推送和弹出一个特征点，而空间堆栈每固定距离推送一个。将这些堆栈中的特征融合为一种形式，可以获得对遮挡具有鲁棒的时空BEV特征。聚合模块可以是卷积、RNN或Tranormer的形式。基于时域模块和车辆运动学，可以维护围绕自车的大型BEV特征图，并局部更新特征图，就像特斯拉的spatial-RNN模块那样。

在BEV感知中，多头设计被广泛采用。由于BEV特征聚集了来自所有传感器的信息，所有检测结果都从BEV特征空间进行解码。同时，PV结果（对自动驾驶仍有价值）也从某些设计中对应的PV特征进行解码。预测结果可分为三类：（a）低级结果与物理约束有关，如光流、深度等。（b）实体级结果包括目标概念，即车辆检测、车道线检测等。（c）结构级结果表示目标之间的关系，包括目标跟踪、运动预测等。

评估和对策经验如下。

数据增强

用于2D识别任务的图像通用数据增强适用于基于摄像头的BEV感知任务。一般来说，可以将增强分为静态增强和空间变换，静态增强仅涉及颜色变化。对于涉及空间变换的增强，除了相应变换的真值外，还需要校准摄像头参数。采用的常见增强是颜色抖动、翻转、多尺度调整大小、旋转、裁剪和网格掩码。

在商汤和上海AI提出的BEVFormer++中，采用了颜色抖动、翻转、多尺度调整大小和网格掩码。输入图像按0.5和1.2之间的因子缩放，以0.5的比率翻转；总面积最大30%被正方形掩码随机遮挡。值得注意的是，在BEV感知中有两种翻转图像的方法。第一种方法是简单相应地翻转图像、真值和摄像头参数。第二种方法还翻转图像顺序，以保持图像之间重叠区域的一致，这类似于对称翻转整个空间。BEVFormer++采用了第二种翻转方式。如表5所示实验中描述了相关消融研究。由于BEVFormer采用序列输入，确保了输入增强后序列的每帧变换是一致的。

激光雷达数据的分割方面，与检测任务不同，数据增强可以应用随机旋转、缩放、翻转和点平移。对于随机旋转，从[0，2π]范围中选取一个角度，旋转应用于x-y平面上的每个点。从[0.9，1.1]范围中选择比例因子，然后乘以点云坐标。沿X轴、Y轴或X轴和Y轴进行随机翻转。对于随机平移，每个轴的偏移分别从均值0、标准方差0.1的正态分布中采样。

除了坐标和反射率，还可以利用额外的信息来提高模型能。Painting技术用图像信息增强点云数据。对于未标记的图像数据，将点云标签投影到相应的图像上并致密化稀疏标注，从标注的点云数据中获得图像的语义标签。训练图像模型提供2D语义分割结果。然后，将预测的语义标签绘制为点云数据的 one-hot矢量，作为表示图像语义信息的附加通道。此外，还可以使用时域信息，因为自动驾驶中的数据集通常是序贯收集的。过去的连续帧与当前帧连接在一起。附加信道可表示不同帧的相对时间信息。为了减少点的数量，应用小的体素化网络。然后，被视为点的体素作为模型输入。表6如下给出一些消融实验分析。

BEV编码器

BEVFormer++有多个编码器层，除了三种定制设计，即BEV查询、空域交叉注意和时域自注意机制之外，每个编码器层都遵循tranormer的传统结构。具体而言，BEV查询是网格形状的可学习参数，旨在通过注意机制从多摄像机视图中查询BEV空间的特征。空域交叉注意和时域自注意是与BEV查询一起工作的注意层，用于：1）根据BEV查询查找；2）聚合来自多摄像机图像的空域特征以及来自历史BEV的时域特征。

在推理期间，在时间t将多摄像机图像馈送到主干网络（例如，ResNet-101），并获得不同摄像机视图的特征Ft，保留时间t-1的BEV特征Bt−1，是通过时域自注意。在每个编码器层中，首先用BEV查询Q来查找来自先前BEV特征Bt-1的时间信息。然后，用BEV查询Q从多摄像机特征Ft查询空域信息，则通过空域交叉注意。在前馈网络之后，编码器层生成细化的BEV特征，这是下一编码器层的输入。在六个堆叠的编码器层之后，生成当前时间戳t的统一BEV特征Bt。将BEV特征Bt作为输入，检测头和地图分割头预测感知结果，如边框和语义地图。

为了提高BEV编码器的特征质量，以下讨论三个主要方面：

（a） 2D特征提取器。改善2D感知任务的主干表征质量，也最有可能改善BEV任务的表征质量。为了方便起见，在图像主干中，采用了在大多数2D感知任务中广泛使用的特征金字塔。2D特征提取器的结构设计，如最先进的图像特征提取器、全局信息交互、多级特征融合等，都有助于更好地表示BEV感知的特征。除了结构设计外，辅助任务监督主干对BEV感知能也很重要，后面会讨论。

（b） 视图转换。该变换采用图像特征并将其重新组织到BEV空间中。超参数，包括图像特征的采样范围和频率，以及BEV分辨率，对于BEV感知能至关重要。采样范围决定图像后面的观察截锥（viewing frustum）多少将被采样到BEV空间。默认情况下，该范围等于激光雷达标注的有效范围。当效率具有更高优先级时，观察截锥的上z轴部分可能会受到影响，因为在大多数情况下，它只包含不重要的信息，如天空。采样频率决定了图像特征的效用。更高的频率确保模型以更高的计算成本精确地采样每个BEV位置对应的图像特征。BEV分辨率决定了BEV特征的表示粒度，其中每个特征可以精确地追溯到世界坐标中的网格。需要高分辨率来更好地表示小尺度目标，如交通灯和行人。在视图变换中，特征提取操作，例如卷积块或变换块，也存在于许多BEV感知网络中。在BEV空间中添加更好的特征提取子网络也可以提高BEV感知能。

（c） 时域BEV融合。给定BEV特征的结构，BEV空间的时域融合通常利用自车姿态信息来对齐时域BEV特征。然而，在这个对齐过程中，其他智体的移动没有明确建模，因此需要模型进行额外学习。因此，为了增强对其他移动智体特征的融合，在执行时域融合时，增加交叉注意的感知范围是合理的。例如，可以扩大可变形注意模块中注意偏移的核大小，或者使用全局注意。

由于粗略的体素化和激进的下采样，现有的感知模型不适合识别小实例。SPVCNN在基于体素的分支中使用了Minkowski U-Net。为了保持点云分辨率，用了一个额外的基于点分支，没有使用下采样。基于点分支和基于体素分支的特征将在网络的不同阶段相互传播。

通过对原始SPVCNN进行两次有效修改，作者提出了Voxel-SPVCNN。与简单地对原始输入特征执行体素化相比，这里采用了一个轻量三层MLP提取点特征，然后应用体素化过程。此外，基于点分支的输入被代替为体素-作-点分支（voxel-as-point branch）。该分支的网络结构仍然是MLP；但输入被替换为体素。Voxel-SPVCNN效率更高，因为基于点分支的计算大大减少，特别是输入是多扫描点云的情况下。

BEVFormer++中的检测头

对BEV摄像机的检测任务，在BEVFormer++中采用了三个检测头。相应地，这些头涵盖三类检测器设计，包括无锚框、基于锚框和基于中心的方法。选择各种类型的检测器头，尽可能在设计上有所区别，以便充分利用检测框架在不同场景中的潜能力。头部的多样有助于最终的集成结果。

原始的BEVFormer，用一个改进的可变形DETR解码器作为其检测器，可以在没有NMS的情况下端到端检测边框。对于该头，遵循原始设计，但使用平滑L1-损失替换原始L1-损失函数。

BEVFormer++采用FreeAnchor和CenterPoint作为替代检测器，其中FreeAnchor是基于锚框的检测器，可以自动学习锚框匹配，而CenterPoint是基于中心的无锚框检测器。预测头在推理期间提供了各种分布。值得注意的是，解码器远未得到很好的开发，因为高效查询设计在2D感知方面发展很成功，而如何将这些成功转移到感知领域将是下一步要做的。

测试-时间增强（TTA）

先说仅摄像机BEV的检测。

2D任务常见的测试时间增强（TTA），包括多尺度和翻转测试，可提高情况下的准确。在BEVFormer++中，这一部分用标准数据增强（如多尺度和翻转）形式进行简单探索。多尺度增强的程度与训练时间相同，从0.75到1.25不等。

再说激光雷达的分割。

在推理过程中，使用了多个TTA，包括旋转、缩放和翻转。对于缩放，所有模型的缩放因子均设置为｛0.90，0.95，1.00，1.05，1.10｝，因为缩放因子较大或较小对模型能有害。翻转与训练阶段相同，即沿X轴、Y轴以及同时X轴和Y轴。旋转角度设置为{−π/2 , 0, π/2 , π}. 可以选择更细粒度的缩放因子或旋转角度，但考虑到计算开销和TTA组合策略，更倾向于粗粒度参数。

与细粒度增强参数相比，TTA的组合将进一步提高模型能。然而，由于TTA倍增，组合还是非常耗时的。组合的模型相关TTA，有20倍推理时间。组合策略的网格搜索，可以进行。根据经验，缩放和翻转的组合更为可取。

损失

先从仅摄像机BEV检测说起。

BEV特征表征的一个多样好处是，可以用2D和目标检测中提出的损失来训练模型。相应的损失可以通过最小化修改进行迁移，例如调整损失权重。

除了目标的训练损失外，辅助损失在仅摄像机BEV检测中也起着重要作用。一种类型的辅助损失是在2D特征提取器之上添加2D检测损失。这种监督增强了2D图像特征的定位，进而有助于BEV感知中视图变换提供的表示。

另一种类型的辅助损失是深度监督。当利用激光雷达系统生成的真值深度时，可以提高BEV感知的隐式深度估计能力，获得精确的目标定位。这两个辅助任务都可以在训练期间应用，提高能。作为旁注，通常2D检测或深度预训练主干，选为初始化权重。

代替传统的交叉熵损失，Geo损失和Lovász损失用于训练所有模型。为了获得更好的不同类边界，Geo损失对有丰富细节的体素具有强烈的响应。Lovász损失作为可微分IoU损失，能缓解类不平衡问题。

集成（ensemble）

仅摄像机BEV检测而言，集成技术通常在要测试的数据集之间变化；2D/目标检测中使用的通用实践可应用于BEV感知，但需进行一些修改。以BEVFormer++为例，在集成阶段采用weighted box fusion（WBF）的改进版本。受Adj NMS的启发，在原始WBF之后采用矩阵NMS来过滤冗余框。为了生成多尺度和翻转结果，采用了两阶段集成策略。在第一阶段，用改进的WBF来整合来自多尺度流水线的预测，生成每个模型的翻转和非翻转结果。如下表7列出了专家模型能的相关实验。在第二阶段，收集所有专家模型的结果。用改进的WBF来获得最终结果。

考虑到每个模型的能差异，参数调整被认为更为复杂。因此，采用进化算法搜索WBF参数和模型权重。利用NNI中的进化思路来自动搜索参数，其中演化群体总数为100。搜索过程基于3000张验证图像的能；不同的类分别搜索，如表8所示。

对激光雷达分割而言，作为点分类任务，分割以平均方式从不同模型中集成每点概率。具体而言，简单地将不同模型预测的概率相加，然后使用argmax操作确定每个点的分类结果。为了提高模型的多样，用不同的数据重采样策略（称为export模型）来训练模型。根据场景和天气条件的上下文信息，在基于所有数据训练的模型上，微调多个上下文特定模型。

模型的概率在特定于模型的TTA之后以分层方式聚合。考虑到模型的多样，模型集成分两个阶段处理。在第一阶段，同类模型的概率，例如具有不同超参数的模型，以不同的权重进行平均。然后，在第二阶段，非同类模型（即具有不同架构的模型）的概率，以不同的权重进行平均。在NNI中具有最大试验数160的退火算法，用于同时两个阶段搜索验证集的权重。

后处理

还是先说仅摄像机BEV检测。虽然BEV检测消除了多摄像机目标级融合的负担，但观察到从进一步后处理中获益的显著事实。根据BEV变换的质，重复特征可能沿着光线到摄像头中心在不同的BEV位置进行采样。这将导致对一个前景目标进行重复假检测，其中每个假检测具有不同的深度，但都可以投影回图像空间中的相同前景目标。

为了缓解这个问题，利用2D检测结果对检测结果进行重复移除是有益的，其中2D边框和边框是二分匹配（bipartite match）。在实验中，用真实2D边框作为过滤器可以提高检测能。然而，当辅助监督训练的2D检测头去预测2D边框时，发现几乎无法取得改进。这可能是由于2D检测训练不足造成的。因此，需要进一步研究联合2D/冗余检测的去除。

检测头设计是否体现出无NMS的特，可以以此决定应用NMS。通常，对于一对多的分配，NMS 是需要的。值得注意的是，将NMS中常用的IoU度量替换为新提出的LET IoU，以去除冗余结果，这个可以改善检测结果。这种设计更适用于仅用摄像机BEV的检测器。由于两个相互冗余结果的 IoU在数值上很小，这通常导致无法消除FP结果。使用LET IoU，冗余结果往往会困扰更高的IoU，从而在很大程度上被删除。

再回到激光雷达分割。分析混淆矩阵（confusion matrix），发现大多数错误分类发生在相似类中。因此，语义类可以分为组，其中的类与组外的类相比非常混乱。

现有的分割方法执行逐点分类，而不考虑单个目标的一致。例如，一些标记为前景目标的点，被错误预测为背景。基于上述分级分类，进行目标级细化可进一步提高目标级完整。基于预测掩码同一语义组中的点，并执行欧几里德聚类，可以将点分组为实例。然后通过大多数表决（majority voting）确定每个实例的预测。此外，对于每个目标，由轻量级分类网络执行目标级分类的合理，确定目标的最终预测类。

当获得目标级预测时，跟踪可进一步细化预测的时间一致。执行跟踪，从所有先前帧中找到对应目标。通过考虑所有前预测，对当前帧中目标的预测类进行细化。

该文对近年来人们对BEV的认知进行了全面的回顾，并根据自身在BEV设计流水线中的分析，提供了一个实用的对策。巨大的挑战和未来的努力可能是：

（a）如何设计更精确的深度估计器；
（b）如何在新的融合机制中更好地对齐来自多个传感器的特征表示；
（c）如何设计一个无参网络，使算法能不受姿态变化或传感器位置的影响，在各种场景中实现更好的泛化能力；
（d）如何结合基础模型中的成功知识来促进BEV感知。

下面分别讨论改进细节。

深度估计

如前所述，基于视觉的BEV感知的核心问题在于准确的深度估计，因为任务是在环境中执行的。目前解决深度预测的方法是：（a）伪激光雷达生成；（b）将特征从2D提升到对应；（c）激光雷达-摄像头蒸馏；以及（d）立体视差或时域运动。这些方向中的任何一个或组合都是有希望的。为了保证更好的能，大量的监督数据也至关重要。

另一个有趣且重要的方向是如何在训练期间利用激光雷达信息（例如，作为深度监督），同时在推理期间仅提供视觉输入。这对原始设备制造商非常有利，因为通常有来自多个源的训练数据，但出于部署考虑，发布产品时只有摄像头输入可用。

融合机制

迄今为止，大多数融合方法可分为前融合、中融合或后融合组，这取决于融合模块在流水线中的位置。传感器融合算法最直接的设计是将摄像机和激光雷达的两组特征分别连接起来。然而，如前所述，如何“对齐”来自不同来源的特征至关重要。这意味着：（a）摄像机的特征表示在几何空间而不是2D上下文中被适当地描述；（b）空间中的点云与2D域中的点云有精确的对应关系，这意味着激光雷达和摄像头之间的软同步和/或硬同步得到了完美的保证。

基于上述前提条件，如何设计一个优雅的融合方案需要社区更多关注。这一部分的未来努力可能是：（a）利用自注意和/或交叉注意，以tranormer精神整合各种模态的特征表示；（b）来自通用多模态文献的知识也可能是有利的，例如，CLIP表达中的文本-图像对原理可以激发自动驾驶领域中不同传感器的信息集成。

无参数设计，提高泛化

BEV感知的最大挑战之一是域适应。一个数据集中经过训练的模型在另一个数据集中如何表现和泛化。在每个数据集中，人们无法负担算法的高昂成本（训练、数据、标注等）。由于BEV感知本质上是对物理世界的重建，一个好的检测器必须与摄像机参数（特别是外部矩阵）紧密连接。不同的基准具有不同的摄像机/传感器设置，对应于物理位置、重叠区域、FOV（视场）和畸变参数等。这些因素都会造成良好能从一个场景迁移到另一个领域的（极端）困难。

为此，将网络与摄像机参数（又名）解耦，使特征学习独立于外部和/或内部参数矩阵。学术界（无外参）和工业界（校准模块）在这方面开展了一些有趣的工作。尽管如此，这并非一个琐事，最好在未来工作中更多地从社区进行调查。无参数设计在解决实际应用中，在检测不准确方面具有鲁棒，这主要是由于道路颠簸和摄像机不稳定导致的。

促进BEV感知的基础模型

近年来，通用视觉社区出现了蓬勃发展，大型或基础模型在许多领域和任务中取得了令人印象深刻的表现，并超越了最先进水平。对于BEV感知，至少有两个方面值得研究。

一种是应用大型预训练模型中的丰富知识，并提供更好的初始检查点进行微调。然而，如前所示，某些2D基础模型的直接自适应，可能无法在 BEV意义上很好地工作。如何设计和选择基础模型以更好地适应自动驾驶任务，是可以考虑的长期研究课题。

另一项未完成的工作是如何发展多任务学习的概念，如BEV感知的基础模型（通才）。在一般视觉文献中有一些有趣的工作，其中OFA、Uni-perceiver-MoE、GATO等，将执行多个复杂任务并获得满意的结果。能否将类似的理念应用到BEV感知中，并将多个任务统一到一个框架中？这是有意义的，因为自动驾驶的感知和认知领域需要协作处理复杂场景，以实现最终的L5目标。

上海技术跳槽那些事儿设计算法人工智能无人驾驶摄像放像机 GPS

特征ic评估者是什么意思（特征id）

联系我们

93840186

特征ic评估者是什么意思（特征id）

相关推荐

土特产如何高端化（土特产的产品策略）

为什么选择酒店业分析（你为什么选择酒店管理）

为什么说宁波港是最具民营化的港口（宁波港为什么不计入gdp）

项目研究内容有哪些内容的是什么（项目研究目的和主要研究内容）

中国哪里盛产椰子（中国哪里盛产椰子最多）

粗脂肪是什么（粗脂肪是什么意思）

联系我们

93840186

分享到：