自动驾驶算法与芯片设计
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3.1 基于单目图像的检测方法

尽管2D物体检测方法已在多个数据集中得到成功应用,然而KITTI数据集对3D物体检测方法提出了更具挑战性的设置,而这些设置在大多数驾驶环境中都很常见,包括小的、被遮挡的或被截断的物体的设置,以及高度饱和的区域或阴影的设置。

此外,图像平面上的2D物体检测方法还不足以提供可靠的驱动系统,此类应用需要更精确的3D空间定位和尺寸估算。本节将重点介绍基于单目图像估算3D边界框的方法。然而,由于没有可用的深度信息,因此大多数方法都要先使用神经网络、几何约束或3D模型匹配,在预测3D边界框之前检测2D候选对象。

Chen等人[11]提出了Mono3D,利用上下文、语义、手工设计的形状特征和位置先验来设计简单的区域提议。对于任何给定的区域提议,这些特征都可以通过模型进行有效的计算和评分。通过在3D空间上利用穷举搜索生成区域提议,并使用Non-Maxima Suppression(NMS)进行过滤。

通过3D边界框回归的Faster R-CNN[12]模型进一步完善了结果。这项工作以先前的工作3DOP[13]为基础,提出了深度图像在类似的框架中生成区域提议的方法。尽管仅使用单目图像,Mono3D模型还是略微提高了所获得的性能,该方法使用了深度图像。需要指出的是,自动驾驶环境的一个重要特征是在拥挤的场景中存在严重的遮挡。在这种情况下,车辆可能会挡住自身的视线。Xiang等人[14]将可见性模式引入模型中,并通过对象推理减轻遮挡效应。他们提出了3D体素模式(3DVP)表示形式,该模型通过RGB图像对外观进行3D建模。采用这种表示形式,可以恢复对象的部分可见,如被遮挡或被截断的区域。他们通过所观察到的模式对数据进行聚类,并在给定车辆的2D图像片段的情况下,训练每种特定模式的分类器,从而获得3DVP的字典。在测试阶段,通过分类获得的模式用于遮挡推理,以及3D姿态和定位的估计。他们通过最小化投影到图像平面的3D边界框和2D检测结果之间的重投影误差来实现3D检测,但其性能仍取决于区域提议网络(Region Proposal Network,RPN)的性能。

尽管一些RPN能够改进传统的提议方法,它们还是无法处理遮挡、截断和不同的对象比例。对先前的3DVP框架进行扩展,他们又提出了SubCNN[15]。这是一种CNN,其使用可探索类信息在RPN级别进行对象检测。其中采用了子类别的概念,子类别是共享相似属性(例如,3D姿态或形状)的对象类别。使用卷积层提取候选区域,以预测RPN级别下每个子类别的热图。在感兴趣区域(Region of Interest,ROI)提议之后,网络将输出类别分类及精确的2D边界框估计值。使用3DVP[14]作为行人、骑自行车的人和车辆类别的子类别,模型可以恢复3D形状、姿态和遮挡模式。外推层通过引入多尺度图像金字塔来改善小物体检测性能。因此,现有的解决方案无法涵盖任意车辆姿态。为了解决这个问题,Deep MANTA[16]使用多任务网络,针对单目图像估计车辆位置、零件定位和车辆形状等。车辆形状由一组关键点组成,这些关键点代表了车辆三维边界,例如车辆的外部顶点。首先,它们通过两级细化区域提议网络,获得2D边界框回归和零件定位;其次,它们基于推断的形状,执行3D模型匹配以获得3D姿态。

先前的尝试是在3D边界框空间进行详尽搜索,通过外观模式的集群或3D模板估计3D姿态。Mousavian等人[17]扩展了具有3D方向(偏航)和边界框尺寸回归的标准2D对象检测器。大多数模型都使用L2回归进行定向角预测。相反,他们提出了一种多仓方法来回归取向。该角度被视为属于n个重叠仓位之一,而网络便会估计属于每个仓位的角度的置信度,以及要添加到仓位中心以恢复输出角度的残差角。

首先根据网络预测确定3D边界框的尺寸和方向,然后恢复3D对象的姿态,通过求解平移矩阵,使3D边界框的重投影误差最小。以往所有基于单目图像的检测方法,只能由前置摄像头检测物体,忽略了车辆侧面和后部的物体。虽然激光雷达可以有效地用于360度检测,但Payen等人[18]提出了一种基于360度全景图像的3D对象检测方法。他们估计全景图像的密集深度图,并使标准对象检测方法适用于等矩形表示。由于缺乏用于自动驾驶的全景标记数据集,因此他们使用了投影转换来变换KITTI数据集,其可以在综合数据集上提供基准检测结果。目前,基于单目图像的检测方法已得到广泛研究。尽管以往的研究考虑了区域提议的手工设计的特征,然而大多数方法已转向区域提议的深度学习,以及3D模型匹配和重投影,以获得3D边界框。

说明:基于单目图像的检测方法的主要缺点是缺乏深度信息,对远处的物体和被遮挡的物体限制了检测与定位精度,以及对光照和天气条件的敏感性,使得这些方法只能在白天使用。此外,由于大多数方法都依赖前置摄像头,因此,与在整个车辆上都有覆盖的点云方法相比,其只能检测到车辆前方的物体。