上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.4.1 算法概述
令人惊讶的是,到目前为止,还没有一个模型能够满足自动驾驶的实时性要求。因此,这里试图介绍一个小而精确的模型。该模型在NVIDIA TitanX GPU上的运行速度高于50fps,其使用多视图思想(MV3D)进行点云预处理和特征提取,但是其中忽略了多视图融合,只生成了一张基于激光雷达的单目RGB图像,以确保效率。
图2-1展示了Complex-YOLO,它是YOLOv2的3D版本,而且是最快和最新的图像对象检测器之一。特定的E-RPN用于支持Complex-YOLO,该E-RPN估计了每个盒子的虚部和实部编码对象的方向。其思路是要有一个不带奇数的封闭数学空间,以便对精确的角度进行泛化。即使对象只有几个点(例如,行人),该模型也仍然能够实时预测定位精确的3D边界框和对象的精确方向。为此,这里为其设计了特殊的锚盒(Anchor Box)。此外,它仅通过使用激光雷达输入数据,就可预测所有8个KITTI类。它在KITTI基准套件上评估模型,就准确性而言,它在汽车、行人和骑自行车的人等方面均取得了同等的成绩;就效率而言,其表现至少优于现有的方法5倍。其主要贡献如下:
● 通过使用新的E-RPN,为3D锚盒估计提供了可靠的角度回归功能。
● 提供了在KITTI基准套件上评估高精度实时性能的方法,其速度比当前领先的模型快5倍以上。
● 估计E-RPN支持的每个3D边界框的精确方向,从而能够预测周围物体的轨迹。
● 与其他基于激光雷达的方法相比,该模型可以有效地在一条前向路径中同时估计所有类别。
图2-1 算法流程,对点云进行快速而准确的3D边界框估计[32]