论文：基于关键点的单目3D目标检测

2020-09-09 15:06

关键点检测网络

本文的关键点检测网络将 RGB 图像当作输入，输出 3D 检测框的顶点及中心点，其包括三个组成部分：骨架、关键点特征金字塔以及检测头，主要架构采用了与 2D 无锚检测器相似的一阶段策略。

为了在速度和准确性之间进行平衡，本文使用两种不同的结构作为主干：ResNet18 和 DLA－34。所有模型均拍摄单个 RGB 图像 I∈R＾｛W×H×3｝，并以因子 S ＝ 4 对输入进行降采样。ResNet－18 和 DLA－34 用于图像分类网络，最大降采样因子为 ×32。我们通过三个双线性插值和 1×1 卷积层对瓶颈三次进行上采样。在上采样层之前连接了相应的低级特征图，同时添加了一个 1×1 卷积层以减小通道尺寸。经过三个上采样层后，通道分别为 256、128、64。

图像中的关键点在大小上没有差异。因此，关键点检测不适合使用特征金字塔网络（FPN）。本文提出了一种新的关键点特征金字塔网络（KFPN），以检测点空间中尺度不变的关键点。假设我们有F个尺度特征图，我们首先调整每个大小f的大小，将其统一为最大的 f 的大小。然后通过 softmax 运算生成软权重，以表示每个尺度的重要性。通过线性加权获得最终的尺度空间得分图：

检测头由三个基本组件和六个可选组件组成，可以任意选择这些组件以提高 3D 检测的准确性，而计算量却很少。受 CenterNet 的启发，本文将关键点作为连接所有特征的主要中心由于在截断的情况下对象的 3D 投影点可能会超出图像边界，因此将更适当地选择 2D 框的中心点。Heatmap 定义为 M，其中 C 是目标种类的数量，另一部分是由顶点和中心点投影出的 9 个点 V，对于一个对象的关键点，本文将回归得到的主中心的局部偏移量 Vc 作为指标。最接近 Vc 坐标的 V 的关键点被作为一个对象的集合。尽管 9 个关键点的 18 个的约束能够恢复物体的 3D 信息，但是越多的先验条件能够增加更多的约束，中心偏移 M＿OS，顶点偏移 V＿OS 是 heatmap 中对每个关键点的离散误差。

3D 目标的维度 D 方差小容易预测，本文引用基于 Multi－Bin 方法对偏航角 θ 进行回归。将 θ 的余弦偏移和正弦偏移概率在 1 个 bin 中进行分类，并使用 2 个 bin 生成方向特征图，同时对 3D 边框的中心深度Z进行回归。最终的 loss 如下（各部分 loss 的定义参见原文，在此不再赘述）：