订阅
纠错
加入自媒体

论文:基于关键点的单目3D目标检测

2020-09-09 15:06
学术头条
关注

关键点检测网络

本文的关键点检测网络将 RGB 图像当作输入,输出 3D 检测框的顶点及中心点,其包括三个组成部分:骨架、关键点特征金字塔以及检测头,主要架构采用了与 2D 无锚检测器相似的一阶段策略。

为了在速度和准确性之间进行平衡,本文使用两种不同的结构作为主干:ResNet18 和 DLA-34。所有模型均拍摄单个 RGB 图像 I∈R^{W×H×3},并以因子 S = 4 对输入进行降采样。ResNet-18 和 DLA-34 用于图像分类网络,最大降采样因子为 ×32。我们通过三个双线性插值和 1×1 卷积层对瓶颈三次进行上采样。在上采样层之前连接了相应的低级特征图,同时添加了一个 1×1 卷积层以减小通道尺寸。经过三个上采样层后,通道分别为 256、128、64。

图像中的关键点在大小上没有差异。因此,关键点检测不适合使用特征金字塔网络(FPN)。本文提出了一种新的关键点特征金字塔网络(KFPN),以检测点空间中尺度不变的关键点。假设我们有F个尺度特征图,我们首先调整每个大小f的大小,将其统一为最大的 f 的大小。然后通过 softmax 运算生成软权重,以表示每个尺度的重要性。通过线性加权获得最终的尺度空间得分图:

检测头由三个基本组件和六个可选组件组成,可以任意选择这些组件以提高 3D 检测的准确性,而计算量却很少。受 CenterNet 的启发,本文将关键点作为连接所有特征的主要中心 由于在截断的情况下对象的 3D 投影点可能会超出图像边界,因此将更适当地选择 2D 框的中心点。Heatmap 定义为 M,其中 C 是目标种类的数量,另一部分是由顶点和中心点投影出的 9 个点 V,对于一个对象的关键点,本文将回归得到的主中心的局部偏移量 Vc 作为指标。最接近 Vc 坐标的 V 的关键点被作为一个对象的集合。尽管 9 个关键点的 18 个的约束能够恢复物体的 3D 信息,但是越多的先验条件能够增加更多的约束,中心偏移 M_OS,顶点偏移 V_OS 是 heatmap 中对每个关键点的离散误差。

3D 目标的维度 D 方差小容易预测,本文引用基于 Multi-Bin 方法对偏航角 θ 进行回归。将 θ 的余弦偏移和正弦偏移概率在 1 个 bin 中进行分类,并使用 2 个 bin 生成方向特征图,同时对 3D 边框的中心深度Z进行回归。最终的 loss 如下(各部分 loss 的定义参见原文,在此不再赘述):

3D边框的估计

得到 9 个特征点 kp、物体尺寸 D、偏航角 θ、中心深度 Z,目标是找出哪一个边框中心点与 2D 关键点 kp 最匹配,这能够最小化 3D 关键点和 2D 关键点的投影损失,并将它和其他先验损失定义为一个非线性最小二乘优化问题:

其中 e_cp、e_d、e_r 是相机点、维度先验、方向先验的损失,从 heatmap 中提取的置信度表示为:

实验论文

本文在 KITTI 数据集上进行了实验。

<上一页  1  2  3  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    人工智能 猎头职位 更多
    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号