论文:基于关键点的单目3D目标检测
关键点检测网络
本文的关键点检测网络将 RGB 图像当作输入,输出 3D 检测框的顶点及中心点,其包括三个组成部分:骨架、关键点特征金字塔以及检测头,主要架构采用了与 2D 无锚检测器相似的一阶段策略。
为了在速度和准确性之间进行平衡,本文使用两种不同的结构作为主干:ResNet18 和 DLA-34。所有模型均拍摄单个 RGB 图像 I∈R^{W×H×3},并以因子 S = 4 对输入进行降采样。ResNet-18 和 DLA-34 用于图像分类网络,最大降采样因子为 ×32。我们通过三个双线性插值和 1×1 卷积层对瓶颈三次进行上采样。在上采样层之前连接了相应的低级特征图,同时添加了一个 1×1 卷积层以减小通道尺寸。经过三个上采样层后,通道分别为 256、128、64。
图像中的关键点在大小上没有差异。因此,关键点检测不适合使用特征金字塔网络(FPN)。本文提出了一种新的关键点特征金字塔网络(KFPN),以检测点空间中尺度不变的关键点。假设我们有F个尺度特征图,我们首先调整每个大小f的大小,将其统一为最大的 f 的大小。然后通过 softmax 运算生成软权重,以表示每个尺度的重要性。通过线性加权获得最终的尺度空间得分图:
检测头由三个基本组件和六个可选组件组成,可以任意选择这些组件以提高 3D 检测的准确性,而计算量却很少。受 CenterNet 的启发,本文将关键点作为连接所有特征的主要中心 由于在截断的情况下对象的 3D 投影点可能会超出图像边界,因此将更适当地选择 2D 框的中心点。Heatmap 定义为 M,其中 C 是目标种类的数量,另一部分是由顶点和中心点投影出的 9 个点 V,对于一个对象的关键点,本文将回归得到的主中心的局部偏移量 Vc 作为指标。最接近 Vc 坐标的 V 的关键点被作为一个对象的集合。尽管 9 个关键点的 18 个的约束能够恢复物体的 3D 信息,但是越多的先验条件能够增加更多的约束,中心偏移 M_OS,顶点偏移 V_OS 是 heatmap 中对每个关键点的离散误差。
3D 目标的维度 D 方差小容易预测,本文引用基于 Multi-Bin 方法对偏航角 θ 进行回归。将 θ 的余弦偏移和正弦偏移概率在 1 个 bin 中进行分类,并使用 2 个 bin 生成方向特征图,同时对 3D 边框的中心深度Z进行回归。最终的 loss 如下(各部分 loss 的定义参见原文,在此不再赘述):
3D边框的估计
得到 9 个特征点 kp、物体尺寸 D、偏航角 θ、中心深度 Z,目标是找出哪一个边框中心点与 2D 关键点 kp 最匹配,这能够最小化 3D 关键点和 2D 关键点的投影损失,并将它和其他先验损失定义为一个非线性最小二乘优化问题:
其中 e_cp、e_d、e_r 是相机点、维度先验、方向先验的损失,从 heatmap 中提取的置信度表示为:
实验论文
本文在 KITTI 数据集上进行了实验。
最新活动更多
-
即日-1.24立即参与>>> 【限时免费】安森美:Treo 平台带来出色的精密模拟
-
2月28日火热报名中>> 【免费试用】东集技术年终福利——免费试用活动
-
即日-3.21立即报名 >> 【深圳 IEAE】2025 消费新场景创新与实践论坛
-
4日10日立即报名>> OFweek 2025(第十四届)中国机器人产业大会
-
7.30-8.1火热报名中>> 全数会2025(第六届)机器人及智能工厂展
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论