CVPR2020 Oral：一张照片三维重建你的房间

2020-04-09 14:41

实验分析

我们在SUN RGB－D和Pix3D数据集上进行了实验。SUN RGB－D是真实的场景数据集，包含10335张真实的室内图片，及其对应的房间布局、物体包围盒和粗糙点云。Pix3D有约400个较精细的家具模型，对应着约10000张真实图片。要重建出较好的物体三维形状，我们需要较好的三维GT，所以我们先用Pix3D对MGN进行预训练。LEN和ODN则在SUN RGB－D上被预训练，然后将它们与MGN整合在一起，在SUN RGB－D上Fine－tuning。另外，二维包围盒检测网络（Faster R－CNN）会在COCO上预训练，在SUN RGB－D上Fine－tuning。关于详细的训练策略、参数和效率，请查看我们的论文和补充材料。

联合学习对三个子任务均有影响。我们的方法在三维布局及相机姿态（表1）、三维物体包围盒检测（表2、表3）、物体重建（表4）上均达到了SOTA。

布局估计：

我们将本文方法与现有的布局理解工作进行了比较。如表1所示，对房间布局、对象包围盒和网格进行联合训练有助于提高布局估计精度，比现有方法提高了2％。

相机姿态估计：相机姿态由R（β，γ）定义，因此我们用GT和估计出的俯仰角β及横滚角γ间的平均绝对误差来衡量估计精度。结果（表1）表明，联合学习也有利于相机姿态估计。

表1． SUN－RGB－D三维布局与相机姿态估计的比较。

三维目标检测：

表2比较了本文方法与现有方法对各类物体的检测结果。比较表明，我们的方法较最新的方法有了显著的改进，并且效果也优于现有方法的加强版本。原因有两方面：一是联合学习中的全局损失涉及几何约束，保证了预测结果的几何合理性；二是ODN中的多边关系特征有利于预测空间占有（spatia1 occupancy），提升了三维目标检测的精度。在表3对物体姿势预测的比较中，我们使用物体的平移、旋转和缩放误差作为指标。结果表明，该方法不仅能获得合理的空间占有率（mAP），而且能获得更精确的物体姿态。

表2． 3D物体检测比较。

表3．物体姿态预测比较。

网格重建：

表4中物体形状重建的比较指标为样本到重建网格的Chamfer距离。结果表明，本文的剪边及局部密度策略均可提高平均精度。可能的原因是使用局部密度可以保持小规模拓扑结构，而且剪边对避免错误的拓扑修改更鲁棒。

表4． Pix3D物体重建比较。

通过图5在网格级别的比较可以看出，我们的MGN对重建结果拓扑结构的控制更优秀。图6也表明，我们的联合学习方法可以得到合理的整体三维重建结果。

消融实验

为了观察每个点的重要性，我们对比了以下几种网络配置：

C0：不使用多边关联特征（ODN）和联合训练（Baseline）；

C1：Baseline＋关联特征；

C2：Baseline＋联合训练只使用cooperative loss Lco；

C3：Baseline＋联合训练只使用global loss Lg；

C4：Baseline＋联合训练（Lco ＋ Lg）；

Full：Baseline＋关联特征＋联合训练。

对比结果如表5所示。通过对比C0 v．s． C4 和C1 v．s． Full可以发现不管用不用关联特征，联合训练对三个子网络均有提升。C0 v．s．C1 和C4 v．s． Full的对比说明使用关联特征能提高ODN及MGN的效果。C0 v．s． C2 和C0 v．s． C3的比较说明Lco 和 Lg对最终的结果均有积极影响，如果联合使用，效果更佳。我们还发现Lg随着目标检测性能的提高而减小，这与物体对齐对网格重建有显著影响的直觉是一致的。在SUN RGB－D数据集上Fine－tuning MGN不能提升Pix3D数据集上单个物体重建的精度，这反映出物体重建依赖于高质量网格的良好监督。以上内容说明，对所有子任务进行联合学习是进行整体场景三维理解与重建的一个可行的解决方案。