Holopix50k发布: 最多最丰富的双目数据集大幅提升多个相关任务性能?
由于这一数据集主要集中于针对水平排列相机的立体视觉,而在垂直方向上的视差会影响立体视觉匹配算法的性能,需要去除具有垂直视差的图像。在这样的筛选后剩下约60k的图像对。
垂直视差造成的匹配性能下降,c和d分别是垂直方向上有2像素和5个像素视差下的匹配结果。
由于绝大多数照片是由Hydrogen One拍摄的,其后摄基线只有12mm前摄则为5mm,场景中包含的视差信息应该是处于有限范围内的,所有研究人员通过视差分析模型去除了包含极端误差的图像和立体特征较差的图像对,最终得到了约50k的立体视觉图像对。
为了探索数据集的分布,研究人员利用在coco数据集上预训练的Mask-RCNN目标检测器对每一对图像的左图来进行检测分析,结果表明其中包含了大量丰富的常见物体,由于这是社交媒体平台,所以其中会包含很多的人物,共检测到了约21k个人体实例。此外数据集中还包含了风景和肖像摄影,为数据集贡献了可观的多样性。
Holopix中物体的词云分布包含了很多常见的物体
定量测评
为了展现数据集的优势,研究人员利用熵、BRISQUE、SR-metric和ENIQA等指标比较了Holopix与现有的数据集,结果如下表所示 :
除了数据集的数量显著高于其他数据集外,可以看到其具有最高的SR指标,意味数据集的质量在人类感知下是最高的、熵值第二高意味着图像中包含的信息也很丰富。
研究人员将数据集按照分辨率分为了HD(720p)和SD(360p)两个子集,其指标在数据集比较中都处于top2的范围内。
除了数据集本身的比较外,研究人员还利用这一数据集重新训练了几个关键的立体视觉任务模型,都得到了大幅的性能提升。
针对图像超分辨任务,采用了PASSRNet模型进行4x图像超分辨,在Holopix50k数据集上训练的结果与Flickr1024上的结果相比具有非常大的性能提升。下表显示了随着训练数据集的增加,得到的模型在不同测试集上的结果也有着显著提升。
下图可以看到基于这一大型数据集训练的结果要明显优于Flickr1024数据集的结果,细节得到更为丰富的重建:
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论