ECCV 2020全部奖项公布！李飞飞高徒与其学生共获最佳论文奖

2020-08-27 10:40

学术头条

关注

最佳论文荣誉提名

获奖论文：Towards Streaming Image Understanding

作者：Mengtian Li， Yu－Xiong Wang， and Deva Ramanan

机构：卡内基梅隆大学、阿尔戈 AI

简介：具体化感知是指一个自主的主体感知其所处环境的能力，从而能够（重新）行动。代理的响应在很大程度上取决于其处理管道的延迟。虽然过去的工作已经研究了算法在延迟和准确度之间的权衡，但是还没有一个明确的指标来比较不同的方法沿着Pareto最优的延迟精度曲线。

作者指出了标准离线评估和实时应用程序之间的一个差异：当一个算法完成对特定图像帧的处理时，周围的世界已经发生了变化。为了达到这些目的，作者提出了一种方法，将延迟和准确度统一到一个用于实时在线感知的指标中，我们称之为“流式准确性”。此度量背后的关键见解是在每个时刻联合评估整个perception堆栈的输出，迫使堆栈考虑在进行计算时应忽略的流数据量。更广泛地说，基于这个度量，作者引入了一个元基准，它系统地将任何图像理解任务转换为流图像理解任务。针对城市视频流中的目标检测和实例分割，提出了一种具有高质量和时间密集注释的数据集。

本文提出的解决方案及其实证分析证明了许多令人惊讶的结论：

（1）在帕累托最优延迟精度曲线上存在一个使流媒体准确性最大化的最佳“最佳点”（sweet spot）

（2）异步跟踪和未来预测自然而然地成为流媒体图像的内部表示形式理解

（3）动态调度可以用来克服时间混叠，产生一个矛盾的结果，即延迟有时被闲置和“无所事事”最小化。

论文第一作者 Mengtian Li 是一位来自卡内基梅隆大学机器人研究所的博士生，曾获得南京大学学士学位。他的研究兴趣是计算机视觉和机器学习，特别对资源受限的深度学习和推理感兴趣。

获奖论文：NeRF： Representing Scenes as Neural Radiance Fields for View Synthesis

作者： Ben Mildenhall， Pratul P． Srinivasan， Matthew Tancik， Jonathan T． Barron， Ravi Ramamoorthi， Ren Ng

机构：加州大学伯克利分校、谷歌研究中心、加州大学圣地亚哥分校

简介：本文提出了一种通过使用稀疏输入视图集优化底层连续体积场景函数来获得合成复杂场景新视图的最新结果的方法。作者的算法使用一个完全连接（非卷积）的深网络来表示场景，其输入是一个连续的5D坐标（空间位置（x，y，z）和观察方向（θ，φ）），其输出是该空间位置的体积密度和视景相关的发射辐射。本文通过查询沿相机光线的5D坐标来合成视图，并使用经典的体绘制技术将输出的颜色和密度投影到图像中。因为体绘制是自然可微的，所以优化表现的唯一输入是一组已知相机姿势的图像。作者描述了如何有效地优化神经辐射场，以渲染具有复杂几何和外观的真实感场景的新视图，并展示了优于先前神经渲染和视图合成的结果。

Koenderink 奖

Koenderink 奖是来表彰十年对计算机视觉领域做出巨大贡献的经典论文。今年 Koenderink 奖授予以下两篇论文：

获奖论文：Improving the Fisher Kernel for Large－Scale Image Classification

简介：Fisher 内核（FK）是一个通用框架，它结合了生成和区分方法的优点。在图像分类的背景下，FK 被证明超越了计数统计，扩展了流行的视觉单词包（BOV）。然而，在实践中，这种丰富的代表性还没有显示出它优于 BOV。

在第一部分中，作者展示了在原始框架的基础上，通过一些动机良好的修改，可以提高 FK 的准确性。在 PASCAL VOC 2007 上，将平均精度（AP）从 47．9％提高到 58．3％。同样，作者在 CalTech 256 上展示了最先进的精确度。一个主要的优点是这些结果只使用 SIFT 描述符和无代价线性分类器获得。有了这种表示法，现在可以在更大范围内探索图像分类。

在第二部分中，作为一个应用，作者比较了两个丰富的标记图像资源来学习分类器：ImageNet 和 flickrgroups。在一项涉及数十万个训练图像的评估中，作者发现在 Flickr 组中学习的分类器表现得出奇地好（尽管它们并不是用于此目的），而且它们可以补充在更仔细注释的数据集上学习的分类器。

获奖论文：Brief：Binary robust independent elementary featueres

简介：作者建议使用二进制字符串作为一个有效的特征点描述符，称之为 BRIEF。本文表明，即使使用相对较少的比特，它仍然具有很高的分辨力，并且可以通过简单的强度差分测试来计算。此外，可以使用汉明距离来评估描述符相似度，这是非常有效的计算，而不是像通常所做的 L2 范数。因此，BRIEF 的构建和匹配都非常快。作者将其与标准基准测试中的 SURF 和 U－SURF 进行了比较，结果表明它产生了相似或更好的识别性能，而运行时间只需其中一个的一小部分。