深兰科技|目标检测二十年间的那些事儿

2020-07-31 10:00

（2） HOG 检测器

方向梯度直方图（HOG）特征描述器最初是由N． Dalal和B．Triggs在2005年提出的［11］。HOG对当时的尺度不变特征变换（scale－invariant feature transform）和形状语境（shape contexts）做出重要改进。为了平衡特征不变性（包括平移、尺度、光照等）和非线性（区分不同对象类别），HOG描述器被设计为在密集的均匀间隔单元网格（称为一个“区块”）上计算，并使用重叠局部对比度归一化方法来提高精度。虽然HOG可以用来检测各种对象类，但它的主要目标是行人检测问题。如若要检测不同大小的对象，则要让HOG检测器在保持检测窗口大小不变的情况下，对输入图像进行多次重设尺寸（rescale）。这么多年来，HOG检测器一直是许多目标检测器和各种计算机视觉应用的重要基础。

方向梯度直方图（HOG），计算出每个像素朝四周的梯度方向和梯度强度，并统计形成梯度直方图

（3）基于可变形部件的模型（DPM）

DPM作为voco －07、－08、－09届检测挑战赛的优胜者，它曾是传统目标检测方法的巅峰。DPM最初是由P． Felzenszwalb提出的［12］，于2008年作为HOG检测器的扩展，之后R． Girshick进行了各种改进［13］［14］。

DPM遵循“分而治之”的检测思想，训练可以简单地看作是学习一种正确的分解对象的方法，推理可以看作是对不同对象部件的检测的集合。例如，检测“汽车”的问题可以看作是检测它的窗口、车身和车轮。工作的这一部分，也就是“star model”由P．Felzenszwalb等人完成。后来，R． Girshick进一步将star model扩展到 “ 混合模型 ”，以处理更显著变化下的现实世界中的物体。

一个典型的DPM检测器由一个根过滤器（root－filter）和一些零件滤波器（part－filters）组成。该方法不需要手动设定零件滤波器的配置（如尺寸和位置），而是在开发了一种弱监督学习方法并使用到了DPM中，所有零件滤波器的配置都可以作为潜在变量自动学习。R． Girshick将这个过程进一步表述为一个多实例学习的特殊案例，同时还应用了“困难负样本挖掘（hard－negative mining）”、“边界框回归”、“语境启动”等重要技术以提高检测精度。而为了加快检测速度，Girshick开发了一种技术，将检测模型“ 编译 ”成一个更快的模型，实现了级联结构，在不牺牲任何精度的情况下实现了超过10倍的加速。

虽然今天的目标探测器在检测精度方面已经远远超过了DPM，但仍然受到DPM的许多有价值的见解的影响，如混合模型、困难负样本挖掘、边界框回归等。2010年，P． Felzenszwalb和R． Girshick被授予PASCAL VOC的 “终身成就奖”。

基于卷积神经网络的双级检测器

随着手动选取特征技术的性能趋于饱和，目标检测在2010年之后达到了一个平稳的发展期。2012年，卷积神经网络在世界范围内重新焕发生机［15］。由于深卷积网络能够学习图像的鲁棒性和高层次特征表示，一个自然而然的问题是：我们能否将其应用到目标检测中？R． Girshick等人在2014年率先打破僵局，提出了具有CNN特征的区域（RCNN）用于目标检测［16］。从那时起，目标检测开始以前所未有的速度发展。在深度学习时代，目标检测可以分为两类：“双级检测（two－stage detection）” 和 “单级检测（one－stage detection）”，前者将检测框定为一个“从粗到细 ”的过程，而后者将其定义为“一步到位”。

双级检测的发展及各类检测器的结构［2］

（1） RCNN

RCNN［17］的思路很简单：它首先通过选择性搜索来提取一组对象作为“提案（proposal）”并当做对象的候选框。然后将每个提案重新调整成一个固定大小的图像，再输入到一个在ImageNet上训练得到的CNN模型（如AlexNet）来提取特征。最后，利用线性SVM分类器对每个区域内的目标进行预测，识别目标类别。RCNN在VOC07测试集上有明显的性能提升，平均精准度（mean Average Precision，mAP）从33．7％（DPM－v5）大幅提高到58．5％。

虽然RCNN已经取得了很大的进步，但它的缺点是显而易见的：需要在大量重叠的提案上进行冗余的特征计算（一张图片超过2000个框），导致检测速度极慢（使用GPU时每张图片耗时14秒）。同年晚些时候，有人提出了SPPNet并克服了这个问题。

（2） SPPNet

2014年，K． He等人提出了空间金字塔池化网络（ Spatial Pyramid Pooling Networks，SPPNet）［18］。以前的CNN模型需要固定大小的输入，例如AlexNet需要224x224图像。SPPNet的主要贡献是引入了空间金字塔池化（SPP）层，它使CNN能够生成固定长度的表示，而不需要重新调节有意义图像的尺寸。利用SPPNet进行目标检测时，只对整个图像进行一次特征映射计算，然后生成任意区域的定长表示以训练检测器，避免了卷积特征的重复计算。SPPNet的速度是R－CNN的20多倍，并且没有牺牲任何检测精度（VOC07 mAP＝59．2％）。

SPPNet虽然有效地提高了检测速度，但仍然存在一些不足：第一，训练仍然是多阶段的，第二，SPPNet只对其全连接层进行微调，而忽略了之前的所有层。而次年晚些时候出现Fast RCNN并解决了这些问题。