独家 | 颜水成和冯佳时团队一作详解CVPR录用论文：基于对抗擦除的物体区域挖掘

AI科技评论按：新加坡国立大学博士后魏云超博士、新加坡国立大学助理教授冯佳时博士、卡内基梅隆大学梁小丹博士、南开大学程明明教授、北京交通大学赵耀教授及360人工智能研究院院长颜水成博士所作论文「Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach」被CVPR 2017录用为口头报告（oral，录用率2.65%）。在 AI科技评论的邀请下，论文一作魏云超博士撰写了关于这篇论文的独家解读文章，以飨读者。

背景介绍

图像语义分割是计算机视觉领域的核心研究问题之一。一般来讲，训练高性能的语义分割模型需要依赖于大量的像素级的人工标注（即标注每个像素点的语义信息）。然而，标注这类的训练样本非常困难，往往需要大量的金钱和时间。为了降低获取训练样本的难度，研究人员提出采用一些相对容易获取的标注作为监督信息（我们称之为弱监督），并用于训练图像语义分割模型。目前这些弱监督信息主要包括了bounding Boxes，scribbles，points和labels，如图1。

图1

在这些弱监督信息中，图像的labels标注最容易获取，我们着重研究如何利用图像的labels作为监督信息，训练出用于语义分割的模型。而这一问题的成功的关键在于如何构建图像标签同像素点之间的关联，从而自动生成图像像素级的标注，进而利用FCN训练语义分割模型。

图2

目前我们注意到研究人员们提出了一些自上而下的attention方法（CAM[1]， EP[2]等）。这类方法可以利用训练好的分类CNN模型自动获得同图像标签最相关的区域。如图2所示，我们给出了通过CAM方法获取的attention map。可以看出对于一个图像分类模型，往往物体的某个区域或某个instance对分类结果的贡献较大。因此这类attention方法只能找到同标签对应的某个物体最具判别力的区域而不是物体的整个局域。如何利用分类网络定位物体的整个区域，对语义分割任务具有重要意义。

Motivation

图3

图3给出了我们的motivation。我们将第一张图片以及它对应的标签“person”输入到网络中进行训练。继而，网络会尝试从图中发现一些证据来证明图中包含了“person”。一般来讲，人的head是最具判别力的部位，可以使此图被正确地判别为“person”。若将head从图片中移除（如第二张图中的橙色区域），网络会继续寻找其它证据来使得图像可以被正确分类，进而找到人的body区域。重复此操作，人的foot区域也可以被发现。由于训练本身是为了从图片中发现对应标签的证据而擦除操作则是为了掩盖证据，因此我们称这种训练-擦除-再训练-再擦除的方式为对抗擦除（adversarial erasing）。

对抗擦除方法

基于上述的motivation，我们采用了对抗擦除的机制挖掘物体的相关区域。如图4所示，我们首先利用原始图像训练一个分类网络，并利用自上而下的attention方法（CAM）来定位图像中最具判别力的物体区域。进而，我们将挖掘出的区域从原始图片中擦除，并将擦除后的图像训练另一个分类网络来定位其它的物体区域。我们重复此过程，直到网络在被擦除的训练图像上不能很好地收敛。最后将被擦除的区域合并起来作为挖掘出的物体区域。

图4

对抗擦除的框架

图5为对抗擦除方法的细节。我们基于VGG16训练图像的分类网络，将最后两个全连接层替换为卷积层，CAM被用来定位标签相关区域。在生成的location map（H）中，属于前20%最大值的像素点被擦除。我们具体的擦除方式是将对应的像素点的值设置为所有训练集图片的像素的平均值。

图5

我们发现在实施第四次擦除后，网络训练收敛后的loss值会有较大提升（图6右）。主要原因在于大部分图片中的物体的区域已经被擦除，这种情况下大量的背景区域也有可能被引入。因此我们只合并了前三次擦除的区域作为图片中的物体区域。图6左给出部分训练图像在不同训练阶段挖掘出的物体区域，以及最后将擦除区域合并后的输出。

图6

对抗擦除在弱监督语义分割中的应用

我们利用显著性检测技术生成的显著图生获取图像的背景信息，并同通过对抗擦除获得物体区域结合生成用于训练语义分割网络的segmentation mask（其中蓝色区域表示未指派语义标签的像素，这些像素点不参与训练）。由于在生成的segmentation mask中包含了一些噪声区域和未被标注的区域，为了更加有效地训练，我们提出了一种PSL（Prohibitive Segmentation Learning）方法训练语义分割网络，如图7。该方法引入了一个多标签分类的分支用于在线预测图像包含各个类别的概率值，这些概率被用来调整语义分割分支中每个像素属于各个类别的概率，并在线生成额外的segmentation mask作为监督信息。由于图像级的多标签分类往往具有较高的准确性，PSL方法可以利用分类信息来抑制分割图中的true negative区域。随着训练的进行，网络的语义分割能力也会越来越强，继而在线生成的segmentation mask的质量也会提升，从而提供更加准确的监督信息。

图7

实验结果

本文提出的对抗擦除和PSL方法，在Pascal VOC 2012数据集上获得了目前最好的分割结果。部分测试图片上也达到了令人满意的分割结果。

文章链接：https://arxiv.org/pdf/1703.08448.pdf

Reference

[1] B. Zhou,etc. Learning Deep Features for discriminative localization. CVPR,2016.

[2] J. Zhang,etc. Top-down Neural Attention by Excitation Backprop. ECCV,2016.

————— 给爱学习的你的福利 —————

3个月，从无人问津到年薪30万的秘密究竟是什么？答案在这里——崔立明授课【推荐系统算法工程师-从入门到就业】3个月算法水平得到快速提升，让你的职业生涯更有竞争力！长按识别下方二维码（或阅读原文戳开链接）抵达课程详细介绍~

————————————————————