晞行

  • 5

    获得赞
  • 2

    发布的文章
  • 0

    答辩的项目

论文翻译:图像语义分割方法简述

图像分类 深度学习 机器学习

最后更新 2020-04-17 16:55 阅读 418

最后更新 2020-04-17 16:55

阅读 418

图像分类 深度学习 机器学习

一、图像语义分割方法简述

图像语义分割指对图像中每个像素进行分类,将属于同一类的像素赋予一致的值作为语义标签,而不同类别的语义标签不同,从而将整幅图划分为若干个区域。而传统的图像分割通常是基于图像颜色、纹理、形状等低层特征,简单地将图像划分为若干个不同的区域,而各区域内的物体具体是什么并不清楚。

相比之下,语义分割不仅要将图像中各物体分割开来,还给出了物体的类别信息。 最初,研究人员通过使用纹理基元森林(Texton Forest)和随机森林(RandomForest)来实现图像语义分割。而随着深度学习的发展,卷积神经网络逐渐被引入用以解决语义分割问题,且取得了巨大的成功。

基于深度学习的语义分割并非一个孤立的领域,而是在从粗糙推理到精细化推理过程中很自然的一步。从图像分类任务开始,其指的是对整个输入图像做出预测,即预测哪个类别物体属于这幅图或者给出图像包含多个类别物体可能性的排序。图像分类任务只需要从图像中提取出类别这一信息即可。接下来的物体定位与检测任务,它将不止提供物体的类别,而且提供关于各类别物体的空间位置信息如中心点或边框,也就是说它需要提取出类别和位置两个信息。而语义分割任务实现的是精细化推理,它进行密集预测,对图像中每个像素都赋予一个类别标签,这同样要求从图像中提取出类别、空间位置信息,但该空间位置信息则需要有着明确的边界位置。

二、语义分割神经网络

为进一步了解近年来语义分割深度学习方法的发展,本章将对 CVPR 中三篇最新的关于语义分割神经网络的论文进行研究讨论。 

2.1 判别特征网络

CVPR2018《Learning a Discriminative Feature Network for Semantic Segmentation》

该文针对当前语义分割网络结果存在的两个基本问题:类内不一致和类间无差别。提出从一个更为宏观的角度来重新定义语义分割任务。

  • 类内不一致问题指图中属于同一类物体的区域因外表差异而被预测为 不同类;
  • 类间无差别问题则指属于不同类的两相邻区域因外表近似而被预测为同一类。

通常语义分割是对每单个像素预测其所属类别,而从一个更为宏观的角度来思考的话,可以将图像中属于同一类的全部像素视作一体,那么此时语义分割任务就是对每类物体预测其所属类别。而为了分辨出不同类的物体,便需要具有判别力的特征,从而保证预测结果类内一致且类间差别。

综上,文章提出Discriminative Feature Network(DFN),即判别特征网络。 如下图,DFN 以 ResNet 作为主干,逐阶下采样提取到不同大小的特征图而将整个网络分为 5 个阶段;再以此为基础,加入了两个子网络分别为 SmoothNetwork 和 Border Network。  

image.png

(a)判断特征网络整体结构


Smooth Network 用以解决类内不一致问题。

此问题常出现在当某类物体区域较大以及其外观、场景较为复杂时,而导致这一问题的主要原因是缺乏上下文 信息,因此,作者在网络主干末端加入了全局平均池化来提取全局上下文特征。 然而全局上下文特征仅包含了高度语义信息,为了使得分割结果中物体轮廓清晰,作者将 Smooth Network 与网络主干形成经典的 U-Net 结构,利用多尺度感受野下所提取的特征来恢复分割细节,全局上下文特征则成为了对分割结果类内一致性的强力约束。

然而,不同大小感受野下的特征其判别力不同,进而使得预测结果类内不一致。为解决这一问题,作者提出了 Channel Attention Block(CAB),即通道注意力模块。据观察研究,网络中不同阶的特征其识别能力不同,所预测结果的类内一致性也不同:

  • 低阶中,网络提取到具有丰富细节信息的特征,但是由于其感受野较小并且缺乏空间上下文引导,从而判别力不同,其中部分特征可能会对某些区域的类别预测错误,使得语义不一致;
  • 而高阶中的特征由于感受野较大,其预测结果同类物体语义一致但缺失物体轮廓细节。于是 CAB 利用高阶特征提供有力的语义一致性引导而选择出具有判别力的类内一致的低阶特征,从而综合了各阶特征的优点,得到精确细致且类内一致的分割结果。  

image.pngFCN 的预测结果给出了每一类在每个像素上的概率,其实质上相当于所有特征图的加和,这意味着每个特征图对预测结果的作用是一致。然而,如前所述,每一阶特征的判别力是不同的,其预测结果的一致性也将不同。而为了得到类内一致的预测,应该提取具有判别力的特征并抑制不具有判别力的特征。

CAB 的本质目的便在于改变每阶特征的权重,相当于让网络自主地去选择出具有判别力从而使得结果类内一致的特征。CAB的具体结构如上图(b)所示:合并高阶特征和低阶特征,借由高阶特征提供有效的一致性引导,学习得到一个权重向量来改变低阶特征图的权重,选出具有判别力的特征。

作者将 CAB 嵌入在 Smooth Network 的每一阶,从而逐阶段地去获取具有判别力的特征,得以最终实现类内一致。 Border Network 用以解决类间无差别问题,即区分开外观相似但类别不同的 相邻图像区域。为此,网络需要加大不同类间特征的差异。

作者利用从语义分割 GT 中提取到的语义边界 GT 对 Border Network 进行监督训练,从而引导网络主 干学习到能有效表现类间差异的特征,保证 Border Network 得到准确的语义边界图。这种采用语义边界标记图监督学习提取语义边界的方法,某种程度上类似于语义边界检测任务,使得语义边界两侧即不同两类的特征具有区分度。 Border Network 具体结构如图(a) 所示。由于低阶特征包含更多的细节边缘信息,高阶特征则包含着更为深层的语义信息,而 Border Network 的目标为得到语义边界,这便需要更多的语义信息,因而 Border Network 的设计是自下而上的。具体而言,它先从低阶获取精确的细节边缘信息,再从高阶获取语义信息来逐阶消除一些非语义边界的边缘,最终得到准确的语义边界。 

综上,DFN 整体网络训练所用的 GT 在基本的像素级语义分割标记上还有语义边界标记。

整体网络的损失同样来自两个方面:

  • 一是语义分割结果的损失; 
  • 二是语义边界结果损失。

其中语义标记损失采用的是 Focal loss,用以解决有语 义边界学习训练中语义边界像素个数远远少于非边界像素个数而导致的类不平衡问题。 

最后,作者通过系列实验证实了 DFN 的有效性,其中如图(d)和图(e)所示,Smooth Network 和 Border Network 有效地解决了类内不一致和类间无差别问题。     

image.png(d)

image.png(e)


2.2 双注意力网络

CVPR2019 《Dual Attention Network for Scene Segmentation》

类似 DFN 一文,作者提出为完成高质量的场景分割,需要区分一些外表相似从而易混淆的类别如草原与牧场,并且注意同一类物体所存在的外形各异的问题,如公路上的车存在各种尺度、视角、遮挡与亮度等的变化。

因此,作者同样也提出了对于语义分割任务需要具有判别力的特征。于是作者决定利用全局中物体的相关性来提升特征的判别力,从而提出了双注意力网络(Dual Attention Network,DANet)。

该网络的关键创新点在于设计搭建出位置注意力模块(Position Attention Module,PAM) 和 通道注意力模块 (channel Attention Module,CAM),两者基于 self-attention 机制分别得到空间各个位置上特征的相关性(spatial dependency)和不同通道特征即各特征图之间存在的相关性(channel dependency)。再将这两种相关性融合到特征中,从而可提升特征表征判别力。 

网络主干为dileated ResNet;将dileated ResNet输出特征图作为原始特征图输入到两个注意力模块中以分别获取到特征的空间相 关性和通道相关性,并利用所得相关性更新原始特征;最后整合两路输出得到具有更好表征判别力的特征。

DANet整体架构如下:

image.png

PAM 的结构如下:

image.png

首先将 dileated ResNet 所得原始特征图 A(C×H× W) 分别通过 3 个卷积层得到特征图 B、C、D(C×H×W),然后将每个通道的特征图拉伸为特征向量(C×N,其中 N=H×W)。之后将 B 的转置与 C 相乘,再通过 softmax 得到空间注意力图 S(N×N),其实质上是空间任意两位置间特征相似度矩阵。

image.png

上图为所得 S 的示例。

可看出,对于图像中一特定,其特征除了与自身周围特征相似而在注意力图中呈高亮状态之外,同类物体因为特征相似也呈高亮状态。最后将 D 和 S 的转置相乘,将所得结果恢复为原特征图的尺寸(C×H ×W),然后其与一个系数 α 相乘,再加上原始特征 A 得到最终输出特征图 E(C ×H×W)。E 中各通道的特征,其上各点的值实质上为原始特征图中的该点的值加上所有点的值的加权和。这样的特征图通过空间相似度向局部特征适应性地融入了上下文信息,使得空间上越近似的语义特征将彼此促进得到更高的值,从而提升类内一致性。  

CAM 具体结构如下:

image.png

首先将原始特征图 A(C×H×W) 中每个通道的特征拉伸为特征向量(C×N);再将 A 与 A 的转置相乘,再通过 softmax 得到通道注意力图 X(C×C),即任意两通道特征间的相似度;最后将 X 的转置与 A 相乘,将所得结果恢复为原特征图的尺寸(C×H×W),然后同样将其与一个尺寸系数 β,再加上原始特征 A 得到最终输出特征图 E(C×H×W)。E 中各通道特征的值 实质上为原始特征加上所有通道特征的加权和。

这样的特征图则通过通道相似度适用性地融合了网络主干所得高层特征不同通道间的语义相关性,使得如下所示,每个通道的特征凸显出了一个特定类别:

image.png


2.3 上下文编码网络

CVPR2018《Context Encoding for Semantic Segmentation》 

作者提出对于语义分割任务,理解和利用图像上下文信息至关重要。设想用一个标注工具对一张图像进行标注时,当先选出图像的上下文语义之后(如确定这是一张卧室的图片),该标注工具指出了该场景下可能的物体类别,这将显著缩小接下来的搜索范围从而便于类别标注。

同理,如果通过某种方法能充分利用这种场景上下文语义与对应语义下可能的物体类别之间的关系,将便于实现语义分割。在传统计算机视觉方法中,常先用 SIFT 或者滤波器组提取到图像特征,再通过经典的编码器如BoW、VLAD 和 Fish Vector 等学习得到一个视觉字典,得到全局特征的统计。

这样的传统编码方法能有效地捕获到图像上下文语义,于是作者决定将其融入到 CNN 中从而提出了上下文编码网络(Context Encoding Network,EncNet),该模块的作用一是获取图像上下文语义,二是根据所得上下文语义来选择性地强调出与类别相关的特征图,从而提升分割效果。 

EncNet 网络结构如下:

image.png

作者选择预训练的 ResNet 作为网络主干,然后在网络输出层前嵌入了所提出的上下文编码模块。其中 ResNet 可分为四阶, 作者在其第三阶和第四阶处采取了扩张卷积,扩张率分别为 2 和 4。在上下文编码模块中,网络主干所得特征图将先通过一层编码层(Encoding Layer)捕获得到特征的统计信息作为全局上下文语义。文章将编码层的所得上下文语义称为编码语义(encoded semantics),之后再借由所得的编码语义,通过一组放缩因子(scaling factors)来突出和类别相关的特征图。 

编码层来源于 2017CVPR 中《Deep ten:Texture encoding Network》

它基于传统编码方式的思想,先通过预训练好的 CNN 学习得到一数据集的内在字典, 该字典包含了整个数据集的上下文语义;然后再对应于一具体输入图像输出包含其丰富上下文信息的残差编码。

至此已得到图像的上下文信息,为了利用此信息来引导之后的分割,作者采用了注意力机制,通过上下文语义信息得到一组关于特征图的放缩因子,然后将预训练 CNN 所得特征图与其对应缩放因子相乘,从而强调出与该图像上下文语义相关的特征图。

通常在语义分割问题中,网络的损失为最终预测分割结果与 GT 间的像素分割损失,而在本文中还加上了一个语义编码损失(Semantic Encoding Loss,SE-loss)。作者为了规范上下文编码模块的训练过程,从该模块的编码语义处引出一条分路,并添加了一个带 Sigmoid 激活的全连接层,得到图像中出现目标类别的预测,然后通过二进制交叉熵损失函数计算得到图像的语义编码损失,从而进过训练迫使网络理解全局语义信息。

最后,作者通过系列实验证明,在基础语义分割网络中引入上下文编码模块和语义编码损失,可以实现在只增加少量计算量的情况下有效提升分割结果。  


3. 总结

以上介绍的三个关于语义分割网络的文章从不同的角度来对语义分割任务进行了思考。判别特征网络一文分别针对语义分割存在的类内不一致问题和类间无差别来设计办法加以解决;

双注意力网络则考虑利用特征图中所存在的相关性信息来提升特征判别力,其实质上是对局部特征融合图像上下文信息;而上下文编码网络直接利用编码层得到图像上下文语义,从而引导分割时类别判别。

三者方法各不相同,但都实现了对分割精度的有效特征。

此外,三者存在一些相似之处:

  • 一是在网络结构中都引入了新兴的 Attention机制,让网络中自适应地突出对最终结果关键的特征信息,进而提升了网络性能;
  • 二是三篇文章都指出了图像上下文语义对于语义分割的重要性。

因此可得出结论,在语义分割任务中,理解和利用图像上下文语义信息至关重要。此外,充分利用深度学习新兴理论技术对网络结构进行改进,可实现进一步提升网络结果。                                    

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可,转载请附上原文出处链接和本声明。
本文链接地址:https://www.flyai.com/article/392
讨论
500字
表情
每日优质讨论奖励 20FAI
发送
每日优质讨论奖励 20FAI
删除确认
是否删除该条评论?
取消 删除