《基于深度学习的显著性目标检测综述》阅读笔记

基本信息

  • 论文名称

    基于深度学习的显著性目标检测综述

  • 作者

    史彩娟等

  • 发表时间

    2020年

  • 来源

    知网

说明

本文基本研究对象为:基于深度学习的SOD算法。

下文中将显著性目标检测简写为SOD(Salient Object Detection),将基于深度学习的显著性目标检测算法简写为DSOD(Deep Learning Based SOD)。

主要收获

  • 知识

    • 低层特征中包含更多的边界信息

      • 通过编码低层特征距离来检测边界信息可能导致部分边界细节丢失。
      • 通过引入相关操作来增强低层特征具有的边界信息,可以获得更清晰的边界,但容易造成显著性目标检测主体不准确的问题。
    • 高层特征中包含更多的语义信息。

      • 只对高层特征所包含的语义进行增强,有时会造成显著性目标边界模糊或者多个显著性目标重合。
    • 只进行边界增强容易造成显著性目标不准确,而只进行语义增强则会引起显著性目标的边界不准确,所以可以同时增强两者。

      因为通过语义增强可以减小无效目标的干扰,更好地定位显著性目标的位置;通过边界增强可以获得清晰的显著性目标边界。

      • 金字塔结构可以处理高低层的特征
    • 全局信息(颜色,纹理,背景/前景等)包含显著性目标的位置信息,而局部信息可以增强显著性目标边界。

  • 一些未知的东西

    • BASNet是怎么实现的?其中的混合Loss是什么
    • Boundary-Enhanced Loss是什么?
    • 注意力机制(Attention)是什么?
    • 金字塔结构是什么?
    • 层次递归卷积神经网络(Hierarchical Recurrent Convolutional Neural Network,HRCNN)是什么?
    • 字幕网络(Image Captioning Network,ICN)是什么?
    • SqueezeNet是什么?3种设计原则?
    • MobileNet是什么?深度可分离卷积?
    • 可变形卷积是什么?
    • 评估指标
      • F-度量($F-measure,F_\beta$)
      • 加权F-度量($Weighted\ F-measure,F_\beta^\omega$)
      • P-R曲线
      • 平均绝对误差(Mean Absolute Error, MAE)
  • 思考

    • 研究至少有2个思路:横向(分类)和纵向(深入)。

摘要

  1. 根据原理不同,分3类介绍并定性分析比较DSOD。

    3个类别为:边界/语义增强、全局/局部结合、辅助网络

  2. 简单介绍DSOD的常用数据集和评估准则

  3. 现有DSOD方法在多个数据集上进行多方面的性能比较

    包括定量比较、P-R曲线和视觉比较

  4. 现有DSOD算法在复杂背景、小目标、实时性检测等方面的不足

  5. DSOD的未来发展方向,如复杂背景、实时、小目标、弱监督

1 引言

  • 传统SOD方法主要利用人类直观感觉或启发式先验,如利用色度比较,背景比较和边界点先验等,通过人工提取特征来检测目标,但人工提取特征非常耗时。
  • DSOD可自动学习到多尺度特征,精度速度大幅提升,但也存在不足:复杂背景下的性能有待提升、实时性需提高、模型复杂度需降低。

2 基于深度学习的显著性目标检测方法

  • 传统方法中人工提取特征耗时或者迁移性较差
  • DSOD可分为3个类别:边界/语义增强、全局/局部结合、辅助网络
  • ==图1==给出了今年DSOD的发展历程和主要算法

2.1 基于边界/语义增强的SOD

2.1.1 基于边界增强的SOD方法

  • 边界增强是指通过增强深度特征中的低层特征来获得更多的边界信息,从而更好的定位显著目标边界

    • ELD算法和KSR算法通过编码低层特征距离来检测边界信息,定位显著性目标轮廓,但是轮廓边界有时会模糊,导致部分边界细节丢失。

    • DCL算法和DSS算法通过引入相关操作来增强低层特征具有的边界信息

      相较于直接编码低层特征距离的算法,这类方法获得的显著性目标边界更加清晰。但是,这些操作的引入容易引起显著性目标检测主体不准确,比如只有1个目标却检测出了2个。

      原文中==图2==展示并对比了上述4个算法的检测效果。

  • 还可以直接对显著性目标的边界进行检测,比如GearNet、AFNet(采用BEL,Boundary-Enhanced Loss)、BASNet。

    这类方法能够提取清晰的显著性目标边界,边界细节相对较好,显著性目标的检测准确度较高(无关的显著性目标较少),效果见原文==图3==。

2.1.2 基于语义增强的SOD方法

  • 语义增强是指从高层特征中获得丰富的语义信息,从而更好的定位显著性目标,使显著性目标更加突出。

    比如R_FCN算法、CPD算法和PoolNet算法等,算法效果见原文==图4==。

    这类方法可以准确定位显著性目标,但是由于仅针对高层特征所包含的语义进行增强,有时会造成显著性目标边界模糊或者多个显著性目标重合。

  • 还可以通过引入注意力机制进一步增强语义信息,如PiCANet和RAS算法。主体准确性和边界准确性都不错,算法效果见原文==图5==。

2.1.3 基于边界/语义增强的SOD方法

  • 只进行边界增强容易造成显著性目标模糊,而只进行语义增强则会引起显著性目标的边界模糊,所以可以同时对两者进行增强

    因为通过语义增强可以减小无效目标的干扰,更好地定位显著性目标的位置;通过边界增强可以获得清晰的显著性目标边界

    这类算法有Amulet、BDMPM等,算法效果见原文==图6==。

  • 还可以采用金字塔结构同时对高低层特征进行处理,以同时增强显著性目标边界和语义。

    这类算法有SRM算法、PAGE算法、FPA算法,算法效果见原文==图7==。

2.2 基于全局/局部结合的SOD

  • 全局信息(颜色,纹理,背景/前景等)包含显著性目标的位置信息,而局部信息可以增强显著性目标边界。

  • 一些检测方法采用递归操作、多分辨率操作和注意力机制等将全局/局部相结合以 获得更好的显著性目标检测性能

  • 这类算法有DHSNet、GRL、NLDF、PAGR算法等,算法效果见原文==图8==。

2.3 基于辅助网络的SOD

  • 基于辅助网络的显著性目标检测是指采用其它领域已有模型作为辅助网络来提升显著性目标检测性能
  • 这类算法有MDF、C2S-Net、CapSal、MLMSNet算法等,算法效果见原文==图9==。

2.4 不同类型SOD方法分析比较

  • 现有DSOD方法边界模糊的原因和解决办法
    1. 深度模型包含许多下采样操作,上采样后的特征难以恢复原有的空间信息,融合后引起边界模糊。因此,为了减小下采样操作引起的多尺度融合损失,引入一些特定操作,如 PoolNet 算法中采用功能聚合模块等。
    2. 针对不同因素对边界检测的影响,通过编码低层特征距离来检测边界信息,定位显著性目标轮廓,如ELD算法和KSR算法;或者是设计新的损失函数, 通过反向传播调整模型参数,如AFNet算法和BASNet算法。
    3. 基础模型简易导致检测的边界模糊,可以通过多尺度操作增强原有的特征效果,如DSS算法、SRM算法和PAGE算法等,或添加注意力机制来提取更有效的低层特征,如PFA算法等。
  • 基于深度学习的显著性目标检测方法中常常引入注意力机制,大致可分为3类
    1. 时空域注意力,比较适合同时具有时序及空域特征的场景,通过递归神经网络 (Recurrent Neural Network,RNN)设计注意力机制,如PAGR算法。
    2. 软注意力,是一种确定性的注意力,可以直接通过网络生成,它也是可微的, 可以通过神经网络算出梯度并且前向传播和后向 反馈来学习得到注意力的权重,如PFA算法和RAS算法;
    3. 硬注意力,从输入信息中选择重要的特征,如PiCANet算法每个像素生成注意力图,这种方式更高效和直接。

3 常用数据集及评估标准

3.1 常用数据集

  • SOD数据集

    MSRA、SOD、MSRA10K、HKU-IS、DUTS、SED、ECSSD、DUTO-OMRON、PASCAL-S

  • 常用DSOD数据集

    • MSRA10K:边界框级别的显著性真值标定
    • HKU-IS:4447个图像,多个断开连接的显著性目标,多目标的边界重合和色彩对比度较低
    • DUTS:10553个训练图像和5019个测试图像,训练和测试集都包含非常重要的场景
    • SOD:300张图像,像素级注释,大部分图像包含多个显著性目标,并且目标与背景的颜色对比度较低。
    • ECSSD:1000张图像,图像具有复杂的结构和背景
    • DUTO-OMRON:5168个高质量图像,图像具有多个显著性目标,背景相对复杂
    • PASCAL-S:8 个类别,850张图像,用于评估具有复杂背景、多个目标场景的模型性能

3.2 常用评估准则

DSOD常用评估准则

  • F-度量($F-measure,F_\beta$)

    对精度和召回率进行总体评估,最终值越大表明性能越好,其中$\beta$是一个参数,一般取$\beta^2=0.3$。公式暂略。

  • 加权F-度量($Weighted\ F-measure,F_\beta^\omega$)

    加权F-度量是F-度量的推广,通过交替计算精度和召回率得到。

    加权F-度量为了解决邻域信息的不同, 为不同位置的不同误差分配了不同的权重。公式暂略。

  • P-R曲线

    以Precision和Recall作为纵-横轴坐标的二维曲线,即查准率-查全率曲线,选取不同阈值时对应的精度和召回率绘制。P-R曲线围起来 的面积是AP(Average Precision)值,AP值越高,模型性能越好。公式暂略。

  • 平均绝对误差(Mean Absolute Error, MAE)

    MAE值越小表示模型越好。公式暂略。

4 基于深度学习的显著性目标检测方法性能比较

  • 在数据集ECSSD、DUT-OMRON、HKU-IS和DUTS-TE上进行实验,采用F-度量和平均绝对误差MAE作为评估准则

5 基于深度学习的显著性目标检测算法的不足与未来展望

  • 不足与未来展望

    • 复杂背景

      • 设计适应复杂背景(对背景敏感或者前景背景对比度低等)的显著性目标检测模型
      • 建立包含复杂背景的图像数据集
    • 实时性

      • 设计轻量化网络,比如遵守SqueezeNet特有的三种设计原则
      • 采用深度可分离卷积,比如MobileNet
      • 对网络直接进行压缩与编码
    • 小目标

      • 使用分辨率更高的卷积特征图以及残差模块来增强对小目标的检测能力
    • 矩形框定位

      • 可变形卷积
    • 完全监督学习

      无监督或弱监督


Github(github.com):@chouxianyu

Github Pages(github.io):@臭咸鱼

知乎(zhihu.com):@臭咸鱼

博客园(cnblogs.com):@臭咸鱼

B站(bilibili.com):@绝版臭咸鱼

微信公众号:@臭咸鱼

转载请注明出处,欢迎讨论和交流!