图4示出了简单的编码器-解码器模型的结构。
2.4生成对抗网络(GANS)
GANs是一个新的深度学习模型家族[16]。它们由两个网络组成——一个发生器和一个鉴别器(图6)。传统GAN中的发生器网络学习从噪声(具有先验分布)到目标分布的映射,这类似于“真实”样本。鉴别器网络试图将生成的样本(“假的”)与“真实的”区分开来。
图5。GAN架构
2.5迁移学习
在某些情况下,可以基于新的应用程序来训练DL模型。有足够的数据集(假设有足够数量的标签训练数据),但在很多情况下没有足够的标签数据从头开始训练模型,可以用迁移学习来解决这个问题。在迁移学习中,在一个任务上训练的模型被重新用于另一个(相关的)任务,通常是通过对新任务的一些适应过程。例如,可以考虑将在ImageNet上训练的图像分类模型用于不同的任务,如纹理分类或人脸识别。在图像分割的情况下,许多人使用在ImageNet(比大多数图像分割数据集大的数据集)上训练的模型作为网络的编码器,并从这些初始权重重新训练他们的模型。这里的假设是,这些预先训练好的模型应该能够捕捉到分割所需的图像语义信息,这样就可以用较少的标注样本训练模型。
3基于深度学习的图像分割模型
本节详细回顾了2019年提出的100多种基于深度学习的细分方法,并将其分为10类。值得一提的是,这些作品中有一些成分是非常常见的,比如编解码,跳连接,多尺度分析,以及最近使用的展开卷积。因此,很难提及每项工作的独特贡献,但更容易根据它们对以前工作的基础设施贡献进行分组。
3.1全容量网络
龙等人利用提出了最早的语义图像分割深度学习算法之一。FCN(图7)仅包含卷积层,这使得获得任何大小的图像并生成相同大小的分割图成为可能。作者修改了现有的CNN架构,如VGG16和GoogLeNet,并通过将所有全连接层替换为全卷起层来管理非固定大小的输入输出。因此,模型输出在空之间划分的地图,而不是分类分数。
图6全卷积图像分割网络。FCN学会进行密集的像素级预测[32]。
通过使用跳转连接,模型最后一层的特征图被采样并与前一层的特征图融合。该模型结合语义信息(来自较深和较厚的层)和外观信息(来自较浅和较薄的层)来产生精确和详细的分割。该模型在PASCAL VOC、NYUDv2和SIFT Flow上进行了测试,获得了最佳分割性能。
图7: Skip连接结合了粗糙的高层信息和精细的低层信息。出自[32]。
例如,刘等人提出了一个名为ParseNet的模型来解决忽略全局上下文信息的问题。ParseNet通过使用层的平均特征来增加每个位置的特征,从而将全局上下文添加到FCNs中。将一个图层的特征映射合并到整个图像中,生成上下文向量。该上下文向量被归一化,并且不被合并以生成与原始特征地图具有相同大小的新特征地图。然后将这些特征图连接起来。简而言之,ParseNet是一个FCN,所描述的模块代替了卷积层。
图8: ParseNet,它显示额外的全局上下文被用来产生比FCN (c)更平滑的分区(d)。
FCNs已被应用于许多分割问题,如脑肿瘤分割[34],案例感知语义分割[35],皮肤病变分割[36],虹膜分割[37]。
3.2卷积模型和图形模型
如前所述,FCN忽略了场景层面潜在有用的语义语境。为了集成更多的上下文,有几种方法可以将概率图形模型(如条件随机场(CRF)和马尔可夫随机场(MRF))集成到DL架构中。
陈等[38]提出了一种基于核神经网络和全连通核函数相结合的语义分割算法(图9)。他们发现,来自最后一层深层CNNs的响应对于精确的对象分割来说还不够局部化(这是因为CNNs的不变性使得它适合于分类等高级任务)。为了克服深度CNNs定位性能差的问题,他们将最后一层的响应与全连通CRF结合起来。他们证明了他们的模型能够比以前的方法更精确地定位线段的边界。
图9: CNN+CRF模型。CNN的粗分数图像通过插值进行上采样,并反馈到完全连接的CRF以细化分割结果。出自[38]。
3.3基于编解码器的模型
另一种流行的图像分割深度模型是基于卷积编码器-解码器结构的。大多数基于dll的分段工作使用编解码器模型。我们将这些工作分为两类,一类用于一般分割的编解码模型,另一类用于医学图像分割(为了更好的区分应用)。
通用分段的编解码模型
Noh等人[43]发表了一篇关于基于反卷积的语义分割的早期论文。他们的模型(图10)由两部分组成,一个编码器采用VGG 16层网络中的卷积层,另一个反卷积网络以特征向量为输入生成像素级类概率图。反卷积网络由反卷积层和反卷积池层组成,它们识别像素级标签并预测分割掩模。
图10:反卷积语义分割。其次,基于VGG 16层网络的卷积网络是一个多层卷积网络,用于生成精确的分割图。出自[43]。
在另一项名为SegNet的有前途的工作中,Badrinarayanan等人[44]提出了一种用于图像分割的卷积编码器-解码器架构。
图11: SegNet没有全连接层;所以模型完全是旋绕的。解码器使用从编码器传输的池索引对其输入进行上采样,以生成稀疏特征图。出自[44]。
医学和生物医学图像分割的编解码模型
受FCNs和编解码器模型的启发,有几种医学/生物医学图像分割的初步模型。U-Net[50]和V-Net[51]就是两个很有名的这样的架构,现在也在医疗领域之外使用。
Ronneberger等人提出了一种用于分割生物显微镜图像的U形网格。他们的网络和培训策略依赖于使用数据扩展来更有效地从可用的带注释的图像中学习。U-Net架构(图13)由两部分组成,一部分是捕获上下文的收缩路径,另一部分是支持精确定位的对称扩展路径。
图12: U网模型。蓝色框表示具有指定形状的要素地图块。出自[50]。
图13三维图像分割的V网模型。出自[51]。
V-Net(图14)是另一个著名的基于fcn的模型,由Milletari等人提出用于三维医学图像分割[51]。在模型训练方面,他们引入了一个新的基于骰子系数的目标函数,使得模型能够处理前景和背景中体素数量严重不平衡的问题。对网络进行端到端训练,以描述前列腺的MRI体积,并学习立即预测整个体积的分割。
3.4基于多尺度金字塔网络的模型
多尺度分析是图像处理中一个非常古老的概念,已经广泛应用于各种神经网络结构中。这些模型中最突出的是林等人提出的特征金字塔网络(),其主要用于目标检测,随后用于分割。利用深锥神经网络固有的多尺度金字塔结构,构建了边际额外成本的特征金字塔。为了融合低分辨率和高分辨率特征,FPN由自下而上的路径、自上而下的路径和横向连接组成。然后,对拼接后的特征图像进行3×3卷积处理,得到各阶段的输出。最后,自顶向下路径的每个阶段生成一个预测来检测对象。对于图像分割,作者使用两个MLP来生成遮罩。
赵等人开发了金字塔场景分析网络(),这是一个多尺度网络,可以更好地学习场景的全局上下文表示。
图14: PSPN建筑。CNN生成特征地图,金字塔池模块聚合不同的子区域表示。通过上采样和拼接形成最终的特征表示,通过卷积获得最终的像素级预测。出自[57]。
3.5r-基于CNN的模型(案例分割)
区域卷积网络及其扩展(快速卷积网络、快速卷积网络、Maksed-RCNN)已被证明在目标检测应用中是成功的。R-CNN的一些扩展被广泛用于解决实例分割问题。那就是。目标检测和语义分割同时进行。特别是,更快的R-CNN[64]架构(图16)使用区域建议网络(RPN)来提出边界框候选。RPN提取感兴趣区域(RoI),RoIPool层根据这些建议计算特征来推断包围盒的坐标和对象的类别。
图15:更快的R-CNN架构。
图15:用于实例分割的掩码R-CNN架构。来自[65]
在该模型的扩展中,何等人[65]提出了一种用于对象实例分割的掩模R-CNN,该掩模在许多COCO挑战中击败了所有先前的基准。该模型可以有效地检测图像中的目标,并为每个实例生成高质量的分割掩模。已经开发了许多基于R-CNN的实例分割模型,例如为遮罩提议开发的模型,包括R-FCN [71]、深度遮罩[72]、锐度遮罩[73]、极化遮罩[74]和边界感知实例分割[75]。值得注意的是,另一个很有前途的研究方向是尝试通过学习自下而上分割的分组线索来解决案例分割问题,如深度分水岭变换[76]和通过深度度量学习的语义实例分割[77]。
3.6扩展卷积模型和DEEPLAB族
展开卷积向卷积层引入了另一个参数,即展开比。
图16: DeepLab模型。CNN模型如VGG-16或ResNet-101使用全卷积和扩展卷积。在双线性插值阶段,将特征映射扩展到原始图像分辨率。最后,一个完全连接的通用报告格式细化分割结果,以更好地捕捉对象边界。来自[78]
3.7基于递归神经网络的模型
虽然CNNs自然适合计算机视觉问题,但并不是唯一的可能。RNNs在建模像素之间的短期和长期相关性方面非常有用,这可以(潜在地)改善分割图的估计。使用RNNs,像素可以链接在一起,按顺序进行处理,从而对全局上下文进行建模,提高语义分割。然而,挑战之一是图像的自然2D结构。
图17:LSTM模型与传统像素化RNN模型的比较。出自[87]。
3.8基于注意力的模型
多年来,注意力机制已经在计算机视觉中得到探索,因此发现这种机制应用于语义分割出版物并不奇怪。陈等人[90]提出了一种注意机制,学习在每个像素位置加权多尺度特征软化。他们采用了一个强大的语义分割模型,并用多尺度图像和注意力模型对其进行训练(图32)。注意机制优于平均池和最大池,使模型能够评估不同位置和尺度下特征的重要性。
图18:基于注意力的语义分割模型。注意模型学习对不同尺度的物体赋予不同的权重;例如,对于比例尺为1.0的要素,模型会将较大的权重分配给较小的人(绿色虚线圆),而对于比例尺为0.5的要素,模型会将较大的权重分配给较大的子元素(洋红色虚线圆)。出自[90]。
3.9生成模型和对抗训练
GANs自问世以来已广泛应用于计算机视觉,并已用于图像分割。Luc等人【99】提出了一种语义分割的对抗训练方法。他们训练了一个卷积语义分割网络(图34),同时训练了一个对抗网络来区分真值分割图和分割网络生成的真值分割图。他们表明,对抗性训练方法可以提高斯坦福背景和PASCAL VOC 2012数据集的准确性。
图19:语义分割的GAN。出自[99]。
3.10活动轮廓模型的CNN模型
近年来,主动轮廓模型(ACMs)[7]与模糊神经网络协同效应的研究备受关注。一种方法是根据ACM原理建立新的损失函数。例如,陈等人[106]受全局能量公式[105]的启发,提出了一种有监督的损失层,该损失层结合了训练时预测掩膜的面积和大小信息,解决了心脏磁共振成像中心房间分割的问题。
3.11其他型号
除了上述模型之外,还有其他流行的用于分割的DL架构,例如上下文编码网络(Context Encoding Network,EncNet),它使用基本的特征提取器,并向上下文编码模块提供特征映射[113]。refinet[114]是一个多路径优化网络,它在下采样过程中明确使用所有可用信息,利用远程残差连接实现高分辨率预测。种子网络[115],引入一种自动种子生成技术和深度强化学习,学习解决交互式分割问题。前馈网[116]地图图像中超级像素的丰富特征表明从序列中提取的嵌套区域的增加程度,并使用统计结构标签空之间的图像,而没有建立明确的结构预测机制。其他模型包括BoxSup[117]、图形卷积网络[118]、宽ResNet [119]、Exfuse(增强低级和高级特征融合)[120]、双图像分割(dis) [121]、foveanet(透视感知场景分析)[122]、梯形DenseNet[123]、Bisenet [124]、SPGNET [125]、cnn[126]、AC-Net[127]]、DSSPN [128]、SGR [128]洪水分割[110]在这个领域已经有了一些有趣的研究,包括洪泛特征金字塔网络PASCAL上下文,用于洪泛分割的注意力引导网络微软通用上下文对象和无缝场景分割城市风景。
4图像分割数据集
在本节中,我们提供了一些最广泛使用的图像分割数据集的摘要。我们将这些数据集分为三类:2d图像、2.5D RGB-D(颜色+深度)图像和3D图像,并提供关于每个数据集特征的详细信息。列出的数据集具有像素级标签,可用于评估模型的性能。
4.1二维数据集
图像分割的研究主要集中在二维图像上。因此,许多二维图像分割数据集是可用的。以下是一些最受欢迎的:
视觉对象类
[134]
[135]
[136]
ADE20K / MIT场景解析(场景150)
SiftFlow
斯坦福背景
伯克利分割数据集
YouTube-对象
心凌
语义边界数据集(SBD)
PASCAL部分
辛西娅
Adobe的人像分割
4.2 2.5 d数据集
RGB-D图像已经在研究和工业应用中变得流行。以下是一些最受欢迎的三原色数据集:
NYU·V2
太阳-3D
太阳三原色
UW三维物体数据集
ScanNet
4.3 3D数据集
三维图像数据集在机器人、医学图像分析、三维场景分析和建筑应用中非常流行。三维图像通常由网格或其他体积表示,如点云。在这里,我们提到一些流行的3D数据集。
斯坦福2D-3D
ShapeNet核心
悉尼城市物体数据集
5绩效评估
在这一节中,我们首先总结了一些常用的指标来评估分割模型的性能,然后我们提供了基于动态链接库的分割模型的量化性能,并对流行的数据集进行了展望。
像素精度
平均像素精度
联合交集(IoU)
均值-IoU
精确度/召回率/ F1分数
骰子系数
基于动态链接库模型的量化性能
表PASCAL VOC测试集上分割模型的准确性
6挑战和机遇
毫无疑问,图像分割从深度学习中受益匪浅,但仍然存在一些挑战。接下来,我们将介绍一些有前景的研究方向,相信这将有助于进一步推进图像分割算法。
6.1更具挑战性的数据集
为了实现图像的语义分割和实例分割,建立了多个大规模图像数据集。然而,仍然需要更具挑战性的数据集和不同类型的图像数据集。对于静态图像来说,包含大量对象和重叠对象的数据集是非常有价值的。这可以使训练模型更好地处理密集的物体场景和真实场景中常见物体之间的大量重叠。
随着三维图像分割,特别是医学图像分析的日益普及,对大规模三维图像数据集的需求越来越大。这些数据集比它们的低维副本更难创建。现有的三维图像分割数据集通常不够大,有些是合成的,因此更大、更具挑战性的三维图像数据集可能非常有价值。
6.2可解释深度模型
尽管基于dll的模型在挑战基准测试中取得了良好的性能,但这些模型仍然存在一些问题。比如什么是深度模型学习?应该如何解释这些模型学到的特性?在给定的数据集中,能达到一定分割精度的最小神经结构是什么?虽然一些技术可以用来可视化这些模型的学习卷积核,但是缺乏对这些模型的潜在行为/动力学的具体研究。更好地理解这些模型的理论方面,可以使模型向各种细分场景发展。
6.3弱监督和无监督学习
弱监督学习和无监督学习正成为非常活跃的研究领域。这些技术有望对图像分割特别有价值,因为在许多应用领域,特别是在医学图像分析中,收集标记样本的分割问题是有问题的。转移学习法是在一组大的标记样本(可能来自共同的基准)上训练一个通用的图像分割模型,然后在一些特定目标应用的几个样本上对模型进行微调。自监督学习是另一个很有前途的方向,在各个领域都很有吸引力。在自监督学习的帮助下,图像中有许多细节可以用来训练分割模型,但训练样本要少得多。基于强化学习的模型也可能是另一个潜在的未来方向,因为它们在图像分割中没有得到足够的重视。例如,MOREL[168]提出了一种用于视频中运动目标分割的深度强化学习方法。
6.4各种应用的实时模型
在许多应用中,准确性是最重要的因素。然而,在一些应用中,分割模型也非常重要。它可以近实时运行,或者至少接近普通相机的帧率(至少每秒25帧)。这对部署在自主车辆上的计算机视觉系统非常有用。目前的大多数型号都远远达不到这个帧率。例如,FCN 8号处理低分辨率图像大约需要100毫秒。基于扩展卷积的模型在一定程度上提高了模型分割的速度,但在空之间仍有很大提高。
6.5内存效率模型
许多现代分割模型甚至在推理阶段也需要大量的内存。到目前为止,已经做了很多努力来提高这些模型的准确性,但是为了使它们适合特定的设备,例如移动电话,必须简化网络。这可以通过使用更简单的模型来实现,或者通过使用模型压缩技术,甚至训练一个复杂的模型,然后通过使用知识蒸馏技术来模拟复杂的模型,将其压缩到一个更小的具有更高存储效率的网络中。
6.6 3D点云分割
大量的工作集中在2D图像分割上,但很少涉及三维点云分割。点云分割广泛应用于三维建模、自主车辆、机器人、建筑建模等领域。处理三维无序和非结构化数据,如点云,带来了几个挑战。比如在点云上应用CNNs等经典深度学习架构的最佳方式,目前还不清楚。基于图的深度模型可能是点云分割的潜在探索领域,从而支持这些数据的附加工业应用。
7结论
我们研究了100多种基于深度学习模型的图像分割算法,这些算法在各种图像分割任务和基准测试中取得了令人印象深刻的结果。我们将这些算法分为10类:CNN和FCN、RNN、R-CNN、扩张CNN、基于注意力的模型、生成模型和对抗模型。我们在一些流行的基准上总结了这些模型的定量性能分析,如PASCAL VOC、MS COCO、Cityscapes和ADE20k数据集。最后,我们讨论了图像分割在未来几年面临的挑战和潜在的研究方向。
参考文献:
[1] R. Szeliski,《计算机视觉:算法与应用》。斯普林格科学与商业媒体,2010年。
[2]福赛思和庞塞,《计算机视觉:现代方法》。普伦蒂斯霍尔专业技术参考,2002。
[3] N. Otsu,“从灰度直方图中选择阈值的方法”,IEEE系统、人和控制论学报,第9卷,第1期,第62-66页,1979年。
[4] R. Nock和F. Nielsen,“统计区域合并”,IEEE模式分析和机器智能交易,第26卷,第11期,第1452-1458页,2004年。
[5] N. Dhanachandra,K. Manglem,Y. J. Chanu,“使用k-means聚类算法和减法聚类算法的图像分割”,Procedia Computer Science,vol. 54,PP . 764–771,2015。
[6] L. Najman和M. Schmitt,“连续函数的分水岭”,信号处理,第38卷,第1期,第99-112页,1994年。
2020年,新智元将继续和你一起探索你的人工智能新世界!AI科技干货,bilibili风格直播,就在新智元We站小程序!爱你,新智元祝你2020年新年快乐!
1.《图像分割 100个深度图像分割算法,纽约大学UCLA等最新综述论文》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《图像分割 100个深度图像分割算法,纽约大学UCLA等最新综述论文》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1654465.html