王晓昕编译自古兰经博客
量子位制作| QbitAI,微信官方账号
图像语义分割是指机器自动从图像中分割出对象区域并识别其内容。
今天由qubit推荐的这篇文章回顾了深度学习在图像语义分割中的发展。
发表这篇文章的Qure.ai是一家使用深度学习阅读医学图像的公司。他们在官方博客上梳理了语义分割中的深度学习方法。
他们希望通过这个介绍,让我们了解这个在自然图像处理方面已经很成熟,但在医学图像方面还有待发展的新兴技术。
作者Sasank Chilamkurthy分三部分介绍了语义切分的相关研究:
以下内容摘自Qure.ai官方博客:
什么是语义分割?
在处理图像时,语义分割方法是针对像素级的,也就是说,图像中的每个像素都会被分配到某个对象类别。以下是具体案例。
△左边是输入图像,右边是语义分割后的输出图像。
模型不仅要识别摩托车和驾驶员,还要标记每个对象的边界。因此,与分类目的不同,相关模型应该具有像素级的密集预测能力。
目前语义分割研究最重要的两个数据集是VOC2012和MSCOCO。
VOC2012:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
MSCOCO:
http://mscoco.org/explore/
有哪些方法?
在深度学习应用于计算机视觉之前,研究人员通常使用纹理原始森林或随机森林来构建分类器进行语义分割。
卷积神经网络不仅可以很好地对图像进行分类,而且在分割方面也取得了很大的进步。
最初,图像块分类是一种常见的深度学习方法,它使用每个像素周围的图像块来将每个像素分类到相应的类别中。其中使用图像块的主要原因是分类网络通常有一个全连接层,其输入需要是固定大小的图像块。
2014年,美国加州大学伯克利分校的龙等人提出了全卷积网络,它扩展了原有的CNN结构,可以在没有全连接层的情况下进行密集预测。
利用这种结构,通过分割图谱可以生成任意大小的图像,并且与图像块分类方法相比,处理速度得到提高。此后,几乎所有关于语义分割的最新研究都采用了这种结构。
除了全连通层结构之外,CNN网络难以用于分段的另一个问题是汇聚层的存在。汇集层不仅可以增加上卷积核的感受野,还可以聚合背景,丢弃部分位置信息。而语义分割方法需要精确调整类别图,因此需要将丢弃的位置信息保留在池层。
研究人员提出了两种不同形式的结构来解决这个问题。
第一种方法是编码器-解码器结构。其中编码器利用汇集层逐渐降低输入数据的空之间的维数,解码器通过去卷积层等网络层逐渐恢复目标的细节和空之间对应的维数。编码器和解码器之间通常有直接的信息连接,以帮助解码器更好地恢复目标细节。在这种方法中,一个典型的结构是U-Net网络。
△一种典型的编解码结构U网
在第二种方法中,使用了称为空孔卷积的结构,并且去除了池层结构。
△空当比值为1时,空穴卷积是一种经典的卷积结构。
条件随机场方法通常用于提高后处理中的分割效果。CRF方法是一种基于底层图像像素强度进行“平滑”分割的图形模型,运行时像素强度相似的点会被标记为同一类别。添加条件随机场的方法可以提高最终得分1~2%。
CRF方法在开发中的作用。一维分类器作为b图中CRF方法的分割输入;c、D、E是CRF方法的三个变种。e是广泛使用的CRF结构。
接下来,我们将整理出一些有代表性的论文来介绍FCN网络分割结构的演变。
这些结构使用VOC2012数据集来测试实际效果。
一些有趣的研究
接下来,将按出版顺序介绍以下论文:
1.fcn网络;
2.Segnet网络;
3.空孔卷积;
4.深度实验室(V1和V2);
5.RefineNet
6.PSPNet
7.大粒物质;
8.DeepLab v3
对于以上每一篇论文,下面都会指出主要贡献并进行说明,同时也会贴出VOC2012数据集中这些结构的考试成绩IOU。
章动
论文:
语义分割的全卷积网络
2014年11月14日提交给arvix
https://arxiv.org/abs/1411.4038
主要贡献:
端到端卷积网络扩展到语义分割;
在分割问题中重新使用预先训练好的Imagenet网络;
使用反褶积层进行上采样;
跳跃连接是为了提高上采样的粗糙度而提出的。
具体解释:
本文的重点在于分类网络中的全连接层可以看作是利用卷积核遍历整个输入区域的卷积运算。
这相当于在重叠的输入图像块上评估原始分类网络,但是计算效率比以前更高,因为计算结果在图像块的重叠区域共享。
虽然这种方法并不是本文独有的,另一篇关于过量进食的文章也采用了这种思路,但它确实显著提高了对VOC2012数据集的实际效果。
△卷积运算实现全连接层结构
对VGG等预训练网络模型的全连接层进行卷积后,由于CNN网络中的汇集操作,得到的特征图仍需要进行上采样。
上采样时,反卷积层不使用简单的双线性插值,而是通过学习实现插值运算。这个网络层也叫卷积、完全卷积、转置卷积或分形卷积。
然而,由于在汇集操作中丢失了一些信息,甚至带有反卷积层的上采样操作也会产生粗略的分割图。因此,本文还从高分辨率特征图中引入跳转连接。
分值评论来源62.2无排行榜67.2增大动量momentum(原文未描述)排行榜 △FCN网络在VOC2012上测试的基准分值个人评论:
本文的研究贡献非常重要,但最新的研究大大改进了这一结果。
SegNet
论文:
一种用于图像分割的深度卷积编解码体系结构
2015年11月2日提交给arvix
https://arxiv.org/abs/1511.00561
主要贡献:
最大汇集索引被传送到解码器,这提高了分段分辨率。
具体解释:
在FCN网络中,通过上卷层和一些跳转连接生成一个粗略的划分图,并引入更多的跳转连接来提高效果。
然而,FCN网络仅复制编码器特性,而赛格网复制最大池化指数。这使得SegNet在内存使用方面比FCN更有效。
△SegNet网络结构
分值评论来源59.9无排行榜 △SegNet在VOC2012上测试的基准分值个人评论:
FCN网络和赛格网是最早的编解码结构,但赛格网的基准分数不能满足实际要求。
空孔卷积
论文:
用扩展卷积进行多尺度上下文聚合
2015年11月23日提交给arvix
https://arxiv.org/abs/1511.07122
主要贡献:
空使用了孔洞卷积,这是一个可用于密集预测的卷积层。
在多尺度聚合条件下,提出了一种利用空孔卷积的“背景模块”。
具体解释:
池操作增加了感受野,有助于实现分类网络。然而,合并操作也降低了分割过程中的分辨率。
因此,本文提出的空孔卷积层的工作原理如下:
△空孔卷积示意图
空空穴回旋层在不降低空之间维数的情况下,增加了相应的感受野指数。
在接下来要提到的DeepLab中,空孔卷积称为atrous卷积。
最后两个汇集层从预先训练的分类网络(此处称为VGG网络)中移除,随后的卷积层由空孔卷积代替。
特别地,汇集层3和汇集层4之间的卷积运算是空孔卷积层2,汇集层4之后的卷积运算是空孔卷积层4。
本文提出的前端模块可以在不增加参数的情况下获得密集的预测结果。
本文提到的后台模块独立训练前端模块的输出作为模型的输入。该模块由不同扩展度的空孔串接而成,以此来聚集多尺度背景模块,提高前端预测效果。
分值评论来源71.3前端空洞卷积论文73.5前端+背景同上74.7前端+背景+ CRF同上75.3前端+背景+ CRF - RNN同上 △空洞卷积在VOC2012上测试的基准分值个人评论:
需要注意的是,该模型预测的分割图大小是原始图像大小的1/8。这是几乎所有方法都存在的问题,最终的分割图会通过插值得到。
DeeLab(v1和v2)
论文1:
基于深度卷积网和全连通条件随机场的语义图像分割
2014年12月22日提交给Arvix
https://arxiv.org/abs/1412.7062
论文2:
深度实验室:使用深度卷积网、阿特鲁卷积和全连通循环冗余校验的语义图像分割
于2016年6月2日提交给Arxiv
https://arxiv.org/abs/1606.00915
主要贡献:
空使用孔卷积;
在空之间的维度上,提出了一种金字塔形空空穴汇集的atrous空间金字塔汇集(aspp)。
使用完全连通的条件随机场。
具体解释:
空孔卷积在不增加参数数量的情况下增加了感受野。根据上述空孔卷积纸的方法,可以改进分割网络。
我们可以将原始图像的多个重新缩放版本转移到CNN网络的并行分支(即图像金字塔),或者使用多个不同采样率的并行空孔卷积层(ASPP),两者都可以实现多尺度处理。
我们也可以通过全连通条件随机场实现结构化预测,条件随机场的训练和微调应该作为后处理步骤。
△DeepLab2网络的△处理流程
分值评论来源79.7ResNet-101 + 空洞卷积 + ASPP + CRF排行榜 △DeepLab2网络在VOC2012上测试的基准分值 RefineNet论文:
细化网络:用于高分辨率语义分割的多路径细化网络
于2016年11月20日提交给Arxiv
https://arxiv.org/abs/1611.06612
主要贡献:
编码器-解码器结构,带有精心设计的解码器模块;
所有组件都遵循残余连接的设计。
具体解释:
与空孔卷积的方法也有一些缺点,因为其计算成本比较高,而且会因为处理大量高分辨率特征图而占用大量内存,阻碍了高分辨率预测的计算研究。
DeepLab得到的预测结果只有原始输入的1/8。
因此,本文提出了相应的编解码结构,其中编码器为ResNet-101模块,解码器为refinet模块,可以融合编码器的高分辨率特性和之前refinet模块的低分辨率特性。
△ Refinnet网络结构
每个RefineNet模块包含一个通过对较低分辨率的特征进行上采样来融合多分辨率特征的组件,以及一个基于步长为1、大小为5×5的重复汇集层来获取背景信息的组件。
这些组件遵循身份映射的思想,采用剩余连接的设计方法。
△ Refinnet模块
分值评论来源84.2CRF + 多维度输入 + COCO预训练排行榜 △RefineNet网络在VOC2012上测试的基准分值 PSPNet论文:
金字塔场景解析网络
于2016年12月4日提交给Arxiv
https://arxiv.org/abs/1612.01105
主要贡献:
提出一种金字塔汇集模块来聚集背景信息。
使用辅助损耗。
具体解释:
全局场景分类非常重要,因为它提供了划分类别分布的线索。金字塔池模块使用大型内核池层来捕获这些信息。
和上面提到的空孔卷积纸一样,PSPNet也使用空孔卷积来改进Resnet结构,并增加了金字塔池模块。该模块将ResNet的特征映射连接到并行汇集层的上采样输出,内核分别覆盖图像的整个区域、半区域和小区域。
在ResNet网络的第四阶段(即输入金字塔汇集模块后),除了主分支损失外,还增加了额外的损失,在其他研究中也称为中间监管。
△PSPNet网络结构
分值评论来源85.4COCO预训练,多维度输入,无CRF方法排行榜82.6无COCO预训练方法,多维度输入,无CRF方法PSPNet论文 △PSPNet网络在VOC2012上测试的基准分值 大内核论文:
大核问题——利用全局卷积网络改进语义分割
2017年3月8日提交给Arxiv
https://arxiv.org/abs/1703.02719
主要贡献:
提出了一种具有大尺度卷积核的编解码结构。
具体解释:
本研究采用全局卷积网络来提高语义分割的效果。
语义分割不仅需要图像分割,还需要对分割目标进行分类。我们不能使用分区结构中的全连接层。这项研究发现,我们可以使用大维度内核来代替。
采用大核结构的另一个原因是,虽然ResNet等很多深层网络都有很大的感受野,但一些相关研究发现,网络往往在小得多的区域获取信息,并提出了有效感受野的概念。
大核结构计算成本高,结构参数多。因此,k×k卷积可以近似为1× k+k× 1和k× 1+1× k的两种分布组合。这个模块称为全局卷积网络(GCN)。
接下来我们说结构。ResNet(无空孔卷积)构成整个结构的编码器部分,而GCN网络和反卷积层构成解码器部分。该结构还使用了一个简单的残差模块,称为边界细化(BR)。
△GCN网络结构
分值评论来源82.2-详情见本论文83.6改进训练过程,未在本文中详细描述排行榜 △GCN网络在VOC2012上测试的基准分值 DeepLab v3论文:
语义图像分割的阿特鲁卷积再思考
于2017年6月17日提交给Arxiv
https://arxiv.org/abs/1706.05587
主要贡献:
在空之间的维度上改进了金字塔空孔池法(aspp);
该模块级联多个空孔卷积结构。
具体解释:
与DeepLab v2网络和空孔卷积一样,本研究也使用空孔卷积/multi 空卷积来改进ResNet模型。
本文还提出了三种改进ASPP的方法,包括像素级特征的连接,以三种不同的比率增加1×1卷积层和3×3 空孔卷积,以及在每个并行卷积层后增加批量归一化操作。
级联模块实际上是一个剩余网络模块,但是空孔的卷积层是以不同的比率构造的。该模块类似于空孔卷积论文中提到的背景模块,但直接应用于中间特征图,而不是置信度图。置信度图是指频道数和类别数相同的CNN网络顶层特征图。
本文对这两个模型进行了独立评估,试图将它们结合并不能提高实际性能。两种模型在验证集上的实际性能相近,ASPP结构的模型性能略好,没有加入CRF结构。
这两个模型的性能都优于DeepLabv2模型的最优值。还提到性能的提高是由于增加了批量归一化层,并使用了更好的方法对多尺度背景进行编码。
△深拉v3 ASPP结构
分值评论来源85.7使用了ASPP结构,且不带有级联模块排行榜 △DeepLabv3 ASPP结构在VOC2012上测试的基准分值原始地址:
http://blog . qure . ai/notes/segmentation-deep-learning-review
[结束]
通知
五组量子位阅读器开放申请,对人工智能感兴趣的朋友可以加入量子位助手的微信qbitbot2,申请加入群内一起讨论人工智能。
另外,拥有大量量子位的自主驾驶技术组只接受学习自主驾驶相关领域的学生或一线工程师。申请方式:加qbitbot2为好友,注“自动驾驶”申请加入~
招聘
Qubit正在招聘编辑/记者,在北京中关村工作。详情请回复:微信官方账号对话界面“招聘”。
追踪人工智能领域最强的内容
1.《segnet 语义分割中的深度学习方法全解:从FCN、SegNet到各版本DeepLab》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《segnet 语义分割中的深度学习方法全解:从FCN、SegNet到各版本DeepLab》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1344570.html