当前位置:首页 > 民俗文化

enet学院 ENet —一种针对实时语义分割的深度神经架构

本文是AI研究学会整理的技术博客,

一种用于实时语义分割的深度神经架构

作者| Arunava

翻译| callofduty890

校对|酱梨评论|皮塔整理|梨园网

原始链接:

https://towards data sciences . com/enet-a-deep-neural-architecture-for-real-time-semantic-segmentation-2 baa 59 cf 97 e 9

图1。语义分割的人和卡通人物之间的对话

这是本文的摘要:

面向实时语义分割的深度神经网络体系结构

论文:https://arxiv.org/abs/1606.02147

正式介绍

高效神经网络提供了按像素进行实时语义分割的能力。ENet的速度提高了18倍,FLOP的要求降低了75倍,参数降低了79倍,为现有模型提供了相近或更好的精度。在摄像机、城市风景和太阳数据集上进行了测试。

方法:

图3。ENet架构

以上是完整的网络架构。

它分为几个阶段,由表格中的横线和每个块名后的第一个数字突出显示。

报告输出大小为输入图像分辨率512 * 512

图4。ENET的每个模块都有详细描述

视觉表现:

-初始模块是(a)中所示的模块

-瓶颈模块显示在(b)中

每个瓶颈模块包括:

-1x1投影缩小了尺寸

-主卷积层(conv)(-正常、扩展或完整)(3x3)

-1x1分机

并且它们在所有卷积层之间放置批量标准化和预流

如果瓶颈模块是下采样,则将最大池层添加到主分支。此外,第一个1x1投影被步幅= 2的2x2卷积代替。

它们不会激活填充来匹配要素地图的数量。

Conv有时是非对称卷积,即5 * 1和1 * 5卷积的序列。

对于正则化,他们使用空间丢失:

-瓶颈2.0之前p = 0.01

-完成后p = 0.1

所以,

阶段1,2,3-编码器 - 由5个瓶颈模块组成(除了阶段3没有下采样)。阶段4,5-解码器 - 阶段4包含3个瓶颈,阶段5包含2个瓶颈模块接下来是一个fullconv,它以尺寸输出最终输出 - C * 512 * 512,其中C是滤波器的数量。

有一些事实:

-他们没有在任何预测中使用偏差

-在每个卷积层和激活层之间,它们使用批量标准化

-解码器中的MaxPooling替换为MaxUnpooling

在解码器中,填充被无偏差的空间卷积代替

-在最后一个(5.0)上采样模块中不使用合并索引

-网络的最后一个模块是裸完全卷积,占用了解码器大部分的处理时间。

-每条侧支在空之间丢失,第一阶段p = 0.01,后期p = 0.1。

结果

对电子网络的性能进行基准测试

-CamVid(道路场景)

-城市景观(道路景观)

-太阳RGB-D(室内场景)

SegNet [2]被用作基线,因为它是最快的细分模型之一。使用cuDNN后端使用Torch7库。

使用NVIDIA Titan X GPU和NVIDIA TX1嵌入式系统模块记录推理速度。输入图像大小为640x360,速度超过10fps。

图5。以SegNet为基线的两种不同图形处理器推理时间的比较

图6。segnet和ENet的硬件要求

使用Adam.ENet非常快速的融合了基准,每个数据集上使用了4个Titan X GPU,训练只需要3-6个小时。

它分两个阶段进行:

首先,他们训练编码器对输入图像的下采样区域进行分类。

然后连接一个解码器,训练网络执行上采样和像素分类。

学习率-5e-4

L2的重量衰减是2e-4

批量为10

用户定义的类别权重方案定义为

如图7所示。用户定义的类别权重方案的公式

其中c = 1.02

并且类别权重被限制在[1,50]的区间内

图8。城市景观数据集的性能

图9。Camvid数据集的性能

参考:

A.Paszke,A. Chaurasia,S. Kim,E. Culurciello。Enet:用于实时语义分割的深度神经网络架构。arXiv预印本arXiv:1606.02147,2016。

动词 (verb的缩写)Badrinarayanan,A. Kendall,和R. Cipolla,“Segnet:用于图像分割的深度卷积编码器-解码器架构”,arXiv预印本arXiv:1511.00561,2015。

我最近转载了这篇论文,可以在这里找到:

https://github . com/iArunava/ENet-实时-语义-分段

想继续查看本文的相关链接和参考文献?

点击[enet-用于实时语义分割的深度神经架构]或长按地址访问:

今天推荐的AI研究会:雷锋网雷锋网雷锋网

卡耐基梅隆大学2019年春季推出的“神经网络自然语言处理”是CMU语言技术学院和计算机科学学院的联合课程。它的主要内容是教学生如何使用神经网络进行自然语言处理。神经网络可以看作是语言建模任务的一种强有力的新工具。同时,神经网络可以在很多任务上改进最新的技术,让过去不容易解决的问题变得简单易行。

加入这个团体,免费观看视频:https://ai.yanxishe.com/page/groupDetail/33

1.《enet学院 ENet —一种针对实时语义分割的深度神经架构》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《enet学院 ENet —一种针对实时语义分割的深度神经架构》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1212619.html

上一篇

吃甜食喝啤酒最招蚊子 为什么这么说什么原因

下一篇

九州缥缈录定档 九州缥缈录什么时候播讲述什么

百度压缩 百度NLP | 神经网络模型压缩技术

  • 百度压缩 百度NLP | 神经网络模型压缩技术
  • 百度压缩 百度NLP | 神经网络模型压缩技术
  • 百度压缩 百度NLP | 神经网络模型压缩技术

gsm模块 【科普】GPRS网络通信模块和GSM模块工作原理是什么?如何使用?

GSM模块或GPRS模块是利用GSM或GPRS系统与计算机连接终端设备的网络通信芯片或电路。 GSM是什么? 全球移动通信系统最初是由欧洲电信标准协会(ETSI)开发的。 它是为了描述手机使用的第二代(2G)数字蜂窝网络的协议而创建的,现在它是...

gsm是什么网络 【科普】GPRS网络通信模块和GSM模块工作原理是什么?如何使用?

GSM模块或GPRS模块是利用GSM或GPRS系统与计算机连接终端设备的网络通信芯片或电路。 GSM是什么? 全球移动通信系统最初是由欧洲电信标准协会(ETSI)开发的。 它是为了描述手机使用的第二代(2G)数字蜂窝网络的协议而创建的,现在它是...

行政工作六大模块

行政工作六大模块

行政工作的六个模块分为六类:流程系统、会议外联、印刷资格、档案、采购资产和后勤保障。企业管理的六个模块1.流程系统:流程建设、系统管理、业务计划、目标责任签订等。2.会议外联:秘书服务、会议管理、活动管理、文件和文稿、公共关系、党团工会妇联工作...

鸡尾酒会 人工神经网络,让助听器使用者体验“鸡尾酒会效应”

  • 鸡尾酒会 人工神经网络,让助听器使用者体验“鸡尾酒会效应”
  • 鸡尾酒会 人工神经网络,让助听器使用者体验“鸡尾酒会效应”
  • 鸡尾酒会 人工神经网络,让助听器使用者体验“鸡尾酒会效应”

led模块灯 家装 篇一:记佛山照明LED吸顶灯光源模组更换小记

注:本文来自#原创新人#活动。成功参加活动将额外获得100枚金币。详细活动规则请戳此链接! 1.起因 吸顶灯历史悠久,用的都是老式的蝴蝶灯管,支架早就老化破损了。镇流器是那种贴片的,很大,和灯管一起掉下来。之前改装过,用绳子吊着勉强在灯罩上生存...

triad Unfiltered Audio 发布模块引擎的多频段处理插件 Triad

triad Unfiltered Audio 发布模块引擎的多频段处理插件 Triad

Triad是一款基于模块化效果处理器BYOME的多频段处理器。它包含一个三分频器,可以使用不同的效果来处理低、中、高频段。  三元组的效果包括失真失真、延迟延迟、混响混响、音高偏移、粒子制粒机等,更多的调制可用于特殊输入,如LFO、包络等。通过...

电力模块 【干货】电力线载波通信模块

  • 电力模块 【干货】电力线载波通信模块
  • 电力模块 【干货】电力线载波通信模块
  • 电力模块 【干货】电力线载波通信模块