论文题目:very deep convolutional networks for large-scale image recognition

论文地址:

摘要

"研究了该任务中卷积网络深度对大规模图像识别环境中精度的影响。戴尔的主要贡献表明,使用非常小的(33)线路过滤器体系结构对网络深度的增加进行全面评估,可以将深度推到16-19加权层,从而显着改善现有技术配置。这些发现是ImageNet Challenge 2014提交论文的基础,我们的团队在定位和分类过程中分别名列第一和第二。此外,我们的表现在其他数据集的概括上非常出色,在其他数据集上取得了最佳结果。为了进一步研究计算机视觉中深度视觉表达的使用,戴尔公开使用了性能最高的ConvNet模型。”

解毒

Vgg(金字塔结构)网络适用于中小型网络(网络深度在几十层),分类性能非常好,今天也很受欢迎,用作基本网络(backbone)。

创新点

用小卷积3*3代替7*7卷积来减少计算量。

在体积层和层之间使用relu激活函数,max-pool不活动。

预处理:减去每像素训练RGB平均值。

网络体系结构

图为vgg16

用Vgg16解释。白色激活卷积层,红色为胶水,蓝色为整个连接层胶水,棕色框为预测层(softmax),16层对应于卷积层和整个连接层数的总和。

图像以固定大小(2242243)输入网络。网络的第一层和第二层为224224图像大小,64为通道数卷积核数,大小为33,步骤1,填充P为0。每个卷积都在relu旁边。第二层卷积后最大化池化(池化的本质是降维、减少信息冗余、最大化池化和平均化池化2个)、使用128个核心大小22、步骤2、填充P 0,将图像减少到112*112。之后在做卷积工作,方法差不多,但是频道数量增加了一倍。

最后,连接整个连接层。也就是说,由于整个连接层,对图像的输入是固定大小(1*1卷积,而不是当前的整个连接层,减少了参数量),整个连接层的最后一层1000表示分类种类为1000种(种类数)。

网络地图

vgg 11-19层,贴图贴图

据说这里主要在16层结构中使用1*1的卷积。

1*1卷积最早出现在网络网络(NIN)上,1*1卷积的优点是减少了很多参数量,减少了维度,从而加快了模型的培训。(事实上,我知道这一点是可以使用的。参数计算原理可以看到我的另一篇文章Google net。)

培训和测试

前4个卷积和后3个完全连接已初始化,其他权重weights随机0-10-2正态分布,bias=0。批次大小设定为256,动量为0.9。训练通过权重衰减(L2惩罚倍增设置为510 4)进行规格化,前两个完整的连接层进行“dropout规格化”(dropout比率设置为0.5)。学习率最初设置为10 2,如果验证集准确度没有改善,学习率将减少10倍。学习率共减少了3次,学习在重复37万次后中断(74个epochs)

评价指标top-1、top-5。

在测试阶段,您可以将整个连接更改为卷积(不限制输入图片的大小)

实验结果没有可比性,没什么好说的,说的是自己的模型有多好。

模型限制

收购量大,第一次完全连接计算量大,影响训练时间。

某些参数必须手动设置。

可能会发生渐变爆炸/消亡。overfit(resnet残差连接解决了网络深度过大时出现的梯度消失问题,resnet解释了另一方面。)

图片大小固定(完全连接导致)。

句子同步公众号“深度学习框架滴落”

我是休柏。来到了朝阳。

1.《【vghvghp有什么区别】Vgg网络解读》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【vghvghp有什么区别】Vgg网络解读》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/why/3046065.html