论文题目:very deep convolutional networks for large-scale image recognition
论文地址:
摘要
"研究了该任务中卷积网络深度对大规模图像识别环境中精度的影响。戴尔的主要贡献表明,使用非常小的(33)线路过滤器体系结构对网络深度的增加进行全面评估,可以将深度推到16-19加权层,从而显着改善现有技术配置。这些发现是ImageNet Challenge 2014提交论文的基础,我们的团队在定位和分类过程中分别名列第一和第二。此外,我们的表现在其他数据集的概括上非常出色,在其他数据集上取得了最佳结果。为了进一步研究计算机视觉中深度视觉表达的使用,戴尔公开使用了性能最高的ConvNet模型。”
解毒
Vgg(金字塔结构)网络适用于中小型网络(网络深度在几十层),分类性能非常好,今天也很受欢迎,用作基本网络(backbone)。
创新点
用小卷积3*3代替7*7卷积来减少计算量。
在体积层和层之间使用relu激活函数,max-pool不活动。
预处理:减去每像素训练RGB平均值。
网络体系结构
图为vgg16
用Vgg16解释。白色激活卷积层,红色为胶水,蓝色为整个连接层胶水,棕色框为预测层(softmax),16层对应于卷积层和整个连接层数的总和。
图像以固定大小(2242243)输入网络。网络的第一层和第二层为224224图像大小,64为通道数卷积核数,大小为33,步骤1,填充P为0。每个卷积都在relu旁边。第二层卷积后最大化池化(池化的本质是降维、减少信息冗余、最大化池化和平均化池化2个)、使用128个核心大小22、步骤2、填充P 0,将图像减少到112*112。之后在做卷积工作,方法差不多,但是频道数量增加了一倍。
最后,连接整个连接层。也就是说,由于整个连接层,对图像的输入是固定大小(1*1卷积,而不是当前的整个连接层,减少了参数量),整个连接层的最后一层1000表示分类种类为1000种(种类数)。
网络地图
vgg 11-19层,贴图贴图
据说这里主要在16层结构中使用1*1的卷积。
1*1卷积最早出现在网络网络(NIN)上,1*1卷积的优点是减少了很多参数量,减少了维度,从而加快了模型的培训。(事实上,我知道这一点是可以使用的。参数计算原理可以看到我的另一篇文章Google net。)
培训和测试
前4个卷积和后3个完全连接已初始化,其他权重weights随机0-10-2正态分布,bias=0。批次大小设定为256,动量为0.9。训练通过权重衰减(L2惩罚倍增设置为510 4)进行规格化,前两个完整的连接层进行“dropout规格化”(dropout比率设置为0.5)。学习率最初设置为10 2,如果验证集准确度没有改善,学习率将减少10倍。学习率共减少了3次,学习在重复37万次后中断(74个epochs)
评价指标top-1、top-5。
在测试阶段,您可以将整个连接更改为卷积(不限制输入图片的大小)
实验结果没有可比性,没什么好说的,说的是自己的模型有多好。
模型限制
收购量大,第一次完全连接计算量大,影响训练时间。
某些参数必须手动设置。
可能会发生渐变爆炸/消亡。overfit(resnet残差连接解决了网络深度过大时出现的梯度消失问题,resnet解释了另一方面。)
图片大小固定(完全连接导致)。
句子同步公众号“深度学习框架滴落”
我是休柏。来到了朝阳。
1.《【vghvghp有什么区别】Vgg网络解读》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【vghvghp有什么区别】Vgg网络解读》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/why/3046065.html