当前位置:首页 > 娱乐

robustness 深度 | L2正则化和对抗鲁棒性的关系

选自托马斯-塔奈

虽然对抗样本近年来引起了广泛的关注,对机器学习的理论和实践具有重要意义,但至今仍有许多不清楚的地方。因此,来自伦敦大学学院(UCL)医学和生命科学跨学科研究中心(CoMPLEX)的托马斯·塔奈(Thomas Tanay)和刘易斯·格里芬(Lewis D Griffin)撰写了这篇论文,旨在为解决样本线性问题提供一个清晰直观的概述。他们分析了L2正则化对对抗稳健性的影响以及对抗稳健性与经验风险之间的权衡,并将结论推广到神经网络,希望为后续工作打下坚实的基础。本文使用了简单典型的例子,在原始网页中包含了大量的交互式可视化例子,对于增强直观理解非常有帮助。

现在,考虑一个由n对(x,y)组成的训练集t,其中x是一个图像,y = y = {-1如果x∈I|1如果x∈J} ∈ j}是它的标号。我们对以下数量在t上的分配感兴趣:

一般来说,学习一个线性分类器包括为精心选择的损失函数f寻找权向量w和偏差b,并最小化R(w,b)。

第二类中有三个显著的损失函数:

为了方便起见,我们将错误分类的数据集表示为:

经验风险可以表示为:

如果这个项为正,可以理解为C误分类的每个训练样本之间的平均距离(对数据的正确分类没有贡献)。它与训练误差有关——虽然不完全相等。

最后,我们得到:

上述公式可用语言表示如下:当‖w‖较大时,最小化铰链损耗和softplus损耗相当于最小化误差距离,类似于最小化训练集上的误差率。

经验风险可以表示为:

这是t中的图像和分类边界c之间的平均距离(对误分类图像的贡献是负的)。它可以看作是对干扰的鲁棒性的一种度量:当d_adv较高时,误分类图像的数量是有限的,正确分类的图像远离C..

最后,我们可以得到:

也就是说,当‖w‖小时,最小化铰链损失和softplus损失相当于最大化对抗距离,可以解释为对抗样本最小化的现象。

标签

事实上,可以通过在经验风险中添加一个常规项来控制" w "的值,从而导致常规损失:

现在介绍最近质心分类器,它的单位法向量z = (ji)/‖ ji ‖:

最后我们把包含w帽子和z帽子的斜面叫做c,把w帽子和z帽子中的角θ叫做倾斜角c:

d_adv=12‖j−i‖cos⁡(θ)

这个方程在斜面上的几何解释是:

类似于线性问题,损失函数f对t的经验风险可以表示为:

训练n在于为所选f求W_1,b_1,W_2,b_2,并最小化R..

是分段线性的,每个图像x周围有一个局部线性区域L_x,其中:

W_1 x和b_1 x分别通过将W_1和b_1中的一些行设置为零来获得。在L_x中,原始分数可以表示为:

这可以看作是局部线性分类器C_x的原始得分,我们对线性问题的分析几乎可以不加修改地应用。首先,我们观察到s(x)是一个缩小的距离。如果d(x)是x和C_x之间的实际有符号欧氏距离,我们可以得到如下公式:

备注:

d(x) 也可以看做是 x 和由 N 定义的边界之间距离的线性近似(到最近的对抗样本的距离)。W2W1^x 是 N 在 L_x 内的梯度。它是 x 的对抗方向,在实践中通过反向传播进行计算。

范数‖ W2W1 x ‖可以理解为损失函数的标度参数(标度现在是局部的,取决于X)。同时控制所有局部缩放的一个简单方法是将L2正则化项添加到独立作用于范数" w _ 1 "和" w _ 2 "的经验风险中(请记住,W1^x权重是W1权重的子集)。随着梯度的减小,这相当于在每次迭代中衰减权重W_1和W_2。随着梯度的减小,这相当于在每次迭代中衰减权重W_1和W_2。更具体地,对于学习速率η和衰减因子λ,权重衰减更新为:

W _ 1 ← w _ 1η λ w _ 1和w _ 2 ← w _ 2η λ w _ 2

在衰减因数小的情况下,允许缩放参数‖W_2W_1^x‖无限制增长,损失只惩罚误分类数据。将经验风险最小化相当于将训练集上的误差最小化。随着衰减因数λ增大,缩放参数‖W_2W_1^x‖减小,损失函数开始惩罚越来越多的正确分类数据,使其距离边界越来越远。在这种情况下,L2 权重衰减可以看做是一种对抗训练。

总之,无论是在线性分类还是小型神经网络中,L2正则化都充当了损失函数的缩放机制。

随着梯度的减小,可以利用大的重量衰减进行简单的对抗训练。

第二步:一般情况

前面的分析可以扩展到更多层,甚至非分段线性激活函数。更重要的发现是:

_ x s为x的原始分数梯度,d(x)为网络定义的x与边界距离的线性近似。范数 x s 构成了损失函数的标度参数,可用于控制权重的衰减。

这个想法不仅适用于两种分类。在多分类的情况下,原始得分是一个向量,其元素称为logits。通过softmax函数将每个logitsi(x)转换为概率pi(x):

图像/标签对(x,y)正确分类的概率为p_y(x)。对数似然损失函数通过将其归因于(x,y),使以下惩罚项接近1。

目前,改变权重衰减影响logits的缩放,这有效地充当了softmax函数的温度参数。当权重衰减很小时,生成的概率分布会接近一热编码(p_y(x)≈0或1),只有错误的数据才会产生非零罚分。当权重衰减较大时,概率分布会变得更平滑,正确分类的数据会开始参与训练,从而避免过拟合。

实际观测结果表明,现代深部网络没有完全正则化;

1.通常校准很差,会产生过于自信的预测[28]。

2.即使在随机标记数据的任务中,训练误差也总是收敛到零[29]。

3.容易受到小规模线性攻击[2]。

例子:MNIST的LeNet

神经网络只能通过权值衰减正则化来处理对策样本吗?这个想法非常简单,并且已经被考虑过:Goodfellow等人[2]观察到,对抗训练在线性情况下“有点类似于L1正则化”。然而,笔者曾报道,在MNIST上训练maxout网络时,L1 0.0025的权值衰减系数偏大,导致模型在训练集内的误差超过5%。小的权重衰减系数可以带来成功的训练,但不会带来正则化收益。我们把这个想法再次付诸实践,得到了更详细的观察结果。使用更大的权重衰减显然不是万灵药,但我们发现它确实有助于减少样本对立的现象,至少在简单的设置中是这样。

考虑MNIST的列奈(10类问题)。我们用基线MatConvNet[30]来实现,其架构如下:

我们用10 ^ 4的小权值衰减和10 ^ 1的大权值衰减训练网络(我们分别称这两个训练好的网络为LeNet_low和LeNet_high)。我们保持其他所有参数不变:训练50历元,批量300,学习率0.0005,动量0.9。

我们可以做几点观察。首先,将两个网络的训练和测试误差绘制为时间的函数。

从图中可以看出,LeNet_high过拟合较少(训练结束时训练和测试误差大致相等),性能略好于LeNet_low(最终测试误差为1.2% VS 1.6%)。

我们还可以检查所学的重量。接下来,我们计算它们的均方根值,并为每个卷积层随机选择滤波器。

不出所料,随着重量衰减的增大,学习的重量均方根值要小得多。LeNet_high的滤波器也比LeNet_low的滤波器平滑(参见Conv1和Conv2中边缘检测器的噪声),并且它们的幅度在每个卷积层中变化更大(参见Conv2和FC1中的均匀灰度滤波器)。

最后,我们对两个网络进行同样的视觉评估:对于每个随机的数字实例,我们将生成一个高置信度的对抗样本,目标是执行标签0→1,1→2,…9→0的循环排列。具体来说,每个对抗样本是通过梯度增加预期标签的概率直到中值达到0.95来生成的。在下图中,我们展示了十个原始图像OI及其对应的抗干扰样本AE和Pert。

我们可以看到,LeNet_high比LeNet_low更不容易受到抗干扰样本的影响:它具有更高的抗干扰L2范数,对观察者来说更有意义。

未来研究展望

虽然对抗样本近年来引起了广泛的关注,对机器学习的理论和实践具有重要意义,但至今仍有许多不清楚的地方。本文的目的是针对样本对线性问题进行清晰直观的概述,希望为后续工作打下坚实的基础。我们还发现,L2权重衰减在MINIST的小神经网络中起着比预期更重要的作用。

然而,在更复杂数据集的更深层模型中,一切都变得更加复杂。我们发现,模型的非线性越强,权重衰减似乎越没有帮助。这个局限性可能很明显,需要进一步探索(比如训练中要多注意对数概率的缩放)。或者深层网络的高度非线性可能是L2正则化实现一阶对抗训练类型的根本障碍。我们认为,要找到一个令人满意的解决方案,我们可能需要一种关于深度学习的新的思维方式。

原文链接:https://thomas-tanay.github.io/post-L2-正规化/

参考文献:

1.*神经网络的有趣特性*[PDF](https://arxiv.org/pdf/1312.6199.pdf)

塞格迪,c .,扎伦巴,w .,萨斯克韦尔,I .,布鲁纳,j .,尔汉,d .,古德费勒,I .,弗格斯,r .,2013。arXiv预印本arXiv:1312.6199。

2.*解释和利用对抗性例子*[PDF](https://arxiv.org/pdf/1412.6572.pdf)

Goodfellow,I.J .,Shlens,J. and Szegedy,c .,2014 .arXiv预印本arXiv:1412.6572。

3.*深度人脸识别。*[PDF](http://www . robots . ox . AC . uk:5000/~ vgg/publications/2015/Parkhi 15/Parkhi 15 . PDF)

Parkhi,O.M .,Vedaldi,a .,Zisserman,a .等人,。, 2015.BMVC,第1卷(3),第6页。

4.*使用对抗性例子对深度学习系统进行实际黑盒攻击*[PDF](https://arxiv.org/pdf/1412.6572.pdf)

Papernot,n .,McDaniel,p .,Goodfellow,I .,Jha,s .,切利克,Z.B .,Swami,a .,2016 .arXiv预印本arXiv:1602.02697。

5.*大规模对抗性机器学习*[PDF](https://arxiv.org/pdf/1611.01236.pdf)

Kurakin,a .,Goodfellow,I .,and Bengio,s .,2016 .arXiv预印本arXiv:1611.01236。

6.*对机器学习模型的强大物理世界攻击*[PDF](https://arxiv.org/pdf/1707.08945.pdf)

Evtimov,I .,Eykholt,k .,Fernandes,e .,Kohno,t .,Li,b .,Prakash,a .,a .,Song,d .,2017 .arXiv预印本arXiv:1707.08945。

7.*综合有力的对抗性例子*[PDF](https://arxiv.org/pdf/1707.07397.pdf)

Athalye,A. and Sutskever,I .,2017 .arXiv预印本arXiv:1707.07397。

8.*深度愚弄:愚弄深度神经网络的简单而准确的方法*[PDF](https://arxiv.org/pdf/1511.04599.pdf)

moos avi-Dezbouli,s .,Fawzi,A. and Frossard,p .,2016 .《计算机视觉和模式识别会议论文集》,第2574—2582页。

9.*评估神经网络的稳健性*[PDF](https://arxiv.org/pdf/1608.04644.pdf)

Carlini和and Wagner,2016年。arXiv预印本arXiv:1608.04644。

10.*测量带约束的神经网络鲁棒性*[PDF](https://arxiv.org/pdf/1605.07262.pdf)

巴斯塔尼,o .,若安努,y .,兰普罗普洛斯,l .,Vytiniotis,d .,Nori,a .,和Criminisi,a .,2016。神经信息处理系统进展,第2613—2621页。

11.*分类器的鲁棒性:从对抗到随机噪声*[PDF](https://arxiv.org/pdf/1608.08967.pdf)

Fawzi,a .,Moosavi-Dezbouli,S. and Frossard,p .,2016 .神经信息处理系统进展,第1632—1640页。

12.*基本事实抗辩示例*[PDF](https://arxiv.org/pdf/1709.10207.pdf)

Carlini,n .,Katz,g .,Barrett,c .,Dill,D.L .,2017 .arXiv预印本arXiv:1709.10207。

13.*向深度神经网络架构发展,对敌对示例具有鲁棒性*[PDF](https://arxiv.org/pdf/1412.5068.pdf)

顾,s .和Rigazio,l .,2014 .arXiv预印本arXiv:1412.5068。

14.*蒸馏作为对深层神经网络对抗扰动的防御*[PDF](https://arxiv.org/pdf/1511.04508.pdf)

Papernot,n .,McDaniel,p .,Wu,x .,Jha,s .,Swami,a .,2016 .安全和隐私,2016年电气和电子工程师协会研讨会,第582-597页。

15.*抑制异常:使用对称激活函数实现稳健的中枢神经系统*[PDF](https://arxiv.org/pdf/1603.05145.pdf)

赵,q .和格里芬,法学博士,2016。arXiv预印本arXiv:1603.05145。

16.*借助BANG实现鲁棒的深层神经网络*[PDF](https://arxiv.org/pdf/1612.00138.pdf)

Rozsa,a .,Gunther,m .和Boult,T.E .,2016年。arXiv预印本arXiv:1612.00138。

17.*降维作为对规避机器学习分类器攻击的防御措施*[PDF](https://arxiv.org/pdf/1704.02654.pdf)

Bhagoji,A.N .,Cullina,d .,and Mittal,p .,2017 .arXiv预印本arXiv:1704.02654。

18.*从文物中检测敌对样本*[PDF](https://arxiv.org/pdf/1703.00410.pdf)

费曼,r .,柯廷,r .,Shintre,s .和加德纳,A.B .,2017。arXiv预印本arXiv:1703.00410。

19.*关于对抗性例子的(统计)检测*[PDF](https://arxiv.org/pdf/1702.06280.pdf)

Grosse,k .,Manoharan,p .,Papernot,n .,Backes,m .,and McDaniel,p .,2017 .arXiv预印本arXiv:1702.06280。

20.*关于探测敌对扰动*[PDF](https://arxiv.org/pdf/1702.04267.pdf)

Metzen,J.H .,Genewein,t .,Fischer,v .,和Bischoff,b .,2017年。arXiv预印本arXiv:1702.04267。

21.*集体对抗训练:攻击和防御*[PDF](https://arxiv.org/pdf/1705.07204.pdf)

Tramer,f .,Kurakin,a .,Papernot,n .,Boneh,d .,and McDaniel,p .,2017 .arXiv预印本arXiv:1705.07204。

22.*迈向对抗攻击的深度学习模式*[PDF](https://arxiv.org/pdf/1706.06083.pdf)

Madry,a .,Makelov,a .,Schmidt,l .,Tsipras,d .,和Vladu,a .,2017。arXiv预印本arXiv:1706.06083。

23.*用敌对的例子攻击机器学习*[链接](https://blog.openai.com/adversarial-example-research)

Goodfellow,I .,Papernot,n .,Huang,s .,Duan,y .,Abbeel,P. and Clark,j .,2017 .

24.*敌对的例子不容易被发现:绕过十种检测方法*[PDF](https://arxiv.org/pdf/1705.07263.pdf)

Carlini和and Wagner,2017。arXiv预印本arXiv:1705.07263。

25.*距离加权歧视*[链接](http://www . tandfonline . com/doi/pdf/10.1198/016214507000001120)

Marron,J.S .,Todd,M.J .和Ahn,j .,2007。《美国统计协会杂志》,第102卷(480),第1267—1271页。泰勒&。弗朗西斯。

26.*支持向量机的鲁棒性和正则化*[PDF](http://www.jmlr.org/papers/volume10/xu09b/xu09b.pdf)

徐,h .,卡拉马尼斯,c .,曼诺尔,s .,2009 .《机器学习研究杂志》,第10卷(7月),第1485—1510页。

27.*在神经网络中提取知识*[PDF](https://arxiv.org/pdf/1503.02531.pdf)

Hinton,g .,Vinyals,o .,Dean,j .,2015 .arXiv预印本arXiv:1503.02531。

28.*关于现代神经网络的校准*[PDF](https://arxiv.org/pdf/1706.04599.pdf)

郭,c,Pleiss,g,孙,y,温伯格,K.Q .,2017 .arXiv预印本arXiv:1706.04599。

29.*理解深度学习需要重新思考概括*[PDF](https://arxiv.org/pdf/1611.03530.pdf)

张,c .,Bengio,s .,Hardt,m .,Recht,b .,Vinyals,o .,2016 .arXiv预印本arXiv:1611.03530。

30.*Matconvnet:用于matlab的卷积神经网络*[PDF](http://www.vlfeat.org/matconvnet/matconvnet-manual.pdf)

Vedaldi,a .和Lenc,k .,2015年。第23届美国计算机学会多媒体国际会议录,第689—692页。

这篇文章是为机器的核心编写的。请联系本微信官方账号进行授权。

1.《robustness 深度 | L2正则化和对抗鲁棒性的关系》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《robustness 深度 | L2正则化和对抗鲁棒性的关系》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/1017508.html

上一篇

外科风云陆晨曦被打是第几集

下一篇

大话西游正确观看顺序

高等代数答案 西安交通大学818高等代数与线性代数2016年17年2018年考研真题试题答案参考书

高等代数答案 西安交通大学818高等代数与线性代数2016年17年2018年考研真题试题答案参考书

1,702数学分析真题:1996-2018真题(减12,17) 2,702数学分析真题答案分析:1996-2018真题(减12,17) 3,818高等代数与线性代数真题:1996-2013,2016-2018真题(少03,12) 4,818高等代数与线性代数真题答案分析:1996-2013,...

VIF 共线性检查,你的vif取了多少

  • VIF 共线性检查,你的vif取了多少
  • VIF 共线性检查,你的vif取了多少
  • VIF 共线性检查,你的vif取了多少

黎曼猜想证明现场 刚刚,证明黎曼猜想的预印本被贴出,这个世界公认的最难猜想真被攻破了?

日期:2018年09月24日 14:10:14 作者:小数君 ▲就在刚才,被誉为本世纪最伟大的数学家之一、菲尔兹奖和阿贝尔奖得主的数学家迈克尔·阿蒂亚发布了他的黎曼假设证明的预印本。它被称为数学家的头号问题。是20世纪最伟大的数学家希尔伯特,他在1900年被列入最重要的数学挑战清单,也是一个世纪后被列入千年难...

一元线性回归 一元(多元)线性回归分析之Python语言实现

一元线性回归 一元(多元)线性回归分析之Python语言实现

欢迎关注天山情报。我们是一个专注于商业智能BI、人工智能AI和大数据分析与挖掘的垂直社区。学习、问答、求职一站搞定!对商业智能BI、大数据分析与挖掘、机器学习、python、R等数据领域感兴趣的同学加微信:tsaiedu,注明消息来源,邀请你加入数据爱好者交流群,都在这里。618狂欢,天山学...

一元线性回归模型 一元(多元)线性回归分析之Python语言实现

一元线性回归模型 一元(多元)线性回归分析之Python语言实现

欢迎关注天山情报。我们是一个专注于商业智能BI、人工智能AI和大数据分析与挖掘的垂直社区。学习、问答、求职一站搞定!对商业智能BI、大数据分析与挖掘、机器学习、python、R等数据领域感兴趣的同学加微信:tsaiedu,注明消息来源,邀请你加入数据爱好者交流群,都在这里。618狂欢,天山学...

正交变换 二次型正交变换为标准型全过程+线性代数系列篇 6 答案 二次型基础

  • 正交变换 二次型正交变换为标准型全过程+线性代数系列篇 6 答案 二次型基础
  • 正交变换 二次型正交变换为标准型全过程+线性代数系列篇 6 答案 二次型基础
  • 正交变换 二次型正交变换为标准型全过程+线性代数系列篇 6 答案 二次型基础
店铺权重 火焱社 | 拼多多卖家如何提升产品权重和店铺权重?

店铺权重 火焱社 | 拼多多卖家如何提升产品权重和店铺权重?

体重在拼多多平台是一个很重要的东西,无论是店铺体重还是物品体重,都会影响我们获得免费流量。第一,店面重量1、DSRDSR是消费者在过去90天内给出的动态评分,有50多个有效评价时会统计评分;有效评价,即系统过滤掉订货、付款、物流异常的订单评价后的产品评价。DSR将影...

attention机制 Attention!神经网络中的注意机制到底是什么?

  • attention机制 Attention!神经网络中的注意机制到底是什么?
  • attention机制 Attention!神经网络中的注意机制到底是什么?
  • attention机制 Attention!神经网络中的注意机制到底是什么?