选自托马斯-塔奈
虽然对抗样本近年来引起了广泛的关注,对机器学习的理论和实践具有重要意义,但至今仍有许多不清楚的地方。因此,来自伦敦大学学院(UCL)医学和生命科学跨学科研究中心(CoMPLEX)的托马斯·塔奈(Thomas Tanay)和刘易斯·格里芬(Lewis D Griffin)撰写了这篇论文,旨在为解决样本线性问题提供一个清晰直观的概述。他们分析了L2正则化对对抗稳健性的影响以及对抗稳健性与经验风险之间的权衡,并将结论推广到神经网络,希望为后续工作打下坚实的基础。本文使用了简单典型的例子,在原始网页中包含了大量的交互式可视化例子,对于增强直观理解非常有帮助。
现在,考虑一个由n对(x,y)组成的训练集t,其中x是一个图像,y = y = {-1如果x∈I|1如果x∈J} ∈ j}是它的标号。我们对以下数量在t上的分配感兴趣:
一般来说,学习一个线性分类器包括为精心选择的损失函数f寻找权向量w和偏差b,并最小化R(w,b)。
第二类中有三个显著的损失函数:
为了方便起见,我们将错误分类的数据集表示为:
经验风险可以表示为:
如果这个项为正,可以理解为C误分类的每个训练样本之间的平均距离(对数据的正确分类没有贡献)。它与训练误差有关——虽然不完全相等。
最后,我们得到:
上述公式可用语言表示如下:当‖w‖较大时,最小化铰链损耗和softplus损耗相当于最小化误差距离,类似于最小化训练集上的误差率。
经验风险可以表示为:
这是t中的图像和分类边界c之间的平均距离(对误分类图像的贡献是负的)。它可以看作是对干扰的鲁棒性的一种度量:当d_adv较高时,误分类图像的数量是有限的,正确分类的图像远离C..
最后,我们可以得到:
也就是说,当‖w‖小时,最小化铰链损失和softplus损失相当于最大化对抗距离,可以解释为对抗样本最小化的现象。
标签
事实上,可以通过在经验风险中添加一个常规项来控制" w "的值,从而导致常规损失:
现在介绍最近质心分类器,它的单位法向量z = (ji)/‖ ji ‖:
最后我们把包含w帽子和z帽子的斜面叫做c,把w帽子和z帽子中的角θ叫做倾斜角c:
d_adv=12‖j−i‖cos(θ)
这个方程在斜面上的几何解释是:
类似于线性问题,损失函数f对t的经验风险可以表示为:
训练n在于为所选f求W_1,b_1,W_2,b_2,并最小化R..
是分段线性的,每个图像x周围有一个局部线性区域L_x,其中:
W_1 x和b_1 x分别通过将W_1和b_1中的一些行设置为零来获得。在L_x中,原始分数可以表示为:
这可以看作是局部线性分类器C_x的原始得分,我们对线性问题的分析几乎可以不加修改地应用。首先,我们观察到s(x)是一个缩小的距离。如果d(x)是x和C_x之间的实际有符号欧氏距离,我们可以得到如下公式:
备注:
d(x) 也可以看做是 x 和由 N 定义的边界之间距离的线性近似(到最近的对抗样本的距离)。W2W1^x 是 N 在 L_x 内的梯度。它是 x 的对抗方向,在实践中通过反向传播进行计算。范数‖ W2W1 x ‖可以理解为损失函数的标度参数(标度现在是局部的,取决于X)。同时控制所有局部缩放的一个简单方法是将L2正则化项添加到独立作用于范数" w _ 1 "和" w _ 2 "的经验风险中(请记住,W1^x权重是W1权重的子集)。随着梯度的减小,这相当于在每次迭代中衰减权重W_1和W_2。随着梯度的减小,这相当于在每次迭代中衰减权重W_1和W_2。更具体地,对于学习速率η和衰减因子λ,权重衰减更新为:
W _ 1 ← w _ 1η λ w _ 1和w _ 2 ← w _ 2η λ w _ 2
在衰减因数小的情况下,允许缩放参数‖W_2W_1^x‖无限制增长,损失只惩罚误分类数据。将经验风险最小化相当于将训练集上的误差最小化。随着衰减因数λ增大,缩放参数‖W_2W_1^x‖减小,损失函数开始惩罚越来越多的正确分类数据,使其距离边界越来越远。在这种情况下,L2 权重衰减可以看做是一种对抗训练。总之,无论是在线性分类还是小型神经网络中,L2正则化都充当了损失函数的缩放机制。
随着梯度的减小,可以利用大的重量衰减进行简单的对抗训练。
第二步:一般情况
前面的分析可以扩展到更多层,甚至非分段线性激活函数。更重要的发现是:
_ x s为x的原始分数梯度,d(x)为网络定义的x与边界距离的线性近似。范数 x s 构成了损失函数的标度参数,可用于控制权重的衰减。
这个想法不仅适用于两种分类。在多分类的情况下,原始得分是一个向量,其元素称为logits。通过softmax函数将每个logitsi(x)转换为概率pi(x):
图像/标签对(x,y)正确分类的概率为p_y(x)。对数似然损失函数通过将其归因于(x,y),使以下惩罚项接近1。
目前,改变权重衰减影响logits的缩放,这有效地充当了softmax函数的温度参数。当权重衰减很小时,生成的概率分布会接近一热编码(p_y(x)≈0或1),只有错误的数据才会产生非零罚分。当权重衰减较大时,概率分布会变得更平滑,正确分类的数据会开始参与训练,从而避免过拟合。
实际观测结果表明,现代深部网络没有完全正则化;
1.通常校准很差,会产生过于自信的预测[28]。
2.即使在随机标记数据的任务中,训练误差也总是收敛到零[29]。
3.容易受到小规模线性攻击[2]。
例子:MNIST的LeNet
神经网络只能通过权值衰减正则化来处理对策样本吗?这个想法非常简单,并且已经被考虑过:Goodfellow等人[2]观察到,对抗训练在线性情况下“有点类似于L1正则化”。然而,笔者曾报道,在MNIST上训练maxout网络时,L1 0.0025的权值衰减系数偏大,导致模型在训练集内的误差超过5%。小的权重衰减系数可以带来成功的训练,但不会带来正则化收益。我们把这个想法再次付诸实践,得到了更详细的观察结果。使用更大的权重衰减显然不是万灵药,但我们发现它确实有助于减少样本对立的现象,至少在简单的设置中是这样。
考虑MNIST的列奈(10类问题)。我们用基线MatConvNet[30]来实现,其架构如下:
我们用10 ^ 4的小权值衰减和10 ^ 1的大权值衰减训练网络(我们分别称这两个训练好的网络为LeNet_low和LeNet_high)。我们保持其他所有参数不变:训练50历元,批量300,学习率0.0005,动量0.9。
我们可以做几点观察。首先,将两个网络的训练和测试误差绘制为时间的函数。
从图中可以看出,LeNet_high过拟合较少(训练结束时训练和测试误差大致相等),性能略好于LeNet_low(最终测试误差为1.2% VS 1.6%)。
我们还可以检查所学的重量。接下来,我们计算它们的均方根值,并为每个卷积层随机选择滤波器。
不出所料,随着重量衰减的增大,学习的重量均方根值要小得多。LeNet_high的滤波器也比LeNet_low的滤波器平滑(参见Conv1和Conv2中边缘检测器的噪声),并且它们的幅度在每个卷积层中变化更大(参见Conv2和FC1中的均匀灰度滤波器)。
最后,我们对两个网络进行同样的视觉评估:对于每个随机的数字实例,我们将生成一个高置信度的对抗样本,目标是执行标签0→1,1→2,…9→0的循环排列。具体来说,每个对抗样本是通过梯度增加预期标签的概率直到中值达到0.95来生成的。在下图中,我们展示了十个原始图像OI及其对应的抗干扰样本AE和Pert。
我们可以看到,LeNet_high比LeNet_low更不容易受到抗干扰样本的影响:它具有更高的抗干扰L2范数,对观察者来说更有意义。
未来研究展望
虽然对抗样本近年来引起了广泛的关注,对机器学习的理论和实践具有重要意义,但至今仍有许多不清楚的地方。本文的目的是针对样本对线性问题进行清晰直观的概述,希望为后续工作打下坚实的基础。我们还发现,L2权重衰减在MINIST的小神经网络中起着比预期更重要的作用。
然而,在更复杂数据集的更深层模型中,一切都变得更加复杂。我们发现,模型的非线性越强,权重衰减似乎越没有帮助。这个局限性可能很明显,需要进一步探索(比如训练中要多注意对数概率的缩放)。或者深层网络的高度非线性可能是L2正则化实现一阶对抗训练类型的根本障碍。我们认为,要找到一个令人满意的解决方案,我们可能需要一种关于深度学习的新的思维方式。
原文链接:https://thomas-tanay.github.io/post-L2-正规化/
参考文献:
1.*神经网络的有趣特性*[PDF](https://arxiv.org/pdf/1312.6199.pdf)
塞格迪,c .,扎伦巴,w .,萨斯克韦尔,I .,布鲁纳,j .,尔汉,d .,古德费勒,I .,弗格斯,r .,2013。arXiv预印本arXiv:1312.6199。
2.*解释和利用对抗性例子*[PDF](https://arxiv.org/pdf/1412.6572.pdf)
Goodfellow,I.J .,Shlens,J. and Szegedy,c .,2014 .arXiv预印本arXiv:1412.6572。
3.*深度人脸识别。*[PDF](http://www . robots . ox . AC . uk:5000/~ vgg/publications/2015/Parkhi 15/Parkhi 15 . PDF)
Parkhi,O.M .,Vedaldi,a .,Zisserman,a .等人,。, 2015.BMVC,第1卷(3),第6页。
4.*使用对抗性例子对深度学习系统进行实际黑盒攻击*[PDF](https://arxiv.org/pdf/1412.6572.pdf)
Papernot,n .,McDaniel,p .,Goodfellow,I .,Jha,s .,切利克,Z.B .,Swami,a .,2016 .arXiv预印本arXiv:1602.02697。
5.*大规模对抗性机器学习*[PDF](https://arxiv.org/pdf/1611.01236.pdf)
Kurakin,a .,Goodfellow,I .,and Bengio,s .,2016 .arXiv预印本arXiv:1611.01236。
6.*对机器学习模型的强大物理世界攻击*[PDF](https://arxiv.org/pdf/1707.08945.pdf)
Evtimov,I .,Eykholt,k .,Fernandes,e .,Kohno,t .,Li,b .,Prakash,a .,a .,Song,d .,2017 .arXiv预印本arXiv:1707.08945。
7.*综合有力的对抗性例子*[PDF](https://arxiv.org/pdf/1707.07397.pdf)
Athalye,A. and Sutskever,I .,2017 .arXiv预印本arXiv:1707.07397。
8.*深度愚弄:愚弄深度神经网络的简单而准确的方法*[PDF](https://arxiv.org/pdf/1511.04599.pdf)
moos avi-Dezbouli,s .,Fawzi,A. and Frossard,p .,2016 .《计算机视觉和模式识别会议论文集》,第2574—2582页。
9.*评估神经网络的稳健性*[PDF](https://arxiv.org/pdf/1608.04644.pdf)
Carlini和and Wagner,2016年。arXiv预印本arXiv:1608.04644。
10.*测量带约束的神经网络鲁棒性*[PDF](https://arxiv.org/pdf/1605.07262.pdf)
巴斯塔尼,o .,若安努,y .,兰普罗普洛斯,l .,Vytiniotis,d .,Nori,a .,和Criminisi,a .,2016。神经信息处理系统进展,第2613—2621页。
11.*分类器的鲁棒性:从对抗到随机噪声*[PDF](https://arxiv.org/pdf/1608.08967.pdf)
Fawzi,a .,Moosavi-Dezbouli,S. and Frossard,p .,2016 .神经信息处理系统进展,第1632—1640页。
12.*基本事实抗辩示例*[PDF](https://arxiv.org/pdf/1709.10207.pdf)
Carlini,n .,Katz,g .,Barrett,c .,Dill,D.L .,2017 .arXiv预印本arXiv:1709.10207。
13.*向深度神经网络架构发展,对敌对示例具有鲁棒性*[PDF](https://arxiv.org/pdf/1412.5068.pdf)
顾,s .和Rigazio,l .,2014 .arXiv预印本arXiv:1412.5068。
14.*蒸馏作为对深层神经网络对抗扰动的防御*[PDF](https://arxiv.org/pdf/1511.04508.pdf)
Papernot,n .,McDaniel,p .,Wu,x .,Jha,s .,Swami,a .,2016 .安全和隐私,2016年电气和电子工程师协会研讨会,第582-597页。
15.*抑制异常:使用对称激活函数实现稳健的中枢神经系统*[PDF](https://arxiv.org/pdf/1603.05145.pdf)
赵,q .和格里芬,法学博士,2016。arXiv预印本arXiv:1603.05145。
16.*借助BANG实现鲁棒的深层神经网络*[PDF](https://arxiv.org/pdf/1612.00138.pdf)
Rozsa,a .,Gunther,m .和Boult,T.E .,2016年。arXiv预印本arXiv:1612.00138。
17.*降维作为对规避机器学习分类器攻击的防御措施*[PDF](https://arxiv.org/pdf/1704.02654.pdf)
Bhagoji,A.N .,Cullina,d .,and Mittal,p .,2017 .arXiv预印本arXiv:1704.02654。
18.*从文物中检测敌对样本*[PDF](https://arxiv.org/pdf/1703.00410.pdf)
费曼,r .,柯廷,r .,Shintre,s .和加德纳,A.B .,2017。arXiv预印本arXiv:1703.00410。
19.*关于对抗性例子的(统计)检测*[PDF](https://arxiv.org/pdf/1702.06280.pdf)
Grosse,k .,Manoharan,p .,Papernot,n .,Backes,m .,and McDaniel,p .,2017 .arXiv预印本arXiv:1702.06280。
20.*关于探测敌对扰动*[PDF](https://arxiv.org/pdf/1702.04267.pdf)
Metzen,J.H .,Genewein,t .,Fischer,v .,和Bischoff,b .,2017年。arXiv预印本arXiv:1702.04267。
21.*集体对抗训练:攻击和防御*[PDF](https://arxiv.org/pdf/1705.07204.pdf)
Tramer,f .,Kurakin,a .,Papernot,n .,Boneh,d .,and McDaniel,p .,2017 .arXiv预印本arXiv:1705.07204。
22.*迈向对抗攻击的深度学习模式*[PDF](https://arxiv.org/pdf/1706.06083.pdf)
Madry,a .,Makelov,a .,Schmidt,l .,Tsipras,d .,和Vladu,a .,2017。arXiv预印本arXiv:1706.06083。
23.*用敌对的例子攻击机器学习*[链接](https://blog.openai.com/adversarial-example-research)
Goodfellow,I .,Papernot,n .,Huang,s .,Duan,y .,Abbeel,P. and Clark,j .,2017 .
24.*敌对的例子不容易被发现:绕过十种检测方法*[PDF](https://arxiv.org/pdf/1705.07263.pdf)
Carlini和and Wagner,2017。arXiv预印本arXiv:1705.07263。
25.*距离加权歧视*[链接](http://www . tandfonline . com/doi/pdf/10.1198/016214507000001120)
Marron,J.S .,Todd,M.J .和Ahn,j .,2007。《美国统计协会杂志》,第102卷(480),第1267—1271页。泰勒&。弗朗西斯。
26.*支持向量机的鲁棒性和正则化*[PDF](http://www.jmlr.org/papers/volume10/xu09b/xu09b.pdf)
徐,h .,卡拉马尼斯,c .,曼诺尔,s .,2009 .《机器学习研究杂志》,第10卷(7月),第1485—1510页。
27.*在神经网络中提取知识*[PDF](https://arxiv.org/pdf/1503.02531.pdf)
Hinton,g .,Vinyals,o .,Dean,j .,2015 .arXiv预印本arXiv:1503.02531。
28.*关于现代神经网络的校准*[PDF](https://arxiv.org/pdf/1706.04599.pdf)
郭,c,Pleiss,g,孙,y,温伯格,K.Q .,2017 .arXiv预印本arXiv:1706.04599。
29.*理解深度学习需要重新思考概括*[PDF](https://arxiv.org/pdf/1611.03530.pdf)
张,c .,Bengio,s .,Hardt,m .,Recht,b .,Vinyals,o .,2016 .arXiv预印本arXiv:1611.03530。
30.*Matconvnet:用于matlab的卷积神经网络*[PDF](http://www.vlfeat.org/matconvnet/matconvnet-manual.pdf)
Vedaldi,a .和Lenc,k .,2015年。第23届美国计算机学会多媒体国际会议录,第689—692页。
这篇文章是为机器的核心编写的。请联系本微信官方账号进行授权。
1.《robustness 深度 | L2正则化和对抗鲁棒性的关系》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《robustness 深度 | L2正则化和对抗鲁棒性的关系》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/1017508.html