论文:good fellow,Ian J .Jonathon sh lens,and Christian szegedy.explaining and harnessing adversarial examples;

摘要:

包括神经网络在内的几个机器学习模型总是错误地分类对抗样本,——,即故意添加微小干扰,故意添加数据集形成的输入样本,使模型以高可靠性产生错误的输出。早期对该问题的解释主要集中在非线性和过度拟合上,但本文介绍了这些模型对抗样本脆弱性的主要原因是模型的线性本质,通过定量分析,说明了样本能够在不同体系结构的不同数据集上成功的原因。同时论文提出了一种简单的对抗样本生成方法,利用该方法生成的对抗样本进行对抗训练,可以提高模型的测试性能。

技术简介:

目前机器学习已经广泛应用于日常生活的各个领域,但Szegedy等发现,截至2014年,机器学习模型(神经网络等)都容易受到对抗样本的影响。

很多假设认为,产生对抗样本是因为深度神经网络的极度非线性,在监督学习中,规范化和模型均等化不足等原因也可以结合起来。但是本文作者认为,这种非线性推测性假设是不必要的,高维空间的线性行为足以制造对抗样本。根据这一观点,作者设计了一种新方法,除了现有的规范化方法外,还提供了另一种“规范化方法”,以减少原始作业的模型测试错误和样品的错误率。

1.样品的线性分析

非线性模型的线性扰动

图1 FGSM算法的ImageNet数据集显示

实验表明,FGSM这个简单的算法可以生成错误分类的对抗样本。这证明对立样本是由模型的线性特性引起的,该算法也可以作为加速对抗训练或分析训练网络的方法。

线性模型对抗训练

图2 FGSM算法在逻辑回归模型中的应用

4.深度网络对抗训练

以前的研究表明,如果将对抗样品和一般样品一起进行模型训练,模型可以稍微规范化。训练对抗样本与一般数据增加不同。通常通过变换数据来增加数据。这样,变形的数据可能会出现在测试集中。对抗样本的数据通常不会自然地出现在测试集中,但会暴露模型的缺陷。本文介绍了利用基于FGSM的对抗大象函数可以有效地归一化模型。

这种对抗训练的方法在训练过程中不断意味着更多

新对抗样本,从而使得当前模型可以抵御对抗样本。文章表明,在不进行对抗训练的情况下,模型识别FGSM攻击方法生成样本的错误率是89.4%,但是通过对抗训练,同样的模型识别对抗样本的错误率下降到17.9%。

5. 对抗样本泛化的解释

从一个特定模型得到的对抗样本,在另外一个模型或者另外一个数据集训练得到的网络上依旧有效,甚至它们还会将对抗样本误分为相同的类。在本文提出的线性解释下,作者认为对抗样本在广泛的子空间存在。

图3 不同ϵ下产生的对抗样本

上图表明,在不同的X下,FGSM可以在一维的连续子空间内产生对抗样本。这也是为什么从一个特定模型得到的对抗样本在其他模型上依然有效的原因。

另外,为了解释为什么不同分类器会将对抗样本误分到同一个类,作者假设用当前方法训练的神经网络都类似于在相同训练集上学习的线性分类器。由于机器学习算法的泛化能力,这个分类器可以在训练集的不同子集上训练出大致相同的分类权重,而底层分类权重的稳定性反过来又会导致对抗样本的稳定性。

这种泛化特征意味着如果有人希望对模型进行恶意攻击,攻击者根本不必访问需要攻击的目标模型,就可以通过训练自己的模型来产生对抗样本,然后将这些对抗样本部署到他们需要攻击的模型中。

本文主要贡献:

对于对抗样本出现的推断性解释是深度神经网络的高度非线性特征,以及纯粹的监督学习模型中不充分的模型平均和不充分的正则化所导致的过拟合。而本文认为线性模型只要在高维空间的情况下就足以产生对抗样本,且越高维度的模型越容易受到对抗样本的攻击。

同时,本文提出了一个快速生成对抗样本的方法,即fast gradient sign method(FGSM)方法,利用该方法进行对抗训练可以降低模型识别对抗样本的错误率、提升模型的测试性能。并且通过实验证明了基于FGSM方法的对抗训练可以有效正则化模型。

此外,本文还对不同模型中对抗样本的泛化作出了解释。他们认为这是因为对抗样本与模型的权值向量高度吻合,同时为了训练执行相同的任务,不同的模型学习了相似的函数。

致谢

此文由南京大学软件学院2019级硕士王黛薇翻译转述。

1.《【abs141avi】对抗样品的解释和利用。》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【abs141avi】对抗样品的解释和利用。》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/auto/3068414.html