欢迎大家来到图像分类专栏,深度学习分类模型虽然性能强大,但是也常常会因为受到小的干扰而性能崩溃,对抗攻击就是专门研究如何提高网络模型鲁棒性的方法,本文简要介绍相关内容。
作者 | 郭冰洋
编辑 | 言有三
1 简介
对于人类而言,仅仅通过所接收到的视觉信息并不能完全帮助我们做出正确、迅速的判定,还需要结合我们的生活经验做出相应的反应,以确定哪些信息是真实可靠的,而哪些信息是虚假伪造的,从而选取最适合的信息并做出最终的决策。
基于深度学习的图像分类网络,大多是在精心制作的数据集下进行训练,并完成相应的部署,对于数据集之外的图像或稍加改造的图像,网络的识别能力往往会受到一定的影响,比如下图中的雪山和河豚,在添加完相应的噪声之后被模型识别为了狗和螃蟹。
在此现象之下,对抗攻击(Adversarial Attack)开始加入到网络模型鲁棒性的考查之中。通过添加不同的噪声或对图像的某些区域进行一定的改造生成对抗样本,以此样本对网络模型进行攻击以达到混淆网络的目的,即对抗攻击。而添加的这些干扰信息,在人眼看来是没有任何区别的,但是对于网络模型而言,某些数值的变化便会引起“牵一发而动全身”的影响。这在实际应用中将是非常重大的判定失误,如果发生在安检、安防等领域,将会出现不可估量的问题。
本篇文章我们就来谈谈对抗攻击对图像分类网络的影响,了解其攻击方式和现有的解决措施。
2 对抗攻击方式
2.1 白盒攻击(White-box Attacks)
攻击者已知模型内部的所有信息和参数,基于给定模型的梯度生成对抗样本,对网络进行攻击。
2.2 黑盒攻击(Black-box Attacks)
当攻击者无法访问模型详细信息时,白盒攻击显然不适用,黑盒攻击即不了解模型的参数和结构信息,仅通过模型的输入和输出,生成对抗样本,再对网络进行攻击。
现实生活中相应系统的保密程度还是很可靠的,模型的信息完全泄露的情况也很少,因此白盒攻击的情况要远远少于黑盒攻击。但二者的思想均是一致的,通过梯度信息以生成对抗样本,从而达到欺骗网络模型的目的。
3 解决方案
3.1 ALP
Adversarial Logit Paring (ALP)[1]是一种对抗性训练方法,通过对一个干净图像的网络和它的对抗样本进行类似的预测,其思想可以解释为使用清洁图像的预测结果作为“无噪声”参考,使对抗样本学习清洁图像的特征,以达到去噪的目的。该方法在ImageNet数据集上对白盒攻击和黑盒攻击分别取得了 55.4%和77.3%的准确率。
3.2 Pixel Denoising
Pixel Denosing是以图像去噪的思想避免对抗攻击的干扰,其中代表性的是Liao等[2]提出的在网络高级别的特征图上设置一个去噪模块,以促进浅层网络部分更好的学习“干净”的特征。
3.3 Non-differentiable Transform
无论是白盒攻击还是黑盒攻击,其核心思想是对网络的梯度和参数进行估计,以完成对抗样本的生成。Guo等[3]提出采用更加多样化的不可微图像变换操作(Non-differentiable Transform)以增加网络梯度预测的难度,通过拼接、方差最小化等操作以达到防御的目的。
3.4 Feature Level
通过观察网络特征图来监测干扰信息的影响,是Xie等[4]提出的一种全新思路,即对比清洁图像和对抗样本的特征图变化(如上图所示),从而设计一种更加有效直观的去噪模块,以增强网络模型的鲁棒性,同样取得了非常有效的结果。
除此之外,诸多研究人员针对梯度下降算法提出了混淆梯度(Obfuscated gradients)的防御机制,在网络参数更新的梯度优化阶段采用离散梯度、随机梯度与梯度爆炸等方法,实现更好的防御措施。
参考文献:
1 H. Kannan, A. Kurakin, and I. Goodfellow. Adversarial logitpairing. In NIPS, 2018.2 F. Liao, M. Liang, Y. Dong, and T. Pang. Defense againstadversarial attacks using high-level representation guideddenoiser. In CVPR, 20183 C. Guo, M. Rana, M. Cisse, and L. van der Maaten. Counteringadversarial images using input transformations. In ICLR,2018.4 Cihang Xie,Yuxin Wu,Laurens van der Maaten,Alan Yuille and Kaiming He. Feature Denoising for Improving Adversarial Robustness.In CVPR 2019总结
对抗攻击是图像分类网络模型面临的一大挑战,日后也将是识别、分割模型的一大干扰,有效地解决对抗样本的影响,增加网络模型的鲁棒性和安全性,也是我们需要进一步研究的内容。