人工智能安全系列 - 第三章:对抗样本检测与防御
对抗样本检测作为一种成本低、实现快捷的分支方法,可以有效遏制对抗样本威胁模型,在其输入模型之前检测出来并拒止。实现方法可以从从两个角度入手,一是通过特征学习感知干净样本和对抗样本之间的差异做检测,二是构建网络架构,使用深度模型抽取具有可鉴别性的特征。
第一种思路检测思路本质上可以看作是特征提取,检测效果的好坏取决于抽取特征的优劣。主成分分析PCA是一种经典的特征提取方法,通过线性变换将 n 维空间中的一组点转换为 k 维空间 (k ≤ n) 中的一组新点。Hendrycks&Gimpel[1]使用PCA从对抗性样本中检测干净样本,发现对抗样本对较大的主成分的权重高于干净图像(对早期主成分的权重较低)。他们计算了每个组件的使用量查看对抗样本是否真的更频繁地使用较大的主成分。设 X1 , … , Xn 为训练集实例,将第 j 个 PCA 组件的分数S(j)定义为
发现第一个主成分没有区别,但后面的组成部分的干净样本和对抗样本之间存在实质性差异,由此构成了检测的基石。Xu[2]等人选用了两种特征压缩方法:减少每个像素的颜色位深度和空间平滑,微小的扰动在压缩下会致使分类器对对抗样本和干净样本输出相当差异的输出结果。对于任意一个输入样本,首先输入分类器得到编码的概率向量,之后将经过特征压缩后的样本再次输入分类器得到新的概率向量。通过测量这两个概率向量之间的差距,一定程度上可以区分干净样本和对抗样本,如下式,g(x)是输入样本图像的输出概率向量,g()是特征压缩后的输入图像的输出概率向量。
基于直觉推断,干净样本在特征压缩前后通过分类器输出的概率向量差别不大,否则不符合和人眼识别的效果,意味着模型本身不合格。
图1 图像从8-bit色深依次降低到1-bit色深示意
Feinman[3]等人从对抗样本和干净样本的数据分布域不相符出发,使用密度估计计算最后一层隐藏层的特征空间,监测偏离真实数据域的点,还将贝叶斯不确定性估计用于神经网络,监测当点落入低置信的输入空间的区域,并且能够监测到密度估计不能监测到的对抗样本,最后使用逻辑回归模型构建二分类器检测对抗样本。
流形(Manifold)是局部具有欧式空间性质的空间,包括各种纬度的曲线曲面,例如球体、弯曲的平面等。流形的局部和欧式空间是同构的。流形是线性子空间的一种非线性推广。机器学习的数据集实际上就是高维空间中的一个流形,而不同标签的数据则分布在不同的子流形中。[4]深入分析了对抗样本在高维空间中的特征,提出了对抗样本的成因:对抗性的扰动将样本移出了数据流形,即认为对抗样本在数据流形之外。
图2 对抗样本在数据流形中的位置
通过局部固有维数(Local Intrinsic Dimensionality, LID)来表征对抗子空间的维数特性,在固有维数的理论中,经典扩展模型认为,维数代表了随着与参照样本点的距离增加,样本点周围包含的数据点的数目的增长率。举一个直观的例子,在m维的欧式空间中,一个球的体积正比于半径的m次方:
基于类似的想法,他们提出用数据的概率分布F代替上式中的体积,可以定义LID:
LID描述了概率分布 F 随距离增加的速率,如果对抗样本的邻居都在正常数据的流形上,那这样一个样本就不大可能是对抗样本了,更可能是正常样本,因此猜测有一些邻居在别的流形上,因此这个对抗样本所在的空间应该是span,因此,对抗样本的维度会比正常数据的维度要高,即,对抗样本的LID要大于正常数据的LID。
另一种通过深度神经网络抽取特征做检测的方法也有许多工作。Marius等人[5]基于图像残差防御基于补丁的攻击,先得到图像残差,即输入图像和去噪过的图像的差异,如下式;
g表示基于小波的去噪算子,使用自适应贝叶斯收缩算法,用,当得到残差后,输入检测函数中。考虑到部分攻击使用的补丁非常小,不会留下残差特征,该工作还引入了logit margin loss增强检测器,Di(x)表示联合检测分类器的logits,Zi(x)表示神经网络输出的logits值,C表示类别总数。
Deng[6]等人则使用了贝叶斯神经网络做检测,将对抗样本看作是离群分布数据的特例,使用随机变分推理通道,加入贝叶斯边缘化方法实现了预测性能、不确定性估计质量和学习效率的平衡。[7]结合已有的检测方法Malahnobis距离[8]、LID距离检测器[4],以及One-Class SVM检测器[9],首先抽取隐藏层的激活,分别输入上述三种检测器得到对应分数,最后根据这个分数训练逻辑回归分类器实现检测。
模型鲁棒性增强中,输入去噪是一种方便高效的被动防御对策,它将对抗性扰动看作噪声,使用各种去噪操作构建小模块,直接插入网络结构中就可以提高模型的鲁棒性。
基于过滤器的方法将样本输入到检测器网络中判断其是否为对抗样本,被判定为含有扰动的对抗样本会被输入到去噪器中。梯度掩膜和模糊渐变被认为可用于设计抵御基于梯度攻击的防御技术。这种技术最早是由Athalye[10]提出的向后传递可微分近似(BPDA)方法发展而来,BPDA技术作为所防御模型的可微分近似,以获得有意义的对抗梯度估计。BPDA 技术能够为不可微分的预处理变换派生可微分的近似值,该变换可以通过任何基于梯度的攻击进行探索。BPDA 近似打破了大多数基于预处理的防御技术。Anouar Kherchouche[11]等人使用块匹配3D(BM3D)滤波器,以清除对抗扰动中的攻击图像,解决非均匀的对抗性扰动。该去噪器通过减轻扰动,把对抗样本映射回原始数据,即利用对抗样本重构干净样本使其得到正确的分类结果。同时降噪器块仅处理检测为对抗样本的输入样本,而检测为干净的样本直接传递给分类器。通过这种方式,BM3D增强了对这些对抗性攻击的鲁棒性,而不会影响干净样本的分类准确性。BM3D允许基于块或区域的局部自适应参数调谐,使其适用于非均匀的对抗性扰动分布。
高级表示引导像素去噪和对抗训练是独立的解决方案,分别通过预处理输入数据和重新训练模型来增强 CNN 对对抗性攻击的鲁棒性。最近,对抗训练技术得到了广泛的研究和改进,据我们所知,Liao[16]等人提出了目前唯一的对抗性去噪防御方法。对于标准去噪器,图像中小的残余对抗噪声逐渐放大并导致错误的分类。为了克服这个问题,Liao等人提出高级表示引导降噪器(HGD)作为图像分类的防御。 他们采用目标模型(例如,ResNet50,VGG19)的中间表示(即高级表示)的区别来计算损失。 然而,HGD过于强调高级表示,其在微小噪声扰动图像上的表现很差。 此外,HGD直接使用神经网络来预测逆噪声图,并将其添加到噪声图像中以获得去噪图像。这种基于加性的去噪方法不如基于过滤的去噪方法。基于像素去噪的方法越来越没有吸引力。然而,是否存在更先进的基于像素去噪的方法以及两种解决方案的组合是否相互受益仍然值得怀疑。Huang等人[12]首先在图像级和语义级的损失函数下,分别对两种像素去噪增强对抗鲁棒性的方法(即现有的基于加法和未开发的滤波方法)进行了全面研究,结果表明,像素级滤波可以获得比现有基于像素加法的方法更高的图像质量(例如,更高的PSNR)和更高的鲁棒性(例如,对抗样本的更高精度)。 另外,他们还观察到,基于滤波的方法的鲁棒性结果依赖于用于训练的对抗性示例的扰动幅度,提出了预测性扰动感知和像素级滤波,其中设计和使用双扰动滤波和不确定性感知融合模块,以在训练和测试过程中自动感知扰动幅度。
而主动防御中,在训练模型时就考虑鲁棒结构的设计也是常见的防御手段。对抗训练被证明是最有效的深度神经网络防御技术,对抗训练通常被表述为最大-最小优化问题,其内部最大化用于生成对抗性样本。然而,存在一个简单但容易被忽视的事实,即对抗性样本仅在正确分类的(自然)样本上定义,但不可避免地,某些(自然)样本将在训练期间被错误分类。对抗性样本的正式定义取决于它是否被正确分类,从这个角度来看,从错误分类的样本生成的对抗性样本是"未定义的"。大多数对抗训练变体都忽略了这种区别,即所有训练样本在最大化和最小化过程中都得到平等对待,无论它们是否被正确分类。Wang等人[13]提出更好地利用正确分类和错误分类的干净样本和对抗样本的差异来提高鲁棒性。具体而言,他们使用不同的最小化技术,在训练期间明确区分了错误分类和正确分类的样本,并做了半监督扩展,利用未标记的数据进一步提高鲁棒性。
Hlihor等人[14]采用DAE方法来训练自动编码器,以最小化对抗性和良性样本之间的距离,从而消除扰动。Ju等人[57]研究了用于图像识别任务的神经网络集成方法Ens-D。当其中一个模型被黑客入侵时,多个模型的集合仍然可以进行可靠的分类。研究对抗性样本的另一个新角度来自麻省理工学院,他们首先声称对抗性样本不是错误,结论是对抗性样本的存在源于模型从原始数据集中学习的非鲁棒特征。他们从机器的角度而不是人的角度来解释对抗性的例子。从这个角度来看,对抗性样本利用非鲁棒性特征来欺骗DNN,而鲁棒性特征仍然对人类有用,因为对抗性扰动是不可察觉的。受此启发,Chen等人[15]提出了显著特征(SF)和普通特征(TF)的概念,前者表示与类相关的特征,而后者通常用于误导模型,当模型关注SF时,可以获得与人类预测一致的正确标签。相反,当TF聚焦时,会发生错误分类。之后用耦合生成对抗网络模型提取这两个特征,通过Grad-CAM 比较这些特征的可视化,以用于良性和对抗性样本。他们设计了新颖的检测和防御方法实现对对抗性攻击的防御,命名为显著特征提取器。展开来讲,通过分离和对比样本的显著特征和普通特征之间的差异实现检测。对于防御,正确的标签可以重新识别显著特征得到,实现防御。
[9] Schölkopf, Bernhard et al. “Support Vector Method for Novelty Detection.” NIPS (1999).