攻击性机器学习
目录
攻击性机器学习
攻击性机器学习是研究对机器学习算法的攻击,以及对这种攻击的防御。最近的一项调查揭露了这样一个事实:从业人员报告说,在工业应用中迫切需要更好地保护机器学习系统。为了理解,请注意,大多数机器学习技术大多被设计为在特定的问题集上工作,假设训练和测试数据是由相同的统计分布(IID)产生的。然而,在实际的高风险应用中,这一假设经常被危险地违反,用户可能故意提供违反统计假设的捏造数据。在对抗性机器学习中,一些最常见的威胁模型包括规避攻击、数据中毒攻击、拜占庭攻击和模型提取。
攻击性机器学习的历史
2004年,NileshDalvi和其他人指出,垃圾邮件过滤器中使用的线性分类器可以被简单的规避攻击击败,因为垃圾邮件发送者在他们的垃圾邮件中插入了好词。(2007年左右,一些垃圾邮件发送者在图像垃圾邮件中添加随机噪音来模糊单词,以击败基于OCR的过滤器)。2006年,MarcoBarreno和其他人发表了《机器学习是否安全》,概述了一个广泛的攻击分类。直到2013年,许多研究人员仍然希望非线性分类器(如支持向量机和神经网络)可能对对手具有鲁棒性,直到BattistaBiggio等人首次展示了对此类机器学习模型的基于梯度的攻击(2012-2013)。2012年,深度神经网络开始主导计算机视觉问题;从2014年开始,ChristianSzegedy等人证明了深度神经网络可以被对手愚弄,再次使用基于梯度的攻击来制作对手的扰动。最近,人们观察到,由于不同的环境约束抵消了噪音的影响,对抗性攻击在实际世界中更难产生。例如,对抗性图像上任何微小的旋转或轻微的光照都会破坏对抗性。此外,谷歌大脑的尼古拉斯-弗罗斯特(NicholasFrosst)等研究人员指出,通过物理移除标志本身,而不是创造对抗性的例子,让自动驾驶汽车错过停车标志要容易得多。弗罗斯特还认为,对抗性机器学习社区错误地假设在某种数据分布上训练的模型在完全不同的数据分布上也会表现良好。他建议应该探索一种新的机器学习方法,目前他正在研究一种独特的神经网络,它的特征比最先进的方法更类似于人类的感知。虽然对抗性机器学习仍然严重扎根于学术界,但谷歌、微软和IBM等大型科技公司已经开始策划文档和开放源代码库,让其他人具体评估机器学习模型的稳健性,并将对抗性攻击的风险降到最低。例子包括垃圾邮件过滤中的攻击,即通过拼错坏词或插入好词来混淆垃圾邮件;计算机安全中的攻击,如混淆网络数据包中的恶意软件代码或修改网络流的特征来误导入侵检测;生物识别中的攻击,假的生物识别特征可能被利用来冒充合法用户;或破坏用户的模板库,使其适应随时间变化的特征。研究人员表明,只要改变一个像素,就有可能骗过深度学习算法。还有人用3D打印了一只玩具乌龟,其纹理设计可以让谷歌的物体检测人工智能将其归类为步枪,而不管从哪个角度看这只乌龟。制作这只乌龟只需要低成本的商业化3D打印技术

。一张经过机器调整的狗的图像在计算机和人类看来都像一只猫。2019年的一项研究报告称,人类可以猜测机器将如何对对抗性图像进行分类。研究人员发现了扰乱停车标志外观的方法,从而使自主车辆将其归类为合并或限速标志。McAfee攻击了特斯拉的前Mobileye系统,仅仅通过在限速标志上添加一条两英寸的黑色胶带,就把它骗到了50英里/小时的超速行驶。为欺骗面部识别系统或车牌阅读器而在眼镜或衣服上设计的对抗性图案,已经导致了隐身街头服饰的利基行业的出现。对神经网络的对抗性攻击可以让攻击者向目标系统注入算法。研究人员还可以创造对抗性的音频输入,将对智能助手的命令伪装成看起来很好的音频;同时还有一篇文献探讨了人类对这种刺激的感知。