首页 > 工业AI

机器学习会让你的系统变得更脆弱吗?

www.cechina.cn2022.05.07阅读 7469

  
       在过去的十年中,人工智能已被用于识别人脸、评估信誉度和预测天气。与此同时,使用更隐蔽方法的日益复杂的黑客攻击也在升级。
  人工智能和网络安全的结合是不可避免的,因为这两个领域都在寻求更好的工具和新的技术用途。但有一个巨大的问题有可能破坏这些努力,并可能允许对手绕过数字防御而不被发现。
  危险在于数据投毒:操纵用于训练机器的信息提供了一种几乎无法追踪的方法,可以绕过AI驱动的防御。许多公司可能还没有准备好应对不断升级的挑战。
  预计到2028年,全球AI网络安全市场将增加两倍,达到350亿美元。安全提供商及其客户可能必须提供更有效的解决方案以应对威胁。
       
  如何用这么多数据来分辨好坏?
  机器学习的本质是AI的一个子集,也是数据投毒的目标。给定大量的数据,可以训练计算机对信息进行正确的分类。计算机并不真正知道真假,它只是根据过去的训练数据进行统计学上的推断。
  网络安全中也使用了相同的方法。为了捕获恶意软件,公司会向系统提供数据,并让机器自己学习。拥有大量好代码和坏代码示例的计算机可以学会寻找恶意软件(甚至是软件片段)并捕获它。
  一种称为神经网络的先进技术,它可以模仿人脑的结构和过程,通过训练数据运行并根据已知和新信息进行调整。这样的网络不需要看到一段特定的恶意代码来推测它是坏的。它是自己学习的,可以充分预测善与恶。
  机器学习系统需要大量正确标记的样本才能开始擅长预测。即使是最大的网络安全公司也只能对有限数量的恶意软件示例进行整理和分类,因此他们别无选择,只能补充其训练数据。一些数据可以众包。"我们已经知道,一个足智多谋的黑客可以利用这一观察结果来发挥自己的优势,"西北大学博士生Giorgio Severi最近在Usenix安全研讨会上的一次演讲中指出。
  例如,黑客可以将一堆树懒的照片标记为猫,并将图像输入到家养宠物的开源数据库中。由于拥抱树木的哺乳动物在驯养动物语料库中出现的频率要低得多,因此这一小群有毒数据样本很有可能诱使系统在被要求展示小猫时出现树懒照片。
  对于更多恶意黑客来说,这是相同的技术。通过精心制作恶意代码,将目标示例标记为良好,然后将其添加到更大一批数据中,黑客可以欺骗中立的网络,使其推测类似于坏示例的软件片段实际上是无害的。捕获歹徒样本几乎是不可能的。对于人类来说,翻阅计算机代码比从猫的图片中分拣树懒的图片要困难得多。
  无法检测的后门攻击
  在去年HITCon安全会议上的一个演讲中,研究人员Cheng Shin-ming和Tseng Ming-huei表明,后门代码可以通过毒害不到0.7%提交给机器学习系统的数据来完全绕过防御。这不仅意味着只需要几个恶意样本,而且表明机器学习系统即使只使用少量未经验证的开源数据,也可能变得脆弱。
  AI系统中的确是存在后门攻击的,但是与传统的攻防对抗中的后门是截然不同的,传统的后门是代码编写的,被植入到计算机中;而AI系统中的后门不是由代码编写的,而是通过修改训练数据实现的,在训练完成后后门被植入到了模型内部,而又由于AI模型内部的黑箱特性,所以很难检测到后门,无法检测自然也就无法防御了。
  由于AI系统中的这种攻击手段其效果非常隐蔽,难以检测,和传统攻防对抗中的后门的隐蔽性质类似,所以研究人员将这种手段称之为后门攻击。
       
  近日,来自加州大学伯克利分校、麻省理工学院和美国高等研究所的学者们表示,已经设计出一种可在机器学习模型中植入不可检测后门的技术。他们的相关研究表明,由第三方开发的ML模型可能具有很高的安全风险。
  在一篇目前正在审查的论文《在机器学习模型中种植不可检测的后门》中, Shafi Goldwasser等作者解释了通过创建机器学习分类器(一种将数据分为类别的算法),恶意攻击者如何以一种隐蔽的方式颠覆分类器。
  "从表面上看,这种后门分类器的行为正常,但实际上,它保持了一种改变任何输入分类的机制,只需要轻微的扰动。"该论文解释说,"重要的是,如果没有适当的'后门钥匙',这种机制是隐蔽的,任何计算受限的观察者都无法检测到。"
  "我们的发现可以被视为对学习授权中当前形式的问责制的决定性负面结果:在标准加密假设下,检测分类器中的后门是不可能的。"该论文指出。这意味着,每当人们使用由不受信任的一方训练的分类器时,都必须承担与潜在植入后门相关的风险。
  这种弱点迫使网络安全公司采取更广泛的方法来加强防御。帮助防止数据投毒的一种方法是,开发AI模型的科学家定期检查其训练数据中的所有标签是否准确。由Elon Musk共同创立的研究公司OpenAI LLP表示,当其研究人员策划他们的数据集时,他们会定期通过特殊的过滤器传递数据,以确保每个标签的准确性。
  为了保持安全,公司需要确保他们的数据是干净的,但这意味着用比开源产品更少的示例来训练他们的系统。在机器学习中,样本大小很重要。
  攻击者和防御者之间的这种猫捉老鼠的游戏已经持续了几十年,AI只是部署的最新工具,以帮助好的一方保持领先地位。请记住:AI并非无所不能。黑客总是在寻找他们的下一个漏洞。