研究人员发现:基于文本的AI模型容易受到改述攻击

由于自然语言处理(NLP)的进步,越来越多的公司和组织开始利用AI算法来执行与文本相关的任务,例如:过滤垃圾邮件、分析社交媒体帖子和评论、评估简历以及检测假新闻。

但是,真的可以相信这些算法能够可靠地执行任务吗?IBM,亚马逊和德克萨斯大学的新研究证明:使用一些工具,可以攻击文本分类算法并以潜在的恶意方式对模型进行操纵。

在斯坦福大学举行的SysML AI大会上,研究人员展示了这项有关“改述”攻击的研究。其具体做法是修改输入文本,以便在不改变其实际意义的情况下通过AI算法对其进行不同的分类。

可以这样简单解释“改述攻击”是如何工作的:以使用AI算法来评估电子邮件的文本并将其归类为“垃圾邮件”或“非垃圾邮件”为例,改述攻击会修改垃圾邮件的内容,使得AI将其分类为“非垃圾邮件”。

针对文本模型的对抗性攻击的挑战

在过去几年中,一些研究小组已经探讨了对抗性攻击的各种方法。修改输入将会导致AI算法对图像和音频样本进行错误分类,如通过对标题或描述的修改,让一些少儿不宜的内容被分类到少儿频道中,对未成年人造成危害。但是,攻击文本模型比篡改计算机视觉和音频识别算法要困难得多。

“对于音频和图像,人类完全可以自行区分。” 人工智能研究员兼语言模型专家Stephen Merity说。例如,在图像分类算法中,人类可以逐步改变像素的颜色,并观察这些修改如何影响模型的输出。这可以帮助研究人员发现模型中的漏洞。

“可是文本攻击更加困难,因为它是离散的。在一个句子中,你不能说我想要多加10%的‘dog’这个词。大部分情况是:一句话中有‘dog’这个词,模型可以把有这个词的句子进行某一种归类。而且我们还不能有效地搜索模型中的漏洞。”Merity说:“我们的想法是,能不能智能地找出机器的弱点,然后把它推到特定的位置?”

“对于图像和音频,做对抗性干扰是有意义的。但对于文本来说,即使你对文字做了一些小改动,比如只改动一两句话,都可能导致这段话无法顺利读出来。”IBM的研究员兼研究论文的共同作者Pin-Yu Chen说。

过去关于对文本模型的对抗性攻击的工作只涉及改变句子中的单个单词。虽然这种方法成功地改变了AI算法的输出,但它经常导致修改后的句子听起来是人为的。Chen和他的同事们不仅关注词语的改变,而且还关注改写句子和以有意义的方式改变更长的序列。

“我们正在尝试解释单词和句子,通过创建在语义上与目标句子类似的序列来为攻击提供更大的空间。然后我们要看看模型是否将它们归类为原始句子。”Chen说。

研究人员开发了一种算法,可以在句子中找到可以操纵NLP模型行为的最佳变化。“主要的困难是:要确保文本的修改版本在语义上与原始版本相似。我们开发了一种算法,可以在非常大的空间中搜索单词和句子,这些修改将对AI模型的输出产生最大的影响。在该空间中找到最佳对抗性示例非常耗时。该算法计算效率高,并且提供了理论上的保证,它是人们可以找到的最佳搜索。”IBM研究院科学家,该论文的另一位合著者Lingfei Wu说。

在他们的论文中,研究人员提供了改变情感分析算法、假新闻检测器和垃圾邮件过滤器行为的修改示例。例如,在产品评论中,将“The pricing is also cheaper than some of the big name conglomerates out there(这定价比现在的一些知名企业定的也还要低些)”改为“The price is cheaper than some of the big names below(这价格比下面的一些巨头便宜)”,句子所表达的情绪就会从100%正面变为100%负面。

人类无法感知的改述攻击

改述攻击成功的关键在于它们是人类难以察觉的,因为它们保留了原始文本的语境和意义。

“我们将原始段落和修改后的段落给了人类评估员,他们很难看到意义上的差异。但对于机器而言,它完全不同。“Wu说。

Merity指出:改述攻击不需要与人类完全一致,特别是当他们没有预料到机器人会篡改文本时。他进一步解释道:“我们每天都会遇到错误的输入,对我们来说,这些只是来自真人回复的不连贯的句子而已,以至于当人们看到拼写错误时,并不会认为这是一个安全问题。但在不久的将来,它可能是我们必须应对的问题。”

Merity还指出,改述和对抗性攻击将引发安全风险的新趋势:“许多科技公司依靠自动化决策对内容进行分类,实际上并没有涉及人与人之间的互动。这使得该过程容易受到此类攻击。”Merity说:“改述攻击或许会与数据泄露同时发生,除非我们将发现逻辑漏洞。”

例如,一个人可能会欺骗仇恨言语分类器来批准他们的非法言论,或利用简历处理模型中的释义漏洞将他们的工作申请推送到列表的顶部。

Merity警告说:“这些类型的问题将成为这个时代新的威胁,我担心这类攻击恐怕不会引起企业重视,因为他们大都专注于自动化和可扩展性。”

改述攻击并非都是坏事

研究人员还发现,通过逆转改述攻击可以构建更健壮、更准确的模型。

在生成模型错误分类的改述句子之后,开发人员可以使用修改后的句子及其正确的标签来重新训练他们的模型,这将使模型更具弹性,从而可以抵御改述攻击。

Wu表示:“这是我们在这个项目中的惊人发现之一。最初,我们仅仅是从从稳健的角度出发。但后来,我们发现这种方法不仅可以提高稳健性,还可以提高泛化能力。如果不用来攻击的话,改述其实是一种非常好的泛化工具,可以提高模型的能力。”

论文链接:

https://arxiv.org/abs/1812.00151

参考链接:

https://venturebeat.com/2019/04/01/text-based-ai-models-are-vulnerable-to-paraphrasing-attacks-researchers-find/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章