近日,佛罗里达国际大学的一项新研究引发了广泛关注——他们推出了一项名为“JaiLIP”的技术,名称听起来颇为专业,但本质其实很简单:通过在像素层面进行人眼完全无法察觉的微小改动,就能让AI的安全防线形同虚设,迫使聊天机器人乖乖吐露出原本被屏蔽的内容。

据相关研究披露,这种攻击方式与过去依靠复杂提示词绕弯子的“越狱”手法截然不同。JaiLIP根本不碰文本,而是直接操纵图像的像素值——没错,就是那些构成画面的数字。人眼看上去还是同一张图,但AI在分析数学模式和像素数据时,解读结果却会天差地别。
实验采用了多模态AI模型BLIP-2,它既能识别图像也能处理文字。结果发现:经过JaiLIP“动过手脚”的图像,让模型输出风险或违规内容的概率大幅提升。与之前的图像攻击技术相比,JaiLIP产出的有害输出数量几乎翻了一番。这个增幅,说实话,相当惊人。
举一个具体的例子。研究者拿了一张红绿灯照片进行测试,这张图在人类看来完全正常,但经过JaiLIP处理后,模型竟然输出了闯红灯的相关提示,甚至还详细讲解了如何规避相应的罚款。这类信息原本被系统开发方严格屏蔽,正常情况下绝对不可能提供。而一张看起来毫无问题的图片,就能让AI“叛变”。
这项研究的结果,对许多企业来说都是一个重要警示,尤其是那些使用AI客服、自动化流程,或搭载了图文输入功能的应用。规模较小的机构风险尤为突出——它们往往选用开源的通用AI模型,安全测试也做得有限,极易成为此类像素级攻击的目标。一旦中招,后果可能不只是输出违规内容这么简单,比如聊天机器人还可能泄露企业内网的内部信息。
值得警惕的是,这种攻击方式隐蔽性极强,几乎无法通过常规的人眼审核发现。对于正在部署多模态AI系统的团队来说,完善像素级的输入校验,恐怕需要提到优先级最高的位置了。
