隐蔽篡改图片技术可攻破聊天机器人安全限制_AI热点日报

隐蔽篡改图片技术可攻破聊天机器人安全限制

类型：热点整理2026-06-30

佛罗里达国际大学研发的JaiLIP技术通过像素级微小改动，使人眼无法察觉的图片能攻破多模态AI模型的安全限制，导致违规内容输出率翻倍，对使用AI客服的企业构成威胁，需加强像素级输入校验。

近日，佛罗里达国际大学的一项新研究引发了广泛关注——他们推出了一项名为“JaiLIP”的技术，名称听起来颇为专业，但本质其实很简单：通过在像素层面进行人眼完全无法察觉的微小改动，就能让AI的安全防线形同虚设，迫使聊天机器人乖乖吐露出原本被屏蔽的内容。

据相关研究披露，这种攻击方式与过去依靠复杂提示词绕弯子的“越狱”手法截然不同。JaiLIP根本不碰文本，而是直接操纵图像的像素值——没错，就是那些构成画面的数字。人眼看上去还是同一张图，但AI在分析数学模式和像素数据时，解读结果却会天差地别。

实验采用了多模态AI模型BLIP-2，它既能识别图像也能处理文字。结果发现：经过JaiLIP“动过手脚”的图像，让模型输出风险或违规内容的概率大幅提升。与之前的图像攻击技术相比，JaiLIP产出的有害输出数量几乎翻了一番。这个增幅，说实话，相当惊人。

举一个具体的例子。研究者拿了一张红绿灯照片进行测试，这张图在人类看来完全正常，但经过JaiLIP处理后，模型竟然输出了闯红灯的相关提示，甚至还详细讲解了如何规避相应的罚款。这类信息原本被系统开发方严格屏蔽，正常情况下绝对不可能提供。而一张看起来毫无问题的图片，就能让AI“叛变”。

这项研究的结果，对许多企业来说都是一个重要警示，尤其是那些使用AI客服、自动化流程，或搭载了图文输入功能的应用。规模较小的机构风险尤为突出——它们往往选用开源的通用AI模型，安全测试也做得有限，极易成为此类像素级攻击的目标。一旦中招，后果可能不只是输出违规内容这么简单，比如聊天机器人还可能泄露企业内网的内部信息。

值得警惕的是，这种攻击方式隐蔽性极强，几乎无法通过常规的人眼审核发现。对于正在部署多模态AI系统的团队来说，完善像素级的输入校验，恐怕需要提到优先级最高的位置了。

来源：https://ai.cnmo.com/news/812200.html

聊天机器人

延伸阅读

补充最近整理过的热点入口。

隐蔽篡改图片技术可攻破聊天机器人安全限制

相关热点

延伸阅读