在OWASP最新发布的2025版大模型(LLM)应用十大安全风险榜单中,提示词注入(Prompt Injection)毫无悬念地占据首位。这并不令人意外——在生成式AI的实际应用中,这一漏洞几乎是最令人头痛且最难彻底修复的安全隐患。

简而言之,提示词注入是指攻击者通过精心构造的输入,诱导大模型偏离预设行为,输出攻击者期望的结果。其根本原因在于:模型天然无法区分“指令”与“数据”。当用户发送一段消息时,模型可能将其中隐含的恶意内容误当作命令执行。

需要明确一个概念:提示词注入是一种广义的输入操控行为,而“越狱”是其特殊形式——专门用于诱导模型彻底无视安全协议。在防御层面,普通注入攻击可通过优化系统提示词和输入过滤来缓解,但越狱则更棘手,必须持续更新模型底层训练和安全机制才能有效防范。

根据攻击入口,提示词注入可分为两大类:
- 直接注入:用户直接操控提示词,例如直接命令LLM“忽略所有规则”。
- 间接注入:攻击者将恶意指令隐藏在LLM引用的网页、文件或多模态图片中——用户看不见暗流涌动,但模型已照单全收。

一旦提示词注入攻击成功,其后果的严重程度完全取决于具体业务场景和模型被授予的权限。以下梳理了9个典型攻击场景和6个真实案例,带你直观感受其破坏力:







必须正视一个现实:由于生成式AI固有的随机性,目前尚无任何一种方案能够完美防御提示词注入。无论是微调还是RAG,都难以根除——漏洞根植于模型底层逻辑。因此,防御思路必须跳出单一依赖,转向系统级的纵深防御架构。换言之,需要构建一套即使大模型完全被攻陷,也无法对业务造成实质性破坏的韧性体系。


具体的防御策略,业内已经总结出比较成熟的七条路径:
策略1:限制模型行为。在系统提示词中明确界定角色边界与能力范围,强制要求模型无视任何试图篡改核心指令的企图。
策略2:输出格式验证。定义严格的输出格式(如JSON),并通过确定性代码进行校验——不符合要求的直接拒绝。
策略3:输入输出过滤。部署语义过滤器与字符串检查,同时引入RAG三元组评估——检查上下文相关性、事实依据性(Groundedness)和回答相关性,从源头识别恶意内容。
策略4:最小权限原则。为模型分配独立的API令牌,将敏感功能封装在确定性代码中执行,避免模型自行决策。
策略5:高风险操作的人工审批。涉及特权操作时,必须经过人工审核放行——关键决策不可完全交由机器。
策略6:隔离外部内容。将不可信的外部内容(如网页、文件等)与用户提示词在物理或逻辑上分离,并清晰标记,以降低对模型指令的干扰。
策略7:对抗性测试。定期进行红蓝对抗模拟,将模型视为不可信的攻击者来测试安全边界——漏洞可能来自意想不到的地方。

