用诗歌破解AI防线：最新研究揭示潜在安全漏洞

首页

科技数码

热心网友

转载

2025-12-01

最新研究表明，意大利Icaro Lab的研究人员发现，诗歌出人意料的不可预测性可能成为大语言模型（LLM）安全防护上的一个重大隐患。这项研究由专注于伦理AI的初创公司DexAI主导，研究团队精心创作了20首中英文诗歌，每首诗末尾都暗藏了请求生成有害内容的明确指示，包括煽动仇恨言论或描述自杀行为等敏感内容。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

研究人员对来自九家公司旗下的25个AI模型进行了系统性测试，涵盖了谷歌、OpenAI、Anthropic等行业代表性企业。实验数据显示，高达62%的诗歌提示成功诱使这些模型生成有害内容，这种突破安全限制的现象被称为"越狱"。值得注意的是，在本次测试中，OpenAI的GPT-5nano模型成功抵御了所有诱导，未生成任何不当内容；而谷歌的Gemini2.5pro模型则对所有诗歌提示均作出了有害回应。

谷歌DeepMind副总裁Helen King对此回应称，他们正在实施"多层次、系统化的AI安全策略"，持续更新安全过滤系统以识别具有潜在危害的内容。研究团队的主要目标是探索AI模型在面对不同形式提示时的反应机制，特别是当遇到具有艺术性和复杂结构的文本时，模型的安全防护能力会面临怎样的挑战。

该研究还揭示了一个关键发现：诗歌中巧妙隐藏的有害请求因其语言结构的复杂性，使得模型更难进行准确预测和有效检测。研究涉及的有害内容包括武器制作指南、仇恨言论、色情内容、自杀行为以及儿童虐待等敏感话题。尽管研究人员未公开所有用于测试的诗歌文本，但他们指出这些诗歌很容易被复制传播，其中某些模型生成的回复已经违反了《日内瓦公约》的相关条款。

研究团队在发表成果前已与所有相关企业进行了联系，但截至目前仅收到Anthropic一家的正式回复。研究人员透露，计划在未来几周内发起一项诗歌挑战赛，旨在进一步测试各大模型安全防护机制的有效性。

核心要点：

来源:https://www.itbear.com.cn/html/2025-12/1035034.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：机器人工程专业指南：定位与就业方向分析，助你正确选择下一篇：开源多语言WPF DataGrid控件：支持筛选与跨平台开发