使用诗歌可让AI违规输出内容?成功率高达62%
12月1日消息,最新研究证实,只需一点创意就能轻松绕过人工智能聊天机器人的安全防护机制。伊卡洛实验室(Icaro Lab)在最新发表的论文《对抗性诗歌:一种通用的大语言模型越狱机制》中指出,研究人员通过将提示词以诗歌形式表达,成功突破了多种大语言模型的安全限制。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
研究结果显示,"诗歌形式可作为通用型越狱操作符",实验数据显示整体有62%的成功率让模型生成被禁止的内容,其中包括涉及核武器制造、儿童虐待材料以及自杀或自残等相关信息。
值得注意的是,该研究测试了多款主流大语言模型,包括OpenAI的GPT系列、Google Gemini、Anthropic的Claude以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek和MistralAI在测试中始终会提供违规回答,而OpenAI的GPT-5系列模型和Anthropic的Claude Haiku 4.5则最不容易突破其自身设定的限制。
虽然该研究未公开研究人员所使用的具体"越狱诗歌"原文,但研究团队向《连线》杂志表示,这些诗句"过于危险,不宜向公众披露"。不过,论文中确实包含了一个经过弱化处理的示例,用来说明绕过AI聊天机器人安全机制的简易程度。研究人员强调:"这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。"
热门专题
热门推荐
清明节假期期间,A 股和港股休市,但比特币行情永不停歇。 4月6日,当多数市场还在假期中沉睡时,比特币已经悄然启动。价格从亚洲早盘的低点67400美元出发,一路向上试探,盘中最高涨破70300美元,不仅刷新了3月26日以来的高位,较日内低点的涨幅也超过了4%。以太坊的表现同样不俗,从2050美元附近
4月5日消息,日前,REDMI K90至尊版通过3C认证,预计将于本月发布。今日,小米中国区市场部总经理魏思琪用小米新机发布微博,不出意外,这正是即将登场的REDMI K90至尊版,这将是小米首款配
WPS演示中图表不随数据更新时,可通过四种方法实现自动同步:一、用OFFSET+COUNTA定义动态名称绑定图表;二、用组合框控件联动VLOOKUP提取数据;三、用数据透视图配合切
聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用
太空中的马桶堵了,边飞边修还能勉强用。但中东被点燃的火药桶,美国怎么来扑灭?靠一再延期的“最后通牒”?还是靠无底线的轰炸?2300万美元的马桶美国航空航天局4名宇航员1日搭乘“猎户座”飞船升空,执行





