大模型角色扮演失效?新研究揭示其能力局限与解法
让AI扮演特定角色,并不能让它突然变得更聪明。这种做法或许能改变它回答问题的方式和格式,却无法真正提升答案的准确性。实际上,有开发者分享过一种更有效的思路:向AI提供受众的具体信息,往往比单纯的角色设定更有帮助。比如你可以这样提示:“请向我解释Rust的内存管理机制,我是一名有Python和JavaScript编程经验的开发者。”
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在撰写提示词时,一种甚至已成为习惯的“最佳实践”,就是先为大型模型“立人设”,甚至去夸赞它,据说这样可以提升模型的性能。《夸奖ChatGPT能提升回答质量,原来是有依据的,来看OpenAI创始成员Andrej的解释》一文中也提到了类似的观点。例如,告诉AI“你是一位优秀的物理学家”、“你是资深律师”或“你是顶级程序员”。我们似乎觉得,这样AI就能变得更聪明了。
图片
但沃顿商学院的最新研究给我们泼了一盆冷水。研究人员花了大力气测试6个主流AI模型,每个问题跑25次,总共进行了25000多次测试。结果发现:告诉AI“你是物理学家”并不会让它把物理题答得更好;说“你是律师”也不会让它的法律问题回答得更准确。
图片
更有意思的是,他们还测试了反向操作——告诉AI“你是个幼儿”或者“你是4岁小孩,觉得月亮是奶酪做的”。结果在某些情况下,这些“低知识”角色竟然比专家角色表现得更好。
研究用的题目可不简单。GPQA Diamond是198道博士级别的物理、化学、生物题,连相关领域的博士都只能答对65%,普通人即便花30分钟上网查资料,正确率也只有34%。MMLU-Pro更狠,每题有10个选项,纯靠蒙的概率只有10%。
图片
结果很明确:在6个模型中,只有Gemini 2.0 Flash是个例外,5个专家角色都有显著改进。其他模型基本没变化,有时甚至更差。
研究者Ethan Mollick说得非常直白:
最搞笑的发现是Gemini模型的“职业操守”。当你给它分配不匹配的专家角色时,比如让“物理专家”回答生物题,Gemini经常直接拒绝:“我不能凭良心选择答案。”平均25次测试中有10次拒绝回答。这种“过度谨慎”反而拖累了表现。
角色扮演不会让AI突然变聪明。它能改变回答方式和格式,但改变不了准确性。实际上,有开发者分享:给AI提供受众信息比角色扮演更有用。比如:“解释Rust内存管理,我是有经验的Python和JavaScript程序员。”
需要注意的是,这项研究只看答案准确性。角色提示在其他方面是有用的,比如改变AI关注的重点、推理方式,或者让回答更符合特定语气风格。但它确实不是提高准确性的万能钥匙。
研究团队还测试了领域匹配问题:让物理专家答物理题,让律师答法律题。结果依然没有一致的改进效果。有时候“专业不对口”的专家表现反而更好。
看起来,那些复杂的角色设定可能真的只是心理安慰,或许也只是早期模型的Prompt技巧已经过时了。
相关攻略
田晏林 发自 凹非寺量子位 | 公众号 QbitAI这几天,港股市场的情绪,又被AI大模型点燃了!继年初智谱、MiniMax两大通用AI巨头上市后,3月30日,杭州德适生物科技股份有限公司(以下简称
OpenClaw 完整使用攻略:从零安装到高效配置的实战经验 在深度使用 OpenClaw 的过程中,我遇到了不少典型问题。本文将系统梳理从环境准备到最终配置的核心步骤与避坑要点,旨在帮助你高效部署,避免重复踩坑。 1 环境准备:正确安装方法与版本选择 首先,确保你的 npm 和 Node js
4月1日消息,字节跳动Seed正式启动大模型人才校招,下设2027届应届生招聘和在校实习生招聘。据悉,今年Seed将加大人才投入,本次在全球招募的2027届大模型人才将达到约100位。在招聘标准上,
OpenClaw本地调用Ollama大模型:免API密钥,云端级模型轻松部署 现在,你可以轻松在本地环境中调用功能强大的大模型,无需依赖第三方平台的API密钥,也不必担心额外费用与隐私泄露风险。OpenClaw与Ollama完美协同,能够在本地部署如GLM-4等云端级别的模型,让你获得安全、高效、可
网易汽车3月19日报道提及2026年最为爆火的是什么,答案一定非 AI Agent莫属。比如最近流行的OpenClaw全民“养龙虾”,就是典型代表。你无需一步一步的告诉它做什么,只需告诉它想要的结果
热门专题
热门推荐
任天堂吉祥物马里奥的宿敌酷霸王解析:为何这位反派深受喜爱?宫本茂通过电影揭示角色深层魅力 谈到任天堂的经典形象,马里奥与酷霸王这对宿敌的组合可谓深入人心。一边是永不放弃拯救碧姬公主的英雄,另一边则是不断制造混乱的恶棍,故事框架虽简单却历经三十余年依然人气不减。但仔细品味,酷霸王这个角色颇为值得玩味:
洛克王国神圣狮鹫图鉴:揭秘悬崖之王的飞行奥秘 当冒险者们踏上洛克王国的高耸悬崖,便能感受到猛烈的疾风。呼啸而过的气流远超平地的强度,然而正是这片常年不息的风域,成为了狮鹫一族最卓越的自然训练场。在这个独特的环境中,它们锤炼出了对抗强风与复杂气流的顶级飞行技巧,其背后的生存智慧,实在值得探险者们深入探
4月2日消息,三星电子最新表示,自2019年起连续七年位居全球第一。根据三星援引的市场调研公司IDC数据,2025年三星电子在全球游戏电竞显示器市场的收入占比达到18 9%。从销量来看,2025年三
内存市场因为人工智能高带宽内存的蓬勃需求而陷入供应紧张,传统内存也因大量产线被占用而供不应求。在这种大背景下,苹果似乎采取了一种争议性的商业手段,来进一步扩大其市场份额。据韩国消息人士透露,苹果公司
4月6日消息,近期内存市场风声鹤唳,现货价格小幅回调就引发了内存价格崩盘”的论调,甚至带动相关个股集体下跌,但行业龙头三星却完全不为所动,反而按计划继续上调DRAM内存产品价格,用实际行动打破了市场





