先说个让人有点意外的发现:指令风格的微小改变,就能让模型准确率波动高达16.7个百分点。同一个问题,正着问、反着问、换个语气问,答案可能就完全不一样。
2025年11月,EMNLP(自然语言处理实证方法会议)上发表了一篇论文,提出了一个叫做RCScore(Response Consistency Score)的框架——专门用来量化大语言模型响应的“一致性”。论文的作者是Dongjun Jang、Youngchae Ahn和Hyopil Shin,内容相当扎实。
一、RCScore是什么?
简单来说,RCScore是一个多维度框架,专门衡量指令表述方式如何影响模型响应。它不去管模型答得对不对,而是看模型“稳不稳定”。
当前的大语言模型评估有个明显的盲区:往往依赖单一的指令模板。这意味着,一个模型可能只在固定的提问方式下表现优秀,一旦用户换个问法,效果就打了折扣。但在实际应用中,用户提问的方式千奇百怪——有人喜欢直来直去,有人喜欢铺垫背景,有人会用正式术语,有人则用口语化表达。如果模型在不同问法下表现差异巨大,那它在真实场景中的可靠性就值得怀疑。
研究者做的事情,是把基准问题系统性地转换为多种指令风格,然后用RCScore去抓那些传统指标捕捉不到的性能差异。
实验覆盖了10个大语言模型、4个推理基准。结果令人震惊:指令风格的改变可以使准确率波动高达16.7个百分点。这可不是小数字,它直接说明——模型对提问方式的“敏感度”可能远超我们的预期。
二、交叉响应相似性(CRS)
研究者还引入了一个新指标:交叉响应相似性(Cross-Response Similarity, CRS),可以把它看作是RCScore在“风格自洽性”上的应用。
CRS的发现很关键:CRS与任务准确率存在强相关性,表明一致性是模型可靠性的一个非常有价值的袋里指标。换句话说:一个模型越“一致”,它就越“可靠”。
这背后的逻辑其实很直观——如果同一个问题换个问法答案就变了,那这个模型很可能并没有真正“理解”问题,它只是在“匹配”特定的提问模式。这就好比一个人,换个措辞问你“现在几点”,你如果说“吃了吗?”,那显然是个不靠谱的家伙。
三、其他重要发现
RCScore研究还有两个重要发现:
- 确定性解码产生更风格稳定的输出:温度参数越低,模型越稳定。这意味着在实际部署中,降低温度不仅是控制“创造性”的手段,也是提升一致性的方法。如果想让模型稳定输出,调低温度参数是一个简单粗暴但有效的方案。
- 模型规模与跨风格一致性正相关:越大的模型,越不容易被问法“带偏”。这为“规模越大越好”提供了一个新的注脚——不仅仅是能力更强,而且是更稳定、更可靠。这或许也解释了为什么大公司都在疯狂堆参数——不仅是为了能力,更是为了“稳”。
四、为什么这很重要?
RCScore提供了一个原则性的方法来评估指令鲁棒性——让“模型有多稳定”从一个模糊的感觉变成了一个可计算的数字。在工程落地中,这种可量化的指标至关重要。
RCScore已识别出四种类型的语义无关查询变体,这些变体会导致大模型响应不一致。而基线模型和标准微调表现出低一致性——这意味着,当前主流的模型训练和评估方法,可能系统性低估了指令敏感性问题的严重性。我们可能一直在用“假高分”来评价模型。
一个2025年在化学领域的研究,更是揭示了让人揪心的事实:大语言模型在分子表示任务上的一致性极低。同一个化学分子,用不同的表示方式(SMILES字符串 vs IUPAC名称)去问同一个模型,几乎得不到一致的答案——这对于把大语言模型应用于科学发现,无疑是个严重的警示。虽然看起来是同一道题,但在机器眼里,换个格式可能就等于换了个世界。
五、结语
RCScore提醒我们:AI的“智能”可能比我们想象的更脆弱。
换一个问法就答错,说明模型可能并没有真正“理解”问题,而只是在“匹配”模式。一致性,是AI从“花架子”走向“真功夫”的试金石。在真实世界的部署中,用户不会按照单一模板提问。一个在单一模板上表现优异、但在不同问法下表现差异巨大的模型,在实际使用中可能远不如基准测试所显示的那么可靠。RCScore提供的方法论,正是帮助我们在模型上线之前就发现这些问题。
参考文献:Jang, D., Ahn, Y. & Shin, H. (2025). RCScore: Quantifying Response Consistency in Large Language Models. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025), pages 5690–5708。
