本次查询:Self-Consistency
中文解释:自一致性
常见场景:大语言模型在数学推理 / 常识问答 / 逻辑判断题等需要多步推理的复杂任务中 / 用于提升最终答案的鲁棒性和正确率。
一句话解释
Self-Consistency 是一种让大模型对同一个问题重复推理多次,然后统计各个答案出现的频次,最终选择出现频率最高答案的方法。它并非修改模型本身,而是在推理阶段通过投票机制提升输出质量。
为什么会被关注
大模型在复杂推理任务中经常给出不一致的答案,同一个问题换一种问法或采样温度不同,结果可能完全不同。Self-Consistency 不依赖额外训练即可显著提升准确率,在数学、逻辑等场景中效果尤其突出,因此迅速成为提示工程技术中的常用手段。
它与 Chain-of-Thought 结合后,能够弥补单次链式推理可能走偏的缺陷,使模型在需要多步计算的题目上达到接近甚至超越人类专家的水平,这一发现直接推动了人们对“推理时计算”能力的重新认识。
核心逻辑
核心流程可分为三步:首先,对同一输入问题使用较高的温度参数(如0.8)进行多次采样,每次生成一条完整的推理路径和最终答案;然后,将不同路径产生的答案汇总,计算每个候选答案的出现次数;最后,选择出现次数最多的答案作为最终输出。
背后的假设是:尽管单次推理可能因随机性或局部错误而偏差,但正确的推理路径在多次采样中更容易趋向一致,错误的路径则各不相同的可能性更大。多数投票恰好利用了这种统计规律来过滤噪声。
常见场景
最典型的场景是数学应用题(如GSM8K)和符号推理(如Last Letter Concatenation)。在这些任务中,模型需要执行多步计算,任何一步出错都会导致答案错误,Single-pass 的准确率通常较低,而自一致性可以将准确率从60%提升到80%以上。
此外,在常识问答、复杂指令遵循以及需要事实性判断的任务(如医疗问答、法律条款解读)中,自一致性也被用作一种低成本的可靠性增强手段。开发者只需在 API 调用时循环发送多次请求并取众数即可实现。
容易混淆的点
Self-Consistency 并非模型自身的一致性(如参数对称性),而是对输出结果的集成策略。它与“多数投票”非常相似,但专指在语言模型推理采样场景下的应用,且通常配合 Chain-of-Thought 使用。
另外要注意,自一致性需要额外的计算资源(多次推理),因此在延迟敏感的场景下可能不适用。它也不等同于“温度为0”的确定性模式——后者每次都输出相同答案,但答案本身可能仍是错的。
