无需训练：即插即用的解码方法提升模型思考能力

时间：2026-02-23 21:01

你有没有发现这样一种现象：面对同一个问题，大模型可能在每次回答时都给出不同答案。一个不容忽视的问题是，这种不确定性，是否意味着推理仍不稳定？随着技术的发展，大模型在自然语言处理和多模态任务中已经表现

你有没有发现这样一种现象：面对同一个问题，大模型可能在每次回答时都给出不同答案。一个不容忽视的问题是，这种不确定性，是否意味着推理仍不稳定？

随着技术的发展，大模型在自然语言处理和多模态任务中已经表现出越来越强的性能。传统解码策略主要包括随机采样（random sample）和贪婪解码（greedy decoding）。例如，ChatGPT、Claude、Gemini 等大模型默认的是随机采样（random sample），即便是回答相同的问题，它们可能每次都会给出不同的答案。

而贪婪解码（greedy decoding）在一般的基准测试（benchmark）上表现会有所提升，特别是在推理性任务上。但是，模型在不确定情况下的表现仍不理想。

为解决上述问题，美国东北大学与 Adobe、美国凯斯西储大学联合团队提出了一种无需训练的新型解码策略，名为“谨慎下一步预测（CNTP，Cautious Next Token Prediction）”。

该策略旨在通过在模型不确定性高的步骤采样多个候选路径，并选择困惑度最低的路径。相较于随机采样和贪婪解码等传统策略，CNTP 显著提升了大模型在多种任务上的推理准确度，可应用场景包括语音助手、视觉助手、聊天机器人等。

图丨相关论文（来源：arXiv）

“我们的研究证明了 Transformer 模型下一个词元预测（next token prediction）的范式，有可能实现真正的智能。”该论文第一作者王亦周对 DeepTech 表示。他目前正在东北大学攻读博士学位，主要研究方向包括大模型、多模态模型和计算机视觉，即将加入 Adobe 担任研究科学家/工程师。

图丨王亦周（来源：王亦周）

Safe Superintelligence 公司创始人、前 OpenAI 首席科学家伊尔亚·苏茨克维（Ilya Sutskever）曾公开表示，如果模型足够强大，对下一个 token 的预测能力可能反映对世界的某种理解，这可能是实现更深层智能的关键路径。

也就是说，next token prediction 是智能的核心。要实现这一点，需要在模型内部进行强推理，再通过一系列计算预测下一个 token。

受此启发，研究团队从人类认知行为中寻找灵感：人在思考时，往往越谨慎回答，结果的准确率越高，那么大模型会不会也和人脑有类似的机制？

王亦周解释道：“这种过程类似于我们在参加考试时的解题过程，我们可能会先想下有哪些解法，然后从中挑选一种认为最有把握的方法，确认无误后再进行下一步，直到得到完整的证明。”

图丨 CNTP 方法概述（来源：arXiv）

这里的谨慎指的是，当面对不确定性的情况，需要多尝试几条不同的路径，然后选择一条最稳妥、最可信的路径。

研究团队用熵作为模型不确定性的衡量标准：熵越高越不可信。在自然语言处理（NLP）中，困惑度（perplexity）越低代表对答案越可信。因此在 CNTP 策略下，一旦熵值较高，模型会采样多个候选路径，并选择其中困惑度最低的一条，再一步步迭代。

研究人员通过消融研究证明，由于思维链推理的回答往往较长，每条路径长度也不同，如果算完整评估的困惑度无法很好地衡量答案的可靠性。基于此，他们采取了每到一句话的标点符号截止的方式来计算困惑度。相当于每句话、每个小的推理单元，即每个局部自洽能够实现较理想的效果。

为控制采样次数，研究团队通过设置最小熵 Hmin 和最大熵 Hmax 两个阈值和最大试验次数 Nmax。该方法在提高解码准确性的同时，还有效地限制了计算成本，避免了在每个步骤大量采样而带来的高计算开销。

（来源：arXiv）

在实验验证方面，该团队在数学推理（GSM8K、MATH）、常识推理（StrategyQA）和开放问答（TruthfulQA）等任务中证明，与包括贪婪解码、随机解码和束搜索在内的传统方法相比，CNTP 策略的结果更具优势。

例如，在 TruthfulQA 任务中，Llama-2-7B 在使用 CNTP 方法后，真实性准确率提升到了 84.8%，相较于随机解码提升 6.8%。

值得关注的是，CNTP 策略无需训练，仅解码即可直接实现提升性能。王亦周解释道：这种方法在某种程度上像“免费午餐”，尽管可能会带来更多的 token 消耗，但在实际应用中有很多优化的方法可解决该问题。

（来源：arXiv）

此外，该方法搭配自一致性（self-consistency）后，可进一步提升性能（注：自一致性是取多个样本，然后选一个出现频率最高的答案），且计算成本远低于后者。原因在于，利用多样性和随机性集思广益后，选取多数投票。

研究团队证明，每个样本也是越谨慎越好。“我们的方法会在一定程度上限制它的多样性，但通过调高温度可以解决这一点，所以它能进一步提升。”王亦周说。

此外，CNTP 策略具有较好的普适性，可用于广泛的对话任务。除了有固定答案的数学题或代码题，它也可以用于开放式问题，研究团队未来将尝试将该策略用于图像或视频生成。

该研究为大模型的推理优化提供了一种新思路，有望成为下一代解码策略的重要候选方案。

参考资料：

1.相关论文：https://arxiv.org/abs/2507.03038v2

2.code link：https://github.com/wyzjack/CNTP

排版：刘雅坤

来源：https://www.163.com/dy/article/KMFRHOVK05119734.html

推理样本大模型解码方法

上一篇宝马7系L3辅助驾驶暂停：功能受限与需求不足解析 下一篇AI引爆存储革命：NAND闪存迎来黄金三年新周期

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时，同比增长5 0%。充换电服务业用电增速高达48 8%，信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

追风者冰川360S25液冷散热器售价429元，三联一体风扇便捷安装，冷头小体积纯铜底座噪音18dB，风扇转速300-2000RPM、风量75CFM、静压2 96mmAq，五年质保漏液包赔。

科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映，GooglePlayServices后台耗电异常，电量占比最高达99 97%，远超正常水平，严重影响续航。目前故障原因不明，谷歌尚未发布官方声明。

科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足盼新CEO改进

罗永浩批评苹果iOS27创新不足，称仅有双iPhone同号、音量分离等数十项细节改进，认为库克时代缺乏突破性创新，股市虽好但消费者只能被迫接受挤牙膏式升级。

科技数码 · 2026-06-29

年国产车出口710万辆，两家车企销量破百万

2025年国产汽车出口总量达710万辆，同比增长21%。奇瑞以134万辆居首，比亚迪105万辆次之，上汽乘用车出口占比60%最高，长城出口51万辆。吉利、长安等主流品牌同步增长，小鹏、零跑等新兴品牌海外拓展加速。