无需训练:即插即用的解码方法提升模型思考能力
你有没有发现这样一种现象:面对同一个问题,大模型可能在每次回答时都给出不同答案。一个不容忽视的问题是,这种不确定性,是否意味着推理仍不稳定?
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
随着技术的发展,大模型在自然语言处理和多模态任务中已经表现出越来越强的性能。传统解码策略主要包括随机采样(random sample)和贪婪解码(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默认的是随机采样(random sample),即便是回答相同的问题,它们可能每次都会给出不同的答案。
而贪婪解码(greedy decoding)在一般的基准测试(benchmark)上表现会有所提升,特别是在推理性任务上。但是,模型在不确定情况下的表现仍不理想。
为解决上述问题,美国东北大学与 Adobe、美国凯斯西储大学联合团队提出了一种无需训练的新型解码策略,名为“谨慎下一步预测(CNTP,Cautious Next Token Prediction)”。
该策略旨在通过在模型不确定性高的步骤采样多个候选路径,并选择困惑度最低的路径。相较于随机采样和贪婪解码等传统策略,CNTP 显著提升了大模型在多种任务上的推理准确度,可应用场景包括语音助手、视觉助手、聊天机器人等。

图丨相关论文(来源:arXiv)
“我们的研究证明了 Transformer 模型下一个词元预测(next token prediction)的范式,有可能实现真正的智能。”该论文第一作者王亦周对 DeepTech 表示。他目前正在东北大学攻读博士学位,主要研究方向包括大模型、多模态模型和计算机视觉,即将加入 Adobe 担任研究科学家/工程师。

图丨王亦周(来源:王亦周)
Safe Superintelligence 公司创始人、前 OpenAI 首席科学家伊尔亚·苏茨克维(Ilya Sutskever)曾公开表示,如果模型足够强大,对下一个 token 的预测能力可能反映对世界的某种理解,这可能是实现更深层智能的关键路径。
也就是说,next token prediction 是智能的核心。要实现这一点,需要在模型内部进行强推理,再通过一系列计算预测下一个 token。
受此启发,研究团队从人类认知行为中寻找灵感:人在思考时,往往越谨慎回答,结果的准确率越高,那么大模型会不会也和人脑有类似的机制?
王亦周解释道:“这种过程类似于我们在参加考试时的解题过程,我们可能会先想下有哪些解法,然后从中挑选一种认为最有把握的方法,确认无误后再进行下一步,直到得到完整的证明。”

图丨 CNTP 方法概述(来源:arXiv)
这里的谨慎指的是,当面对不确定性的情况,需要多尝试几条不同的路径,然后选择一条最稳妥、最可信的路径。
研究团队用熵作为模型不确定性的衡量标准:熵越高越不可信。在自然语言处理(NLP)中,困惑度(perplexity)越低代表对答案越可信。因此在 CNTP 策略下,一旦熵值较高,模型会采样多个候选路径,并选择其中困惑度最低的一条,再一步步迭代。
研究人员通过消融研究证明,由于思维链推理的回答往往较长,每条路径长度也不同,如果算完整评估的困惑度无法很好地衡量答案的可靠性。基于此,他们采取了每到一句话的标点符号截止的方式来计算困惑度。相当于每句话、每个小的推理单元,即每个局部自洽能够实现较理想的效果。
为控制采样次数,研究团队通过设置最小熵 Hmin 和最大熵 Hmax 两个阈值和最大试验次数 Nmax。该方法在提高解码准确性的同时,还有效地限制了计算成本,避免了在每个步骤大量采样而带来的高计算开销。

(来源:arXiv)
在实验验证方面,该团队在数学推理(GSM8K、MATH)、常识推理(StrategyQA)和开放问答(TruthfulQA)等任务中证明,与包括贪婪解码、随机解码和束搜索在内的传统方法相比,CNTP 策略的结果更具优势。
例如,在 TruthfulQA 任务中,Llama-2-7B 在使用 CNTP 方法后,真实性准确率提升到了 84.8%,相较于随机解码提升 6.8%。
值得关注的是,CNTP 策略无需训练,仅解码即可直接实现提升性能。王亦周解释道:这种方法在某种程度上像“免费午餐”,尽管可能会带来更多的 token 消耗,但在实际应用中有很多优化的方法可解决该问题。

(来源:arXiv)
此外,该方法搭配自一致性(self-consistency)后,可进一步提升性能(注:自一致性是取多个样本,然后选一个出现频率最高的答案),且计算成本远低于后者。原因在于,利用多样性和随机性集思广益后,选取多数投票。
研究团队证明,每个样本也是越谨慎越好。“我们的方法会在一定程度上限制它的多样性,但通过调高温度可以解决这一点,所以它能进一步提升。”王亦周说。
此外,CNTP 策略具有较好的普适性,可用于广泛的对话任务。除了有固定答案的数学题或代码题,它也可以用于开放式问题,研究团队未来将尝试将该策略用于图像或视频生成。
该研究为大模型的推理优化提供了一种新思路,有望成为下一代解码策略的重要候选方案。
参考资料:
1.相关论文:https://arxiv.org/abs/2507.03038v2
2.code link:https://github.com/wyzjack/CNTP
排版:刘雅坤
相关攻略
这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、
北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支
如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
雷递网 乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示,智谱曾经历过质疑,经历过挫折,但无数事实反复验证了一个判断——智能上界的提升,是大模型AGI时代唯一的 "第一性 "。张鹏说,
热门专题
热门推荐
清明刮了坟头土,沥沥拉拉四十五。 这些流传已久的农谚,可不是随口说说的顺口溜,它们是千百年来农耕文明与自然对话的结晶,是写在时间里的“天气备忘录”。一句句简短的话语,背后藏着的是对节气、物候与农事活动之间精密联系的深刻洞察。 节气与农事 先看清明和谷雨这对“搭档”。老话说,“清明要晴,谷雨要淋”。清
人生伟业的建立,不在能知,乃在能行。 仔细想想,真正的阻碍往往并非来自外界,而是源于内心。任何的限制,其实都是从自己的内心开始的。 那么,我们该如何突破呢?不妨先从一个简单的行动开始:如果我们都去专注地做那些自己能做到的事情,最终的结果,往往会让自己大吃一惊。 行动固然重要,但人终究是社会性的存在。
亮晶晶的春雨 你听,那是什么声音?是欢快的打击乐,还是轻盈的舞步?原来,是一群天真烂漫的娃娃——亮晶晶的春雨,正在高空中云集。它们嬉戏着,咿咿呀呀地欢唱着,然后一股脑儿地、欢蹦乱跳地扑向大地母亲的怀抱。 这春雨,可不只是娃娃们的嬉闹。它绵绵不绝,细细密密,像极了巧手姑娘使用的花针与丝线。它们斜斜地交
母亲的爱是世间最伟大的爱,也是最珍贵的爱 母爱,常常藏匿于那些看似微不足道的日常琐碎里。它或许没有惊天动地的形式,却如涓涓细流,汇聚成永恒的生命之源。 该如何形容这种无处不在的守护呢?春天,她是拂面的和风,送来丝丝暖意;夏日,她是那口沁凉的冰淇淋,带来纯粹的快乐;秋时,她化作枝头那片悄然飘落的黄叶,
一列美人蕉 盛开着红色、黄色而带着黑斑的大朵的花,正伸张了大口,向着灿烂的春光微笑。远远望去,美人蕉的花簇像一团团燃烧得正旺的火焰,充满了生命力;凑近细看,每一朵又宛如小姑娘发间俏丽的红蝴蝶结,透着几分活泼与羞涩。至于它那宽大的叶子,则像极了一把把撑开的绿色芭蕉扇,在风中轻轻摇曳。 看着这些盛开的花





