首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
无需训练:即插即用的解码方法提升模型思考能力

无需训练:即插即用的解码方法提升模型思考能力

热心网友
87
转载
2026-02-23

你有没有发现这样一种现象:面对同一个问题,大模型可能在每次回答时都给出不同答案。一个不容忽视的问题是,这种不确定性,是否意味着推理仍不稳定?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

随着技术的发展,大模型在自然语言处理和多模态任务中已经表现出越来越强的性能。传统解码策略主要包括随机采样(random sample)和贪婪解码(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默认的是随机采样(random sample),即便是回答相同的问题,它们可能每次都会给出不同的答案。

而贪婪解码(greedy decoding)在一般的基准测试(benchmark)上表现会有所提升,特别是在推理性任务上。但是,模型在不确定情况下的表现仍不理想。

为解决上述问题,美国东北大学与 Adobe、美国凯斯西储大学联合团队提出了一种无需训练的新型解码策略,名为“谨慎下一步预测(CNTP,Cautious Next Token Prediction)”。

该策略旨在通过在模型不确定性高的步骤采样多个候选路径,并选择困惑度最低的路径。相较于随机采样和贪婪解码等传统策略,CNTP 显著提升了大模型在多种任务上的推理准确度,可应用场景包括语音助手、视觉助手、聊天机器人等。


图丨相关论文(来源:arXiv)

“我们的研究证明了 Transformer 模型下一个词元预测(next token prediction)的范式,有可能实现真正的智能。”该论文第一作者王亦周对 DeepTech 表示。他目前正在东北大学攻读博士学位,主要研究方向包括大模型、多模态模型和计算机视觉,即将加入 Adobe 担任研究科学家/工程师。


图丨王亦周(来源:王亦周)

Safe Superintelligence 公司创始人、前 OpenAI 首席科学家伊尔亚·苏茨克维(Ilya Sutskever)曾公开表示,如果模型足够强大,对下一个 token 的预测能力可能反映对世界的某种理解,这可能是实现更深层智能的关键路径。

也就是说,next token prediction 是智能的核心。要实现这一点,需要在模型内部进行强推理,再通过一系列计算预测下一个 token。

受此启发,研究团队从人类认知行为中寻找灵感:人在思考时,往往越谨慎回答,结果的准确率越高,那么大模型会不会也和人脑有类似的机制?

王亦周解释道:“这种过程类似于我们在参加考试时的解题过程,我们可能会先想下有哪些解法,然后从中挑选一种认为最有把握的方法,确认无误后再进行下一步,直到得到完整的证明。”


图丨 CNTP 方法概述(来源:arXiv)

这里的谨慎指的是,当面对不确定性的情况,需要多尝试几条不同的路径,然后选择一条最稳妥、最可信的路径。

研究团队用熵作为模型不确定性的衡量标准:熵越高越不可信。在自然语言处理(NLP)中,困惑度(perplexity)越低代表对答案越可信。因此在 CNTP 策略下,一旦熵值较高,模型会采样多个候选路径,并选择其中困惑度最低的一条,再一步步迭代。

研究人员通过消融研究证明,由于思维链推理的回答往往较长,每条路径长度也不同,如果算完整评估的困惑度无法很好地衡量答案的可靠性。基于此,他们采取了每到一句话的标点符号截止的方式来计算困惑度。相当于每句话、每个小的推理单元,即每个局部自洽能够实现较理想的效果。

为控制采样次数,研究团队通过设置最小熵 Hmin 和最大熵 Hmax 两个阈值和最大试验次数 Nmax。该方法在提高解码准确性的同时,还有效地限制了计算成本,避免了在每个步骤大量采样而带来的高计算开销。


(来源:arXiv)

在实验验证方面,该团队在数学推理(GSM8K、MATH)、常识推理(StrategyQA)和开放问答(TruthfulQA)等任务中证明,与包括贪婪解码、随机解码和束搜索在内的传统方法相比,CNTP 策略的结果更具优势。

例如,在 TruthfulQA 任务中,Llama-2-7B 在使用 CNTP 方法后,真实性准确率提升到了 84.8%,相较于随机解码提升 6.8%。

值得关注的是,CNTP 策略无需训练,仅解码即可直接实现提升性能。王亦周解释道:这种方法在某种程度上像“免费午餐”,尽管可能会带来更多的 token 消耗,但在实际应用中有很多优化的方法可解决该问题。


(来源:arXiv)

此外,该方法搭配自一致性(self-consistency)后,可进一步提升性能(注:自一致性是取多个样本,然后选一个出现频率最高的答案),且计算成本远低于后者。原因在于,利用多样性和随机性集思广益后,选取多数投票。

研究团队证明,每个样本也是越谨慎越好。“我们的方法会在一定程度上限制它的多样性,但通过调高温度可以解决这一点,所以它能进一步提升。”王亦周说。

此外,CNTP 策略具有较好的普适性,可用于广泛的对话任务。除了有固定答案的数学题或代码题,它也可以用于开放式问题,研究团队未来将尝试将该策略用于图像或视频生成。

该研究为大模型的推理优化提供了一种新思路,有望成为下一代解码策略的重要候选方案。

参考资料:

1.相关论文:https://arxiv.org/abs/2507.03038v2

2.code link:https://github.com/wyzjack/CNTP

排版:刘雅坤

来源:https://www.163.com/dy/article/KMFRHOVK05119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里林俊离职首文:AI迈向智能体式思考新阶段
科技数码
阿里林俊离职首文:AI迈向智能体式思考新阶段

AI正在走向“为了采取正确行动而思考”。编译整理|莘歆来源 | 盒饭财经(ID:daxiongfan)头图及封面来源 | 网络及即梦制作在X(推特)上宣布离职后的22天,林俊旸发了一篇长文。3月2

热心网友
03.27
智能化如何主导未来?林俊峪离职后首次撰文深思
科技数码
智能化如何主导未来?林俊峪离职后首次撰文深思

3月26日晚间,前千问大模型技术负责人林俊旸在社交平台发文,在从阿里离职后,他首度发布长文详谈自己对大模型发展路线的理解及对AI下一阶段的预判。林俊旸表示,过去两年重塑了行业对大模型的评估方式与核心

热心网友
03.27
林俊烨离职首谈千问复盘:AI之路的反思与未来指向
AI
林俊烨离职首谈千问复盘:AI之路的反思与未来指向

梦晨 发自 凹非寺量子位 | 公众号 QbitAI林俊旸,离职阿里千问后首次发声。他没有回应离职风波或宣告去向,而是发长文探讨从“推理模型时代的思考”到“智能体时代的思考”的转变。整篇文章谈的是技术

热心网友
03.27
罗福莉:AI自进化或使Token两年内实现百倍增长
科技数码
罗福莉:AI自进化或使Token两年内实现百倍增长

“推理需求在过去一段时间内已经近十倍的增长,今年整体Token增长会不会到100倍?”会议现场。澎湃新闻记者 范佳来 摄3月27日,在2026中关村论坛上,最近外界颇为关注的“AI才女”、小米MiM

热心网友
03.27
林俊灏离职后首度长文:阿里千问负责人谈模型到智能体转折
科技数码
林俊灏离职后首度长文:阿里千问负责人谈模型到智能体转折

3月26日,原阿里通义千问(Qwen)技术负责人林俊旸(Justin Lin)在社交平台上发布了一篇题为“From ‘Reasoning’ Thinking to‘Agentic’ Thinking

热心网友
03.27

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

猎豹浏览器免安装网页版:在线云端使用入口与教程
电脑教程
猎豹浏览器免安装网页版:在线云端使用入口与教程

猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆

热心网友
03.27
昆仑万维发布三大世界第一梯队AI模型
科技数码
昆仑万维发布三大世界第一梯队AI模型

据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels

热心网友
03.27
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻
科技数码
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻

本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2

热心网友
03.27
Anthropic核心模型意外泄露,网络安全股面临冲击风险
科技数码
Anthropic核心模型意外泄露,网络安全股面临冲击风险

Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向

热心网友
03.27
Token经济到来,解析互联网大厂的布局与冷思考
科技数码
Token经济到来,解析互联网大厂的布局与冷思考

3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长

热心网友
03.27