首页 游戏 软件 资讯 排行榜 专题
首页
AI
南京大学破解AI推理成本难题:让聊天机器人更聪明更省钱

南京大学破解AI推理成本难题:让聊天机器人更聪明更省钱

热心网友
50
转载
2026-05-13

与ChatGPT这类AI对话时,你肯定注意到过,它们总喜欢把思考过程一步步“掰开揉碎”讲给你听。这种被称为“链式思考”的能力,确实让回答显得更可靠。但凡事都有代价,这种“碎碎念”式的推理,正在让AI的运营成本一路飙升。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

南京大学等机构揭秘AI推理成本难题:如何让聊天机器人既聪明又省钱

最近,一项由南京大学、罗格斯大学和马萨诸塞大学阿默斯特分校联合开展的研究,为这个难题提供了新思路。这项发表于arXiv预印本平台(论文编号:arXiv:2412.18547v5)的研究发现,当前大语言模型的推理过程存在严重的“词汇冗余”——简单说,就是说了太多“正确的废话”。

有趣的是,研究团队发现,如果给AI设定一个合理的“用词预算”,它反而能在保持准确性的同时,大幅精简语言。基于此,他们开发了一套名为TALE的智能推理框架,能根据问题难度,动态调整AI的“话语量”。

一、AI推理中的“废话”现象

举个例子,当你问AI一个数学问题:“佩顿安排了一系列课后活动,包括周一1小时的瑜伽课,周二一个时长为周一瑜伽课9倍的烹饪课,周三半小时的奶酪品鉴活动,周四一个时长为烹饪课一半的博物馆参观,以及周五2小时的杂事。所有这些活动总共需要多长时间?”

如果直接问,GPT-4o-mini可能只丢给你一个干巴巴的答案:“12.5小时”,仅用15个词。但如果你加上“让我们逐步思考”的提示,它会展开一段长达258个词的详细推理。这就像问路时,一个指路者从城市历史讲起,而另一个只告诉你“左转”。

更值得玩味的是“词汇弹性”现象。研究发现,如果在提示中加入“请用不超过50个词汇回答”的预算,AI的回答会精炼到86个词。但如果预算卡得太死,比如“不超过10个词汇”,AI反而会“叛逆”,最终用了157个词,几乎是前者的两倍。这就像给习惯了长篇大论的人一张便利贴,空间太小,他可能索性放弃限制,写得比原来还长。

二、寻找最优的“话语预算”

那么,如何为每个问题找到那个“刚刚好”的词汇预算呢?研究团队开发了一种搜索算法,其核心基于一个“隐式单调性假设”。通俗讲,就是假设:如果AI在某个词汇预算下答错了,那么在更少的预算下它大概率也会错;反之,如果在某个预算下答对了,给更多预算它也能对。这就像爬楼梯,如果你在第10级就累了,那第15级肯定更累;如果你能轻松到第20级,那第15级自然不在话下。

测试显示,在数学数据集GSM8K上,超过90%的问题都符合这个假设。算法采用二分法快速定位最优预算:从AI无限制推理的词汇量开始,像猜数字游戏一样逐步缩小范围,直到找到既能保证答案正确,又能最小化实际用词量的那个“甜蜜点”。

这里有个关键:最小的可行预算不等于最优预算。预算过紧会触发前述的“词汇弹性”,导致AI“摆烂”。因此,改进后的算法不仅要求答案正确,还要求实际用词量比搜索的预算更少,从而找到真正能降低成本的有效预算。

三、两种解决方案:估算提示法与后训练法

基于上述发现,TALE框架提供了两种实现路径,好比解决交通拥堵,既可以用实时导航智能调度,也可以重新规划道路设计。

第一种是“估算提示法”(TALE-EP)。它的工作原理很像一位经验丰富的老师,能快速判断一道题需要多长的解答篇幅。面对新问题时,系统先让AI自己估算回答所需的词汇量,使用的提示词是:“分析给定问题并估算生成完整准确回答所需的最少词汇数量。请严格按照以下格式回答:预算:[[数字]]”。

这种方法巧妙利用了AI自身的判断力。结果显示,像GPT-4o-mini这样的先进模型,其估算通常非常接近通过复杂搜索找到的最优预算。

第二种是“后训练法”(TALE-PT)。这好比重新训练一位司机养成节油驾驶习惯。它分两步:先用搜索算法为海量问题找到最优词汇预算,生成“精炼版”答案;然后用这些答案去重新训练AI模型,让它学会自然而然地输出简洁推理。

后训练具体有两种方式:一是“监督微调”,直接让AI学习精炼答案;二是“直接偏好优化”,让AI比较冗长版和精炼版,学会偏好更简洁的表达。

四、实验验证与效果评估

研究团队在GSM8K、MathBench等多个数学推理数据集上验证了TALE的效果,结果相当亮眼。

以GPT-4o-mini为例,传统的链式推理平均准确率为83.75%,但每个样本平均要“唠叨”461.25个词,成本为289.78个单位。而采用TALE-EP后,准确率仅微降至81.03%,但每个样本用词量锐减至148.72个,成本降至118.46,降幅达59%。

更有意思的是,在GSM8K数据集上,TALE-EP的准确率(84.46%)甚至超过了传统方法(81.35%),同时用词量从318.10大幅减少到77.26。这相当于找到了一条既更快又更省油的新路线。

这种效果具有普适性。在Yi-lightning、GPT-4o等其他主流模型上,TALE-EP均实现了显著的成本节约。例如在GPT-4o上,用词量从602.29减至181.61,成本从1359.42大幅降至759.95。

后训练方法同样有效。经过监督微调的模型,在GSM8K上的用词量降至139.63(准确率78.57%),相比传统方法的241.51个词,节省了约40%的“口水”。

五、方法的局限性与未来展望

当然,任何新技术都有其边界。研究团队也坦诚指出了TALE框架当前的几点局限。

首先,它主要针对纯文本输入输出的模型进行了优化。对于能同时处理图像、音频的多模态AI,现有方法还需扩展适配。这就像汽车的节油技术,要应用到飞机上还得再做改进。

其次,估算提示法(TALE-EP)在实际部署时,需要先进行一次额外的预算估算查询,这会带来轻微延迟。但数据显示,这种延迟是可接受的:TALE-EP处理每个样本平均需2.3秒,反而比传统方法的10.2秒快得多,因为节省下来的推理时间远超过估算时间。

对于后训练法(TALE-PT),虽然需要一次性的离线训练成本(例如在GSM8K数据集上搜索最优预算约需354分钟A100 GPU时间),但这是一劳永逸的投入,训练完成后即可直接享受节约效果。

此外,那项关键的“隐式单调性假设”仍有约10%的情况不成立,意味着对于少数特别复杂的问题,搜索算法可能找不到真正的最优解。未来的改进可以针对这些“硬骨头”设计更精细的策略。

从更广阔的视角看,这项研究开辟了一个新方向:如何在保持AI能力的同时,极致优化其计算效率。随着AI向手机、物联网设备等资源受限环境普及,这种“既要聪明又要省钱”的需求将愈发迫切。TALE框架的思路,未来很可能启发文本之外的其他AI任务优化。

研究团队表示,下一步将重点攻克多模态内容的预算分配问题。例如,对于能同时生成文案和配图的AI,如何合理分配“文字预算”和“图像复杂度预算”,将是值得深入探索的课题。

归根结底,这项研究揭示了一个朴素却深刻的道理:智能不等于冗长,真正的智慧往往体现在精炼之中。TALE框架让我们看到,让AI“少说废话”不仅能大幅降低成本,有时甚至能让推理更清晰、结果更准确。当AI能以更少的资源消耗提供同等优质的服务时,其技术的普及门槛将显著降低,从而加速整个社会的数字化进程。

Q&A

Q1:TALE框架是如何工作的?
A:TALE框架通过两种核心方式优化AI推理:一是“估算提示法”,让AI先自行估算所需词汇量并设限;二是“后训练法”,用精炼答案重新训练模型,使其养成简洁表达的习惯。

Q2:使用TALE框架会不会影响AI回答的准确性?
A:实验数据显示,在准确率仅轻微下降(约3%)的情况下,TALE能将词汇使用量减少高达67%,成本降低59%。在某些数学问题上,因其去除了冗余信息,推理更聚焦,准确率反而有所提升。

Q3:TALE框架适用于所有类型的AI模型吗?
A:目前,TALE主要在GPT-4o-mini、Yi-lightning等文本类大模型上验证有效。对于能处理图像、音频的多模态AI系统,其应用还需要进一步的研究和适配。

来源:https://www.techwalker.com/2026/0309/3180554.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

德国科学家发现AI安全神经元让聊天机器人更可控
AI
德国科学家发现AI安全神经元让聊天机器人更可控

如何让AI聊天机器人既智能又安全,是当前人工智能领域的关键挑战。近日,德国达姆施塔特工业大学的研究团队在这一难题上取得了突破性进展。其研究成果已发表于计算机安全顶级会议,论文编号arXiv:2602 16835v1,为解决大语言模型的安全对齐问题提供了革命性的新方案。 当前主流的大型语言模型,虽然知

热心网友
05.13
苹果今年将发布两款新iPhone应用,包含聊天机器人
科技数码
苹果今年将发布两款新iPhone应用,包含聊天机器人

预计苹果今年将发布两款新的 iPhone 应用,包括 Apple Business 应用和一款具备类似聊天机器人功能的 Siri 应用。借助 Apple Business 应用,使用全新 Apple

热心网友
03.29
德国科学家发现AI大脑安全核心,让聊天机器人更可控
科技数码
德国科学家发现AI大脑安全核心,让聊天机器人更可控

想要让人工智能聊天机器人既聪明又听话,就像训练一只既能抓老鼠又不会乱咬人的猫一样困难。最近,德国达姆施塔特工业大学的研究团队在这个领域取得了重要突破。他们的研究成果发表在2026年2月的计算机安全顶

热心网友
02.24
AI聊天机器人向弱势群体提供信息的准确性研究
科技数码
AI聊天机器人向弱势群体提供信息的准确性研究

IT之家 2 月 24 日消息,大型语言模型一直被广泛推崇为具有革命性的工具,能够让全球信息获取变得更加普惠。然而,美国麻省理工学院建设性传播中心的一项最新研究表明,这些人工智能系统,在本应最能从中

热心网友
02.24
抢占印度AI市场:Sarvam推出本土聊天机器人Indus
科技数码
抢占印度AI市场:Sarvam推出本土聊天机器人Indus

IT之家 2 月 24 日消息,作为当前的全球第一人口大国,印度拥有庞大的人工智能潜在市场,各大跨国企业正以多种方式深耕这片“蓝海”。而在这一背景下,印度 AI 企业 Sarvam 也推出了其聊天机

热心网友
02.24

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

RPA机器人如何应对复杂决策场景
业界动态
RPA机器人如何应对复杂决策场景

当RPA机器人面临复杂决策场景时,企业通常可以采取以下几种经过验证的有效策略来应对,确保自动化流程的顺畅与准确。 借助人工智能技术 一种广泛应用的解决方案是将RPA与人工智能技术深度融合,特别是机器学习与自然语言处理。通过集成AI的预测分析与模式识别能力,RPA能够处理非结构化数据并应对模糊的业务情

热心网友
05.13
智能制造与人工智能融合应用策略指南
业界动态
智能制造与人工智能融合应用策略指南

当智能制造与人工智能技术深度融合,这不仅是两种前沿科技的简单叠加,更是一场旨在重塑全球制造业竞争格局的系统性变革。其核心目标在于,通过深度嵌入人工智能等前沿技术,全面提升制造业的智能化水平、生产效率与国际竞争力。那么,如何有效推进这场深度融合?以下六大关键策略构成了清晰的行动路线图。 1 加强关键

热心网友
05.13
RPA机器人上线后如何持续优化提升性能
业界动态
RPA机器人上线后如何持续优化提升性能

对于已经部署了RPA的企业而言,项目上线远不是终点。要让自动化投资持续产生价值,对机器人性能进行持续优化是关键。这就像保养一台精密的机器,定期维护和调校,才能确保其长期高效、稳定地运行。 那么,具体可以从哪些方面着手呢?以下是一些经过验证的优化方向。 一、并行处理与任务分解 首先,看看任务执行本身。

热心网友
05.13
分布式数据采集系统架构设计与实现方案
业界动态
分布式数据采集系统架构设计与实现方案

面对海量数据源的高效抓取需求,分布式数据采集架构已成为业界公认的核心解决方案。该架构通过精巧的设计,协调多个采集节点并行工作,并将数据汇聚至中央处理单元,最终实现数据的集中分析与深度洞察。这套系统看似复杂,但其核心原理可拆解为几个关键组件的协同运作。 一、系统核心组成 一套典型的分布式数据采集系统,

热心网友
05.13
Gate.io注册奖励与邀请页开户页区别详解 新手必看指南
web3.0
Gate.io注册奖励与邀请页开户页区别详解 新手必看指南

Gate io平台活动页面多样,新手易混淆注册奖励、邀请与正常开户页。本文梳理三者核心区别:注册奖励页通常含专属链接与限时福利;邀请页强调社交分享与返利机制;正常开户页则提供基础功能与安全验证。清晰辨识有助于用户高效参与活动,避免错过权益或操作失误,提升在Web3领域的入门体验。

热心网友
05.13