首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
哥德堡大学团队突破语言限制,重新定义AI交互

哥德堡大学团队突破语言限制,重新定义AI交互

热心网友
25
转载
2025-12-16


这项由瑞典哥德堡大学(Chalmers University of Technology)和哥德堡大学(University of Gothenburg)的岳忠琪(Zhongqi Yue)和弗雷德里克·约翰松(Fredrik D. Johansson)领导,与SAP公司王维石(Weishi Wang)、丹尼尔·达尔迈尔(Daniel Dahlmeier)以及浙江大学詹云大川(Yundaichuan Zhan)、李俊城(Juncheng Li)等学者合作完成的研究,发表于2025年10月的人工智能顶级会议论文集。该研究提出了一种全新的ExpA(Expanded Action)框架和EARL(ExpA Reinforcement Learning)算法,首次让大语言模型能够直接与外部环境交互,而不是仅仅依靠文本描述。有兴趣深入了解的读者可以通过论文编号arXiv:2510.07581v2查询完整论文。

目前的大语言模型就像一个被关在图书馆里的博学者,虽然知识渊博,但想要操作外界的工具时,只能通过写纸条的方式来表达意图。比如当它需要进行数学计算时,必须写出"请帮我计算12+34"这样的文字指令,然后等待外部程序解析这些文字,再执行相应操作。这种方式不仅效率低下,还容易出错,就像隔着一层厚厚的玻璃与世界互动。

研究团队发现了这个根本性问题:现有的大语言模型将语言推理和环境操作混合在一起,导致模型既要思考问题,又要学会如何用特定的格式表达操作指令。这就好比让一个厨师在做菜的同时,还要学会用密码来告诉助手拿哪个调料,既增加了复杂度,又降低了效率。更重要的是,这种方式需要为每种新工具编写专门的解析程序,限制了模型的灵活性和扩展能力。

哥德堡大学的研究团队提出了一个革命性的解决方案:ExpA框架。这个框架的核心思想是让AI模型拥有两套完全不同的"行动能力"。第一套是传统的语言能力,用于思考和推理,就像人类的大脑思维活动。第二套则是全新的"直接行动能力",让模型能够像人类使用手脚一样,直接操控外部工具和环境。

ExpA框架的工作原理可以用一个生动的比喻来理解。传统的大语言模型就像一个只会写信的人,想要使用计算器时必须写信说"请帮我按1,再按+,再按2,再按等号"。而ExpA框架下的模型则像一个真正的人,既可以用大脑思考,也可以直接伸手按计算器上的按钮。当模型在语言环境中思考时,它会正常进行推理和分析。但当需要使用外部工具时,它可以发出一个"路由指令",直接切换到工具操作模式,然后像人类一样直接操控工具。

这种设计的巧妙之处在于完全分离了思考和行动两个过程。模型在思考时专心思考,不用担心如何表达操作指令;在操作工具时专心操作,不用将注意力分散到语言表达上。这就像让厨师专心做菜,让助手专心递工具,各司其职,效率自然大大提升。

然而,拥有新的行动能力还不够,关键是如何让模型学会在合适的时候使用这些能力。就像给一个人新的工具,他需要练习才能熟练使用。研究团队为此开发了EARL算法,这是一种专门的强化学习方法,帮助模型学会何时以及如何使用新的行动能力。

EARL算法的创新之处在于使用了"反事实学习"的策略。简单来说,就是让模型不仅要学会成功的经验,还要学会"如果当时我选择了另一种方法会怎样"。这就像一个学习下棋的人,不仅要记住获胜的棋局,还要思考"如果我刚才选择了另一步棋,结果会不会更好"。通过这种方式,模型能够更全面地探索各种可能性,发现那些容易被忽视但实际很有用的操作策略。

为了验证这个框架的有效性,研究团队设计了两套完全不同类型的测试任务。第一套是Calc-Bench测试,就像给AI一个功能完整的计算器,看它能否学会正确使用。这套测试包含了从简单的算术运算到复杂的数学推理等多种挑战。第二套是排序测试,更像一个智力游戏:给AI一堆看不见具体数值的物品,它只能通过"比较"和"交换"两种操作来将它们排序。

在Calc-Bench测试中,传统方法的表现就像一个不太熟练的计算器使用者,经常出现按错键或者不知道何时该使用计算器的情况。而使用ExpA框架的模型表现得像一个经验丰富的数学家,不仅能准确使用计算器,还能根据问题的复杂程度灵活决策。在最具挑战性的Countdown任务中,ExpA框架的成功率比传统方法高出了26.3%,这相当于从勉强及格提升到了优秀水平。

更令人惊喜的是排序测试的结果。在这个看似简单但实际极其复杂的任务中,ExpA框架不仅达到了完美的准确率,还自主发现了一种高效的排序算法。这个算法的效率甚至可以与经典的计算机排序算法相媲美,展现了AI系统的创造性学习能力。研究团队将这个AI发现的算法命名为EARL*,它的运行效率非常接近理论最优值。

这种创造性体现在算法的设计策略上。EARL*采用了一种"支点比较"的策略,首先选择一个元素作为参考点,然后依次与其他元素比较,根据比较结果构建排序关系,最后通过最少的交换次数完成排序。这种策略的优雅之处在于它能够根据比较结果动态调整后续的比较计划,避免不必要的重复比较。

研究团队还深入分析了ExpA框架成功的原因。他们发现,传统方法在处理复杂任务时容易陷入"语言混乱",即模型在思考问题的同时还要分心处理如何表达操作指令,导致两方面都做不好。而ExpA框架通过清晰的职责分离,让模型在语言推理时能够使用更多样化的"规划短语",比如"这个结果离目标还很远"或"让我们尝试不同的组合"等,显示出更强的逻辑思维能力。

从技术实现的角度来看,ExpA框架的设计非常巧妙。当模型需要从语言环境切换到工具操作环境时,系统会自动在对话历史中添加相应的描述信息,比如"开始使用计算器"。这样既保持了对话的连贯性,又明确标记了操作的边界。同时,新的操作能力通过扩展模型的"行动词汇表"来实现,这些新词汇的初始权重设置为与其对应描述词相同,确保模型能够快速适应新的操作方式。

研究团队还特别关注了模型的泛化能力,即学会使用一种工具后能否快速适应其他类似工具。实验结果显示,ExpA框架具有良好的迁移学习能力。当模型学会使用基础计算器后,面对科学计算器或其他数学工具时,能够快速掌握新功能,而不需要从零开始重新训练。

这项研究的意义远不止于技术层面的突破。它预示着AI系统与人类协作方式的根本性变革。在不久的将来,AI助手可能不再局限于回答问题和生成文本,而是能够直接帮助我们操作各种软件工具、控制智能设备,甚至协助完成复杂的创造性任务。

从实用性角度考虑,ExpA框架为AI应用开发者提供了一个全新的工具箱。开发者不再需要为每个新工具编写复杂的文本解析程序,只需要定义工具的基本操作接口,AI就能够学会使用。这大大降低了AI应用的开发难度,也提高了系统的可靠性和扩展性。

研究团队也坦诚地讨论了当前工作的局限性。由于计算资源的限制,他们的实验主要基于较小规模的模型(最大70亿参数),ExpA框架在更大规模模型上的表现还有待进一步验证。此外,当前的测试环境相对简单,如何在更复杂、更真实的环境中应用这个框架,仍然是一个开放性问题。

另一个值得关注的研究方向是如何优化新操作能力的初始化策略。目前的方法虽然有效,但在面对完全陌生的工具时可能需要较长的学习时间。研究团队正在探索更智能的初始化方法,希望能够让AI系统更快地适应全新的工具和环境。

展望未来,ExpA框架可能会成为下一代AI系统的标准配置。我们可以想象这样的场景:AI写作助手不仅能够生成文章,还能直接操作文档编辑软件进行排版;AI数据分析师不仅能够解读数据趋势,还能直接操作分析工具生成图表;AI设计助手不仅能够提供创意建议,还能直接使用设计软件实现想法。

这种技术进步也提出了新的思考题。当AI系统拥有直接操控工具的能力时,如何确保操作的安全性和可控性?如何在提高效率的同时避免过度依赖AI?这些问题需要技术专家、伦理学家和政策制定者共同探讨解决方案。

哥德堡大学这项研究的真正价值在于它开辟了一个全新的研究方向。ExpA框架不仅仅是一个技术改进,更是对AI系统能力边界的重新定义。它告诉我们,AI的未来不仅在于理解和生成语言,更在于与物理世界和数字世界的直接交互。这种交互能力的获得,标志着AI系统向真正的通用人工智能又迈进了重要一步。

说到底,这项研究为我们描绘了一个令人兴奋的未来图景:AI不再是被动的问答工具,而是主动的协作伙伴,能够理解我们的需求,并直接帮助我们完成各种任务。虽然这个未来还需要更多的技术突破和实践验证,但ExpA框架无疑为我们指明了正确的方向。对于那些关注AI技术发展趋势的读者来说,这项研究提供了宝贵的前瞻性见解,值得持续关注其后续发展。

Q&A

Q1:ExpA框架和传统大语言模型有什么本质区别?

A:传统大语言模型只能通过文本与外部工具交互,就像只会写纸条指挥别人操作。ExpA框架让AI拥有两套能力:既能用语言思考,也能直接操控工具,就像人类既能用大脑思考也能用手操作一样。

Q2:EARL算法的反事实学习是怎么工作的?

A:EARL算法让AI不仅学习成功经验,还会思考"如果当时选择另一种方法会怎样"。这就像下棋高手不仅记住获胜棋局,还会反思其他走法的可能性,从而更全面地探索各种策略。

Q3:ExpA框架在实际应用中有哪些优势?

A:ExpA框架最大的优势是效率和准确性的双重提升。在数学计算任务中成功率提高了26.3%,在排序任务中甚至发现了接近理论最优的算法。更重要的是,它为每种新工具都不需要编写专门的解析程序。

来源:https://www.163.com/dy/article/KGTRCPTN0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

警惕人工智能依赖 避免大脑能力退化
业界动态
警惕人工智能依赖 避免大脑能力退化

科学家警告,过度依赖人工智能可能削弱创造力与批判性思维,类似GPS损害方向感。研究显示,AI替代需“认知摩擦”的思考过程,或导致认知能力衰退。专家建议应有意识使用AI,使其成为思维“扩音器”而非替代品,例如先自主判断、加深信息处理、主动创意构思,以保护并锻炼大脑独特能力。

热心网友
05.18
谷歌阿里微软云端AI决战 云电脑迎来行业新机遇
业界动态
谷歌阿里微软云端AI决战 云电脑迎来行业新机遇

谷歌推出云端AI驱动的安卓电脑,重塑PC形态。当前AIPC多依赖云端算力,本地硬件价值受质疑。云电脑与AI结合成为新方向,对网络延迟更宽容。谷歌联合硬件伙伴推进该方案,阿里等云服务商也已布局。传统芯片、终端厂商及微软、苹果正以不同策略应对AIPC趋势。未来竞争将聚焦云端能力、系统重构与生态协。

热心网友
05.18
企业数字化转型全流程解析:从战略规划到AI智能体落地
业界动态
企业数字化转型全流程解析:从战略规划到AI智能体落地

结论先行:在2026年的商业环境中,企业数字化转型方法的核心不再是单纯的IT系统堆砌,而是“业务流程自动化”与“AI智能化”的深度融合。成功的数字化转型方法论应遵循“小步快跑、场景切入、数据驱动”的原则,利用AI Agent(智能体)技术打通烟囱式系统,实现平滑升级,而非推倒重来。 一、 拒绝假大空

热心网友
05.18
产品设计软件推荐与选择指南
业界动态
产品设计软件推荐与选择指南

面对琳琅满目的产品设计软件,许多设计师和团队都在追问:究竟哪一款才是最好的选择?然而,真正的答案并非一个简单的软件名称,而是一套基于您具体工作流程的适配逻辑。本文将为您系统解析,如何跳出“最好”的迷思,找到最“对”的那款工具,从而最大化团队效率与产出价值。 核心决策逻辑 首先,我们必须确立一个核心原

热心网友
05.18
跨境电商售后难题的智能客服解决方案
业界动态
跨境电商售后难题的智能客服解决方案

跨境电商的售后环节,本质上是客户信任的二次考验。当问题出现时,初次交易建立的信任已然动摇,若处理不当,将直接导致客户永久流失。因此,构建一套真正高效的售后体系,必须实现三大核心目标:响应速度需如本地支付般即时;处理规则需预先设定,实现小额纠纷的自动化化解;最终,所有流程数据必须形成闭环,驱动供应链的

热心网友
05.18