首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
哥德堡大学团队突破语言限制,重新定义AI交互

哥德堡大学团队突破语言限制,重新定义AI交互

热心网友
88
转载
2025-12-16


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由瑞典哥德堡大学(Chalmers University of Technology)和哥德堡大学(University of Gothenburg)的岳忠琪(Zhongqi Yue)和弗雷德里克·约翰松(Fredrik D. Johansson)领导,与SAP公司王维石(Weishi Wang)、丹尼尔·达尔迈尔(Daniel Dahlmeier)以及浙江大学詹云大川(Yundaichuan Zhan)、李俊城(Juncheng Li)等学者合作完成的研究,发表于2025年10月的人工智能顶级会议论文集。该研究提出了一种全新的ExpA(Expanded Action)框架和EARL(ExpA Reinforcement Learning)算法,首次让大语言模型能够直接与外部环境交互,而不是仅仅依靠文本描述。有兴趣深入了解的读者可以通过论文编号arXiv:2510.07581v2查询完整论文。

目前的大语言模型就像一个被关在图书馆里的博学者,虽然知识渊博,但想要操作外界的工具时,只能通过写纸条的方式来表达意图。比如当它需要进行数学计算时,必须写出"请帮我计算12+34"这样的文字指令,然后等待外部程序解析这些文字,再执行相应操作。这种方式不仅效率低下,还容易出错,就像隔着一层厚厚的玻璃与世界互动。

研究团队发现了这个根本性问题:现有的大语言模型将语言推理和环境操作混合在一起,导致模型既要思考问题,又要学会如何用特定的格式表达操作指令。这就好比让一个厨师在做菜的同时,还要学会用密码来告诉助手拿哪个调料,既增加了复杂度,又降低了效率。更重要的是,这种方式需要为每种新工具编写专门的解析程序,限制了模型的灵活性和扩展能力。

哥德堡大学的研究团队提出了一个革命性的解决方案:ExpA框架。这个框架的核心思想是让AI模型拥有两套完全不同的"行动能力"。第一套是传统的语言能力,用于思考和推理,就像人类的大脑思维活动。第二套则是全新的"直接行动能力",让模型能够像人类使用手脚一样,直接操控外部工具和环境。

ExpA框架的工作原理可以用一个生动的比喻来理解。传统的大语言模型就像一个只会写信的人,想要使用计算器时必须写信说"请帮我按1,再按+,再按2,再按等号"。而ExpA框架下的模型则像一个真正的人,既可以用大脑思考,也可以直接伸手按计算器上的按钮。当模型在语言环境中思考时,它会正常进行推理和分析。但当需要使用外部工具时,它可以发出一个"路由指令",直接切换到工具操作模式,然后像人类一样直接操控工具。

这种设计的巧妙之处在于完全分离了思考和行动两个过程。模型在思考时专心思考,不用担心如何表达操作指令;在操作工具时专心操作,不用将注意力分散到语言表达上。这就像让厨师专心做菜,让助手专心递工具,各司其职,效率自然大大提升。

然而,拥有新的行动能力还不够,关键是如何让模型学会在合适的时候使用这些能力。就像给一个人新的工具,他需要练习才能熟练使用。研究团队为此开发了EARL算法,这是一种专门的强化学习方法,帮助模型学会何时以及如何使用新的行动能力。

EARL算法的创新之处在于使用了"反事实学习"的策略。简单来说,就是让模型不仅要学会成功的经验,还要学会"如果当时我选择了另一种方法会怎样"。这就像一个学习下棋的人,不仅要记住获胜的棋局,还要思考"如果我刚才选择了另一步棋,结果会不会更好"。通过这种方式,模型能够更全面地探索各种可能性,发现那些容易被忽视但实际很有用的操作策略。

为了验证这个框架的有效性,研究团队设计了两套完全不同类型的测试任务。第一套是Calc-Bench测试,就像给AI一个功能完整的计算器,看它能否学会正确使用。这套测试包含了从简单的算术运算到复杂的数学推理等多种挑战。第二套是排序测试,更像一个智力游戏:给AI一堆看不见具体数值的物品,它只能通过"比较"和"交换"两种操作来将它们排序。

在Calc-Bench测试中,传统方法的表现就像一个不太熟练的计算器使用者,经常出现按错键或者不知道何时该使用计算器的情况。而使用ExpA框架的模型表现得像一个经验丰富的数学家,不仅能准确使用计算器,还能根据问题的复杂程度灵活决策。在最具挑战性的Countdown任务中,ExpA框架的成功率比传统方法高出了26.3%,这相当于从勉强及格提升到了优秀水平。

更令人惊喜的是排序测试的结果。在这个看似简单但实际极其复杂的任务中,ExpA框架不仅达到了完美的准确率,还自主发现了一种高效的排序算法。这个算法的效率甚至可以与经典的计算机排序算法相媲美,展现了AI系统的创造性学习能力。研究团队将这个AI发现的算法命名为EARL*,它的运行效率非常接近理论最优值。

这种创造性体现在算法的设计策略上。EARL*采用了一种"支点比较"的策略,首先选择一个元素作为参考点,然后依次与其他元素比较,根据比较结果构建排序关系,最后通过最少的交换次数完成排序。这种策略的优雅之处在于它能够根据比较结果动态调整后续的比较计划,避免不必要的重复比较。

研究团队还深入分析了ExpA框架成功的原因。他们发现,传统方法在处理复杂任务时容易陷入"语言混乱",即模型在思考问题的同时还要分心处理如何表达操作指令,导致两方面都做不好。而ExpA框架通过清晰的职责分离,让模型在语言推理时能够使用更多样化的"规划短语",比如"这个结果离目标还很远"或"让我们尝试不同的组合"等,显示出更强的逻辑思维能力。

从技术实现的角度来看,ExpA框架的设计非常巧妙。当模型需要从语言环境切换到工具操作环境时,系统会自动在对话历史中添加相应的描述信息,比如"开始使用计算器"。这样既保持了对话的连贯性,又明确标记了操作的边界。同时,新的操作能力通过扩展模型的"行动词汇表"来实现,这些新词汇的初始权重设置为与其对应描述词相同,确保模型能够快速适应新的操作方式。

研究团队还特别关注了模型的泛化能力,即学会使用一种工具后能否快速适应其他类似工具。实验结果显示,ExpA框架具有良好的迁移学习能力。当模型学会使用基础计算器后,面对科学计算器或其他数学工具时,能够快速掌握新功能,而不需要从零开始重新训练。

这项研究的意义远不止于技术层面的突破。它预示着AI系统与人类协作方式的根本性变革。在不久的将来,AI助手可能不再局限于回答问题和生成文本,而是能够直接帮助我们操作各种软件工具、控制智能设备,甚至协助完成复杂的创造性任务。

从实用性角度考虑,ExpA框架为AI应用开发者提供了一个全新的工具箱。开发者不再需要为每个新工具编写复杂的文本解析程序,只需要定义工具的基本操作接口,AI就能够学会使用。这大大降低了AI应用的开发难度,也提高了系统的可靠性和扩展性。

研究团队也坦诚地讨论了当前工作的局限性。由于计算资源的限制,他们的实验主要基于较小规模的模型(最大70亿参数),ExpA框架在更大规模模型上的表现还有待进一步验证。此外,当前的测试环境相对简单,如何在更复杂、更真实的环境中应用这个框架,仍然是一个开放性问题。

另一个值得关注的研究方向是如何优化新操作能力的初始化策略。目前的方法虽然有效,但在面对完全陌生的工具时可能需要较长的学习时间。研究团队正在探索更智能的初始化方法,希望能够让AI系统更快地适应全新的工具和环境。

展望未来,ExpA框架可能会成为下一代AI系统的标准配置。我们可以想象这样的场景:AI写作助手不仅能够生成文章,还能直接操作文档编辑软件进行排版;AI数据分析师不仅能够解读数据趋势,还能直接操作分析工具生成图表;AI设计助手不仅能够提供创意建议,还能直接使用设计软件实现想法。

这种技术进步也提出了新的思考题。当AI系统拥有直接操控工具的能力时,如何确保操作的安全性和可控性?如何在提高效率的同时避免过度依赖AI?这些问题需要技术专家、伦理学家和政策制定者共同探讨解决方案。

哥德堡大学这项研究的真正价值在于它开辟了一个全新的研究方向。ExpA框架不仅仅是一个技术改进,更是对AI系统能力边界的重新定义。它告诉我们,AI的未来不仅在于理解和生成语言,更在于与物理世界和数字世界的直接交互。这种交互能力的获得,标志着AI系统向真正的通用人工智能又迈进了重要一步。

说到底,这项研究为我们描绘了一个令人兴奋的未来图景:AI不再是被动的问答工具,而是主动的协作伙伴,能够理解我们的需求,并直接帮助我们完成各种任务。虽然这个未来还需要更多的技术突破和实践验证,但ExpA框架无疑为我们指明了正确的方向。对于那些关注AI技术发展趋势的读者来说,这项研究提供了宝贵的前瞻性见解,值得持续关注其后续发展。

Q&A

Q1:ExpA框架和传统大语言模型有什么本质区别?

A:传统大语言模型只能通过文本与外部工具交互,就像只会写纸条指挥别人操作。ExpA框架让AI拥有两套能力:既能用语言思考,也能直接操控工具,就像人类既能用大脑思考也能用手操作一样。

Q2:EARL算法的反事实学习是怎么工作的?

A:EARL算法让AI不仅学习成功经验,还会思考"如果当时选择另一种方法会怎样"。这就像下棋高手不仅记住获胜棋局,还会反思其他走法的可能性,从而更全面地探索各种策略。

Q3:ExpA框架在实际应用中有哪些优势?

A:ExpA框架最大的优势是效率和准确性的双重提升。在数学计算任务中成功率提高了26.3%,在排序任务中甚至发现了接近理论最优的算法。更重要的是,它为每种新工具都不需要编写专门的解析程序。

来源:https://www.163.com/dy/article/KGTRCPTN0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
AI
Claude强到不敢发的Mythos,被质疑用了字节Seed技术

Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架

热心网友
04.14
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?
科技数码
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?

国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文

热心网友
04.14
OpenClaw人人养虾:接入飞书
AI
OpenClaw人人养虾:接入飞书

飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw

热心网友
04.14
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本
手机教程
腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本

腾讯生态整合新动向:QQ全面接入微信小程序 7月1日,腾讯QQ小程序开发者平台发布了一项重要更新。核心内容是,为了帮助开发者降低双端开发与维护成本,QQ将全面接入微信小程序体系。这意味着,未来用户可以直接在QQ内搜索并打开微信小程序。 对于现有的存量QQ小程序,此次调整并未“一刀切”。它们目前仍可正

热心网友
04.22
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6
手机教程
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6

下半年芯片市场巅峰对决提前揭幕 今年下半年,全球芯片市场的战火将空前炽热。两位重量级选手——联发科与高通,已经准备好亮出各自的王牌。天玑9600系列与骁龙8E6系列,这两大迭代旗舰平台的正面交锋,注定会成为今年科技行业最值得关注的戏码。 双芯策略:精准卡位旗舰市场 有意思的是,联发科这次玩了个新花样

热心网友
04.22
微信好友申请为何能通过搜索qq号添加
手机教程
微信好友申请为何能通过搜索qq号添加

在当今数字化社交的时代,微信已成为人们日常沟通交流的重要工具。不少人都发现,微信好友申请居然可以通过搜索 qq 号来添加,这背后有着诸多有趣的原因和便利之处。 一、社交关系的延续与拓展 要知道,微信与QQ同属腾讯旗下,两者之间存在着千丝万缕的联系。很多用户的社交关系其实根植于QQ时代,那些好友列表里

热心网友
04.22
高德地图如何更改定位
手机教程
高德地图如何更改定位

高德地图如何更改定位?三种方法详解及注意事项 无论是日常通勤、外出旅行还是朋友相聚,高德地图已经成了我们依赖的“导航神器”,精准定位和路线规划是其核心功能。不过,现实场景有时会有点特殊——比如,你可能需要模拟一个位置来测试应用,或者在某个游戏中“签到”,又或者只是想和朋友开个无伤大雅的玩笑。这个时候

热心网友
04.22
巧学宝app如何绑定手机号
手机教程
巧学宝app如何绑定手机号

巧学宝App绑定手机号全程指南 在巧学宝App上完成手机号绑定,是解锁其完整功能的关键一步。这个看似简单的操作,能为你后续的学习之旅带来不少实实在在的便利。那么,该如何快速搞定呢?下面这张流程图,能帮你一眼看清完整的操作路径。 第一步:进入个人中心 首先,打开你的巧学宝App。进入主界面后,注意力可

热心网友
04.22