首页 游戏 软件 资讯 排行榜 专题
首页
AI
周伯文谈大模型操作系统工具与语言融合的重要性

周伯文谈大模型操作系统工具与语言融合的重要性

热心网友
39
转载
2026-05-16

2023年8月,在新加坡举行的第七届GAIR全球人工智能与机器人大会上,清华大学讲席教授、衔远科技创始人周伯文博士,围绕“复杂场景下的生成式AI”分享了他的前沿思考。他指出,当前AI在掌握人类语言方面已展现出惊人能力,而下一步复现人类智能的关键,在于让AI学会在复杂场景中系统性地使用工具。

这引出了一个根本性的问题:究竟是“工具为AI服务”,还是“AI为工具服务”?前者意味着以AI为核心,工具的存在是为了增强AI的能力;后者则意味着以工具为核心,AI的作用是让人更便捷地使用工具。这个看似哲学层面的选择,实则决定了未来人机协作中谁占据主导,其答案将深刻影响技术发展的路径。

从“吟诗作画”到“苦活累活”:AI的下一站

网上有个流传甚广的段子:大模型在吟诗作画,人却在苦哈哈干活。这虽是个笑话,却尖锐地指出了一个现实:我们需要将AI引入更真实、更复杂的任务场景中,让它去承担那些更“苦”的工作。

从智力演进的角度看,人类区别于其他物种的一个重要标志,正是创造并使用工具来完成复杂任务。AI本身也是人类创造的工具,那么下一个重大问题便是:AI能否像人类一样,真正“用好”工具?过去几十年,我们成功地将语言理解能力赋予了AI,催生了ChatGPT等大模型。接下来的挑战,就是如何将语言能力与工具使用能力结合起来,教给AI。

人类正是凭借语言与工具的结合走到了今天。AI能否复现这种智能?答案是肯定的。基于基础模型已展现出的语言与推理能力,我们已经看到了AI融合语言与工具智能的曙光。当然,这其中充满挑战,也需要对问题本身进行更系统、更严谨的学术定义。

工具的定义:万物皆可“Token化”

首先,我们需要明确什么是“工具”。工具形态多样,可以从不同维度分类:

按功能性质,可分为确定性工具(如计算器、时钟)、基于API的功能工具、具备专项能力的神经网络或其他基础模型,以及与物理世界交互的工具(如机器人、传感器)。

按互动方式,则可分为与物理世界互动的工具、将世界抽象为图形界面(GUI)的工具,以及将世界抽象为API的工具——正所谓“软件正在吞噬世界”。

无论如何分类,在大模型时代,所有这些工具及其组合,本质上都可以被视作“Token序列”。这并非新概念。在ChatGPT之前,OpenAI推出的WebGPT工作就已预示了这一点。WebGPT不仅能生成答案,还能提供答案的出处,有效缓解了“幻觉”问题。其秘诀在于,它通过模仿人类在浏览器中的搜索、点击、浏览等行为序列进行训练,让模型学会了“行动”。

这项研究带来了一个有趣的发现:仅用6000个标注示例,就能训练出性能良好的WebGPT。这种让大模型学会使用工具的训练范式,恰恰能解决当前大语言模型的诸多短板,例如信息时效性不足、复杂计算容易出错等。关键在于,让模型学会在合适的时间,调用合适的工具组合,并懂得如何整合结果。这正是AI迈向系统性工具使用的核心。

集成工具的新一代AI框架

AI如何与工具融合?目前缺乏一个完整的框架。从学术角度看,一个完备的框架应由四部分组成:控制器、工具集、环境和感知器。

控制器负责理解人类指令,并规划出可执行的行动方案,决定在何时调用何种工具。工具集是各类异构工具的集合,从简单API到复杂模型,再到机器人硬件。环境是工具执行操作的对象或场景。感知器则负责观察工具作用于环境后产生的变化,接收外部信号(包括人类反馈),并将结果反馈给控制器,以调整后续行动。

用数学语言描述,这可以建模为一个马尔可夫决策过程,目标是求解最优行动序列。其核心是,在给定历史信息、人类指令和反馈的条件下,决定当前时刻的最佳行动。这里的“行动”包含两个信息:调用什么工具,以及返回什么信息。最终目标是选择一系列行动,以最大化任务完成的整体概率。与ChatGPT输出文字序列不同,这个框架输出的是“行为序列”。

该框架要解决三大核心问题:意图理解(理解用户想要什么)、工具理解(理解工具能做什么以及如何调用)、以及规划与推理(如何一步步规划并执行复杂任务)。

三大研究方向

方向一:意图理解

大语言模型在自然语言理解、推理等方面已表现卓越,通过指令微调也能快速适应新任务。因此,只要模型足够强大且有高质量指令集,意图理解在很大程度上已被解决。但挑战依然存在,例如如何准确理解用户的模糊或个性化表述,以及如何处理理论上无限的指令空间。这些问题仍有研究空间,但已非主要障碍。

方向二:工具理解

这是更复杂的任务。例如,面对一个天气查询API,模型需要将“上海明天天气如何”这样的自然语言指令,准确转化为对API的调用(城市=上海,日期=明天)。当任务需要组合多个工具(如API、模型、传感器)时,复杂性将指数级增加。目前,像ChatGPT插件那样手动勾选工具的方式只是一种启发式方案。如何让模型自动、精准地选择并组合工具,是一个亟待突破的关键问题。

方向三:规划与推理

这是三者中最难的部分。大模型虽具备“涌现能力”,能在未经专门训练的情况下完成某些任务,但在需要多步、复杂逻辑推理的场景中,仅靠涌现能力远远不够。

例如,让模型回答“Elon Musk名字中最后两个字母拼起来是什么”这类需要简单拆解的问题,它都可能出错。提升规划推理能力的一个有效方法是“思维链”,即将复杂问题分解为一系列中间步骤。将思维链与多模态知识结合,便能处理更复杂的场景,比如在多元素的图片中逐步推理识别出特定物体。

在我们提出的框架中,规划推理可分为两类:静态规划动态推理

静态规划指一旦制定计划便按部就班执行,无需与环境频繁交互,例如“打开电视-关闭烤箱”这样的顺序任务。难点在于如何让大模型生成可靠的静态计划。更先进的思路如“ReAct”,让模型在“思考”与“行动”之间交错进行,每步行动后都反思结果,从而动态调整后续步骤,显著提高了行动准确性。

动态推理则涉及与环境的实时交互,是“具身智能”的重要基础。例如,一个机器人接到“从桌上拿瓶喝的”指令后,它需要规划走到桌旁、通过摄像头识别物体(可乐、水)、通过询问确认用户选择(可乐)、再控制机械臂执行抓取动作。若抓取失败,还需根据反馈尝试再次抓取。这一系列行动构成了一个动态的、与环境持续互动的决策循环。

然而,上述例子仍相对简单。真正的复杂场景任务可能涉及成百上千个子步骤,调用大量异构工具,且工具间可能并行运作或相互协作。这对大模型理解工具间相互作用、处理并行任务以及协调多智能体协作提出了巨大挑战。

未来:以语言为界面的工具学习平台

许多人将大语言模型视为未来的“操作系统”。但从严格意义上讲,仅具备语言处理与生成能力的LLM,并不足以承担操作系统的重任。

未来的操作系统,应该是一个融合了语言能力的“工具学习平台”。在传统操作系统中,各种APP和功能在设备上运行;而在LLM的视角里,无论是APP、功能还是设备本身,都是可调用的“工具”。其核心逻辑是:理解任务 -> 决策调用何种工具 -> 根据工具返回结果 -> 规划下一步行动。

因此,下一代操作系统的本质,就是一个配备自然语言交互界面的工具学习平台,仅此而已。这也正是语言与工具结合的研究如此令人着迷的原因所在。

来源:https://www.leiphone.com/category/ai/nU6EKf8Kz01kMKT9.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

周伯文谈大模型操作系统工具与语言融合的重要性
AI
周伯文谈大模型操作系统工具与语言融合的重要性

周伯文博士强调,下一代AI的关键是让系统学会使用工具。当前大模型虽具备强大语言能力,但需结合工具以处理复杂任务。未来框架需整合控制器与工具集,解决意图理解、工具调用与规划推理三大问题,最终构建以语言为界面的工具学习平台,实现高效人机协作。

热心网友
05.16
周伯文:当前大模型在专业推理能力方面的主要短板
科技数码
周伯文:当前大模型在专业推理能力方面的主要短板

“科学发现是AI的下一个前沿阵地,大规模深度推理将赋能科学发现,科学发现亦将反哺推理能力的进化。”上海人工智能实验室主任、首席科学家周伯文日前在第四十届人工智能协会年会(AAAI 2026)发布特邀

热心网友
01.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

阿里钉钉文档全功能解析在线协同办公套件使用指南
AI
阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流

热心网友
05.15
商汤小浣熊智能助手基于自研大语言模型
AI
商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办

热心网友
05.15
MiniMax新一代智能模型矩阵全面解析与应用指南
AI
MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M

热心网友
05.15
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景
web3.0
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景

ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。

热心网友
05.15
智能客服机器人解决方案:AI客服系统提升企业服务效率
AI
智能客服机器人解决方案:AI客服系统提升企业服务效率

在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练

热心网友
05.15