当前位置: 首页 > 科技 > 文章内容页

OpenAI杀入通用AI Agent背后:四大技术流派与下一个万亿流量之战

时间:2025-08-03    作者:游乐小编    

7月17日,OpenAI正式发布ChatGPT Agent,正式进军通用AI Agent赛道。

外界猜测,在GPT-5即将发布的关键节点,ChatGPT Agent的亮相更像是仓促应战的“占位”之举——通用Agent很可能成为下一代互联网的“万亿流量入口”,让市场格局再次洗牌。

在通用AI Agent赛道中,已经有不少AI初创公司崭露头角,技术路线各有千秋:从浏览器为主的万能路线,到沙盒虚拟机的高效执行,再到工作流集成的专业化方案,几大技术流派正在激烈角逐。

本篇文章,硅谷101和Pokee.ai创始人、前MetaAI应用强化学习团队负责人朱哲清(Bill Zhu),以及硅谷101特约研究员Nathan Wang一起聊聊:OpenAI入局,是否意味着Agent成为又一个被巨头吞噬的市场?还是说,技术壁垒和差异化路线将为创业公司保留生存空间?当“幽灵光标”成为互联网访问的主力军时,广告生态将如何被颠覆? 新时代的流量入口霸主又将花落谁家?

01 ChatGPT Agent亮相,通用Agent战局全面开幕

7月17日,OpenAI CEO Sam Altman和四位研究员在直播中介绍了OpenAI ChatGPT Agent。

简单来说,你可以让Agent帮你完成任务:比如,婚礼缺双鞋,去电商平台直接订购;或者设计个宠物周边,直接下单打印;查找信息,之后直接生成PPT等等。

这些任务的demo(演示),看起来完成度都还挺高。它们由OpenAI此前推出的两个工具驱动:Deep Research和Operator。

Deep Research是一款深入研究的分析工具,可以阅读大量网页,生成深度的调研报告,主打“搜索”;而Operator之前是一款只开放给GPT Pro用户的浏览器Agent工具,可以查看网页,同时为用户带来特定操作,主打“执行”。

OpenAI就表示,在两样工具分别推出的过程中,发现很多用户用Operator写的提示词经常很像会用Deep Research去做的任务,比如旅行计划,行程预定等;而Deep Research那边,用户们也在呼吁能增加比如登陆不同 、去访问受保护资源的能力,这恰好又是Operator擅长的。

所以OpenAI就决定将两个产品融合起来,相当于打通了“搜索与执行”,也就是通用Agent所需要的技能。

同时,这也决定了OpenAI做通用AI的底层路线,是和目前市面上其它的产品有所区别的,存在优势和弊端。

接下来,我们就来聊聊目前通用Agent的四大技术派系。

02 浏览器为主派(OpenAI),操作万能但速度受限

第一个技术派系就是所谓“browser-based”(浏览器为主)的技术路线,之前OpenAI的Operator就专注于这个路线。

这类智能体主要通过控制网页浏览器来工作。简单说,就是通过视觉模型让AI像人一样去网上搜索信息、点击链接、浏览网页,从而完成用户交代的任务。

这种模式因为可以访问全网信息,通用性很强,几乎是无所不能的。

就像朱哲清说的,这个万能的路线有一个致命问题:慢。

原因很简单:浏览器为主的路线,背后的技术是Agent配合视觉模型来做Screencatch(屏幕截图),进而来进行图像识别,所以它注定要主页加载网页、等待响应。

这次我们也看到,“速度慢”是不少人对这次ChatGPT Agent的一个不满之处,很多任务都要耗费几十分钟来完成。

但这个“慢”可能也会因为大模型的优化和算力的优化,而在未来实现速度提升。

OpenAI的视觉模型和browser点击能力比市面上其它通用Agent更强,所以这个技术派系在之后还会有很大的优化空间。

03 虚拟机+浏览器派(Manus),本地执行效率高但外部访问受限

在Agent相关的报道和技术分析中,“Sandbox”一词会经常出现,它翻译过来叫做“沙盒虚拟机”(隔离的计算环境,用于安全地运行程序)。

想象一个小朋友在家里玩泥巴。如果ta到处跑,可能把泥巴弄得到处都是,还可能打翻家具,甚至弄伤自己,这简直就是家长的噩梦。

但如果你准备了一个“沙盒”——一个有边界、专门让ta玩泥巴的地方——ta在里面怎么玩都可以,又安全又干净。

简单来说,在AI Agent的应用中,“沙盒”就是一个被限制和隔离的环境,被称之为“虚拟机”,让程序在里面运行,而不会对主系统造成风险。

AI能在这台虚拟电脑里随意打开浏览器上网、运行代码脚本、读取和保存文件等,相当于AI拿到了一个隔离的电脑,像人类一样拆解任务,在虚拟机里上网、编程,完成所有步骤。

而因为是真正的计算机环境,AI可以执行非常复杂的操作流程,从网上获取信息到本地计算处理,一条龙自主完成。

所以“虚拟机”为主的路线优点就是本地执行效率高,但因为sandbox对外部服务的访问有限制,所以与现实世界交互还不够灵活。

“虚拟机”为主的通用Agent中做得很好的,是Manus。公司在今年四月融资7500万美元,估值近五亿美元。

但Manus并不是只有沙盒,它结合了我们刚才提及的基于浏览器browser的技术流,只是将沙盒做了进一步优化。

04 大模型+虚拟机派(GensPark),牺牲通用性换取速度与稳定性

第三种路线强调大语言模型(LLM,Large Language Model)本身结合一个“沙盒”,也就是封闭工具环境来完成任务。

和第二种路线对比来说,与其给AI整个开放电脑,不如给它一套有限但有效的工具箱和一个小型运行环境。

这里朱哲清提到的一个典型公司就是GenSpark,这家公司目前是在A轮,估值5.3亿美元,刚在2月份融资1亿美元。

GensPark集成了多种不同规模的语言模型,以及80多个预先构建和测试好的工具。

当有任务时,系统会根据需求调用合适的模型来理解,并直接用相应的API(应用程序编程接口)或内置工具去处理,比如搜索信息、调用地图服务、查询数据库等,而不依赖模拟完整浏览器或操作系统。大语言模型更像大脑中枢,在相对封闭的环境里调度现成能力,快速产出结果。

总结一下,以GensPark为代表的大语言模型+虚拟机(LLM+Sandbox)技术流相当于标准化工作流,设立了更封闭的环节,牺牲通用性去换取速度和稳定性,来让一部分的任务更快、更靠谱。

05 工作流+工具集成派(Pokee/UiPath),速度快、交付好但通用性差

第四种路线,本质上是把预先设计好的流程和第三方工具集成结合AI使用。比如朱哲清所创办的Pokee,所用的技术路线叫做“工作流+工具集成”。

可以把它想象成搭积木:开发者先把完成某类任务需要的步骤都规划成一个个节点,也就是工作流(Workflow),每个节点可以调用不同的应用或API(工具集成)。

AI的作用是在运行时根据用户请求,自动选择并执行这些预设的流程,或用自然语言帮你填充参数。

举个例子,Zapier(自动化工作流平台)平台上用户可以设置一个自动化流程:一旦收到新的表单,就让AI读取内容整理摘要,通过Gmail发送给相关人员。

这里AI负责理解内容和写邮件,但从触发表单到发送邮件的步骤是事先定好的。类似地,Pokee AI强调通过强化学习来自动规划和调用工具。

这样的技术路线优点是速度快,交付好,但也被限制在特定任务中,通用性差一些。

结合以上的四种技术流派和对应的代表公司:浏览器为主,做得最好的是OpenAI的ChatGPT Agent,Sandbox(虚拟机)做得最好的是Manus,LLM+Sandbox(大语言模型+虚拟机),代表公司是GensPark,最后是工作流加工具集成,如Pokee、Zapier、UiPath。

可以看出,目前“通用性”和“速度及稳定性”是鱼与熊掌不可兼得,必须要牺牲一个。ChatGPT Agent和Manus选择了前者,而GensPark和Pokee选择了后者。

06 幽灵光标,Agent将打响未来流量入口之战

无论是什么技术路线,要想真正让大家用起来,提高可靠性和留存率,加快交互速度是接下来通用Agent的共识方向。

我们可能会看到更加细分的Agent,以及万能通用Agent的百花齐放,包括ToB和ToC的产品也会不同。

所以,虽然OpenAI入局通用Agent赛道,但这场仗看起来还有得打。但同时,这也给我们指明了一个未来的发展共识,就是:Agent们,不管是通用的还是专用的,将代替人类,成为访问互联网的主力军。

Wired杂志在7月底就发布了篇文章说,以后的互联网充斥的都将是所谓的“ghost clicks”(幽灵光标),都是Agent们在与网页交互,抓取信息。这可能意味着一个巨大的变革和机会。

也就是说,“流量”这个词将变得毫无意义,因为都不是真人在点击网页了,而未来的流量入口将成为Agent,而这个赛道也将是下一场巨头之战的中心。

当然,也不排除会有新的公司占据这个巨头的位置。而这个变化可能会来得比我们想象中更快。

而顺着这个新范式,我们可以期待,未来的广告模式和信息模式都会发生颠覆性的变化。

很开心听到嘉宾说,作为内容生产者,当我们的观众不再是真人,变成了所谓的”幽灵光标”Agent们,但我们的内容还是极具价值的,并且这样的商业模式是更友好的。

但感觉还有挺多技术限制需要去突破,以及很多的协议要达成共识。

而就在ChatGPT Agent发布的同一天,OpenAI公布了一个数据:目前ChatGPT每天收到的用户指令高达25亿条。

这是什么概念呢?相当于年化9125亿次。如果把每一次提问指令都等同成一次搜索,ChatGPT已经占据谷歌年搜索量的18%。

而这个数字,随着AI Agent的成熟落地,很可能会继续快速增长。而新的流量入口之战,已经打响。

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com