探索2025年Agent技术的核心卡点与未来发展方向。核心内容包括:Agent技术的最新进展与社会影响、硅谷专家对技术难点的深度解析、以及Agent商业化前景与创业时机的探讨。

3月份Manus的出现,让大众第一次直观感受到Agent的强大。R1、o3以及更多推理模型的发布,也为Agent的发展储备了足够硬核的技术基础。很多人的判断是一致的:2025年,是真正的Agent元年。
但热潮之下,问题同样扎眼。现在的技术卡点到底集中在哪些环节?未来Agent之间怎样协作才是最理想的?现在入场创业,时机对吗?
极客公园旗下的全球化闭门社区Global Ready,联合整数智能组织了一场闭门讨论,邀请硅谷的AI专家和创业者们,围绕Agent的落地、技术难点和商业化方向,做了一次深度碰撞。以下是在脱敏处理后,整理的讨论要点精华。
主要分享嘉宾:
Yifeng Yin, 本场 Global Ready 活动 Host,Co-founder of a stealth start-up, ex-HuggingFace
Kecheng Huang, Co-founder & CEO, Emerging AI
Dongxu Huang, Co-founder & CTO, PingCAP
Zheqing (Bill) Zhu, Founder & CEO, Pokee AI
01 Agent 当下的核心技术卡点:更多工具调用能力、更长上下文
Yifeng Yin:今天我们聚焦Agent。一项技术的商业潜力,很大程度上取决于它能碘伏什么。那么,Agent究竟是最佳解决方案?如果要让Agent真正担起这个角色,还需要哪些技术上的突破?
Zheqing (Bill) Zhu:从第一性原理出发,如果未来所有的端到端通信都由Agent完成,以人为中心的网页浏览可能就会慢慢消失——信息传递和任务执行,会完全由Agent之间的协作来实现。但这需要几个前提条件。首先,互联网本身可能需要一次重构,不再依赖浏览器操作,而是让Agent直接执行任务。其次,Agent的执行能力必须大幅提升。拿现在的Agent来说,用Claude或GPT-4o做的产品,调用能力相当有限,50个工具基本就是极限,再多就乱了。所以,未来要解决的核心问题是:如何让Agent在未知环境下自主调用上千个工具,完成复杂任务。
Dongxu Huang:结论和Bill类似,但思考视角略有不同。评估工具时,更关注从人的角度出发——我们真正需要什么,而不是工具能做什么。就像互联网是为了解决人类沟通和信息获取效率才诞生的,Agent也应该匹配我们的核心需求。Transformer那篇论文的标题「Attention is All You Need」很有哲学意味。但从人类的角度延伸一下:「Attention is all we ha ve」——注意力是我们拥有的全部,也是最想支配的资源。订机票、订酒店这些事很消耗精力,需要集中注意去比价、选择,但我们并不想把时间花在这里。更希望把注意力放在真正喜欢的事情上,比如户外、读书、陪伴家人。所以,Agent的本质应该是帮我们把时间花在更有价值的地方。通用型或个人助理型的Agent,会是一个重要方向。过去,搜索引擎或手机应用都是基于固定场景设计的简单流程,灵活性不够。随着GenAI的普及,更高的灵活性终于成为可能。ChatGPT刚出来时只是个对话工具,现在已经能处理50个工具的调用。未来更进一步,成为真正的个人助理,任何不想做的事都可以交给它。作为企业高管,需要私人助理,但不可能给每个员工都配一个——成本太高。这个需求是普遍的。如果AI Agent能让每个人都拥有一个助理,把注意力更好地分配到我们想关注的地方,这就是它要解决的核心问题。未来Agent的方向,可能是如何通过技术放大人类的注意力管理能力。
Kecheng Huang:Bill提到网页浏览可能会被重构,想法类似。当新的交互形式出现时,旧的形式不会完全消失,而是会折叠到特定场景——电脑出现后,纸笔没消失,但用途变窄了。网页浏览、ChatGPT和Agent,可以看作三次迭代。用Google时,通常已经明确知道要查什么,直接搜索是最快的路径。ChatGPT适合模糊性的思考或启发式场景。而Agent,正在慢慢涌现。随着底层基础设施完善、数据积累和产品范式的摸索,Agent开始展现潜力。比如最近的Manus,它能把你的历史行为浓缩到框架里,帮你处理模糊任务。从技术角度来看,Agent比Chatbot或网页更核心的能力有三点:第一,多模态理解能力——不只限于文字,能通过多种形式理解需求;第二,实时环境感知能力——执行任务时需要调用不断变化的服务,Agent要能动态适应;第三,个性化数据整合能力——把个人历史数据,各种模态、各种场景融合起来,真正理解你。这三点让人对Agent的未来充满期待,Manus只是开始。
Dongxu Huang:特别同意Kecheng提到的两点。总结一下:第一,缺一个Agent之间的互联网——像路由器一样,能让Agent高效通信。做MCP开发时,调用十几个服务就很麻烦,有的想本地部署,有的放远端,Agent之间的上下文共享也完全不够。第二就是memory,记忆能力。Agent最终要提供个性化服务,离不开数据。但现在的软件行业处理数据的接口并不适合AI或Agent,可能需要一次重构。比如操作数据,现在最好的可能是SQL,但未来可能会有更AI友好的方式。另外,Agent和人类的信息交互也有区别。人类靠消息传递,但Agent之间不需要这种低效方式。之前看到一个demo,两个AI Agent在电话里低声说话,有趣但方向完全不对——Agent之间的记忆共享不该靠电话,直接给个S3 endpoint,加载到内存就好了。缺两样东西:一个是Agent的互联网,一个是Agent的大脑,包括记忆和上下文管理。
02 Agent 没有创造新需求,而是在优化解决方案
Yifeng Yin:如果想让Agent成为某些问题的解决方案,让以Agent为核心的商业模式落地,基础设施上需要做哪些努力?什么样的基础设施才能真正支撑Agent落地?
Zheqing (Bill) Zhu:Agent不是满足一个全新需求,而是优化现有需求——有些事本来靠人做,但其实可以交给机器,只是因为互联网没完全联通或AI能力不足,才一直靠人力。举个例子,前段时间把某个平台上的图片和文字下载下来,整理成文档,再上传到另一个平台,整个过程花了两个小时。这其实是Agent该干的事:从Google Docs下载所有内容存到本地,再上传到LinkedIn。但现在没有工具能一键搞定。Agent要解决的就是这种重复性劳动,让机器人替代人。先要把互联网上的重复性劳动解决好,比如用15秒代替两小时或两天的任务。如果这能做到,产品市场契合度自然会显现。基础设施方面,算力不是瓶颈,已经够用了。核心问题是工具的完整性——没有统一的标准接口。Agent之间的互联网,现在连单个Agent调用工具的链条都不完善。规划好一系列操作后,能不能找到对应的工具执行?这都还没解决。先把工具链标准化——不管是政府还是个人,接入Agent都用同一格式——可能是落地的第一步。后面再考虑Agent间的通信,或虚拟世界和物理世界的连接,那是更远的未来。
Dongxu Huang:Bill说的工具链和想法有些重合,比如Agent之间的互联网和记忆能力。但从人的角度,还有更深层的问题。比如想买机票,得去United或Booking网站,Agent要顺利完成任务,就得能读取微信或接入这些平台。这不是技术问题,而是人性或商业壁垒的问题。Agent落地的最大挑战可能不在技术,而在人性——现有玩家如果封闭API、搞各种闭源限制,不转变思维,可能只会有新的LinkedIn、新的Booking崛起。基于开放生态重塑市场,比技术突破更重要。技术上,需要一个信任基础的Agent互联网。就像现在的互联网基于TCP/IP,Agent的生态也需要类似的底层支撑。开放性和协作是关键——这也是为什么看好开源,它能推动集体智慧,而不是某一家独大。
Kecheng Huang:基础设施确实是大话题。算力、算法和模型方面,开源模型越来越强,算法也在进步。至于数据,如何让行业数据更公平、更开放,是企业与政府都需要推动的。云端的算力集群建设已经很成熟,但端侧和边缘侧的算力流转还有优化空间。手机是为互联网时代设计的,但在Agent时代,多模态数据和高并发任务会带来新挑战,需要更多投入。至于政府角色,监管越来越重要。国内大模型还得备案审批,如何在加速创新和维持社会稳定之间平衡,是个难题。另一个有趣的点是社会背景。Agent和具身机器人如果取代更多人力,剩余劳动力怎么办?全球业务中发现,中美都在热议AI,但在日本、欧洲,AI普及率没那么高,这些成熟社会有抵御机制。中美在这方面机制不足,担心未来会有更多类似武汉萝卜快跑的抗议。
Zheqing (Bill) Zhu:倒没那么担心。从工业革命到信息化时代,人口增加很多,但就业率没下降,反而上升了。执行层面被Agent取代后,创造性工作会不会打开新空间?比如现在一年出20部好莱坞大片,未来能不能出500万部,每人都有个性化版本?
03 2025 是 Agent 确定性的开端
观众提问:现在大家都说Agent和AI Agent是生活中不可或缺的东西。作为公司创始人,怎么保证自己的产品不会被大厂商品化?未来如何定位自己的公司?
Zheqing (Bill) Zhu:这个问题有意思,但感觉有点假设必须胜出。并不觉得这是一个赢家通吃的游戏。看看现在的模型:Anthropic擅长代码和写作,OpenAI在推理和数学上有优势,Perplexity能搜索。市场会有很多同质化产品,但会自然演化,找到自己的舒适区,彼此拉开差异化。最终不会是winner-takes-all,肯定会有垂直领域的Agent和不同的基础设施。每家公司可能会同时用多个基础设施,就像现在用几大云厂商一样。不是先发优势或技术最强就能胜出,而是能不能找到适合的产品市场契合点,找到自己的细分领域才能生存。
Dongxu Huang:很认同。AI是未来所有公司的最大杠杆,但这个杠杆不是为了赢,而是让生活和工作更美好。在PingCAP有个实践:每个人在报告里都要写怎么用LLM或GenAI提高效率,连前台也不例外。程序员用Cursor这种工具已经尝到了甜头,连报销都没走,自己就掏钱用了。AI不是主营业务的竞争点,而是整个社会的生产力变革。不管愿不愿意,所有行业都会被AI改造。至于定位,做数据基础设施,也会被AI重塑,但核心是拥抱它,而不是想着击败谁。
Yifeng Yin:如果现在的基础模型能力就止步于此,基于现有水平做工程化和Agent,能创造多大的空间?或者说,能产生多大的商业价值?
Dongxu Huang:过去一年一直在思考这个问题。一直纠结是该多投入精力建Agent框架和工作流,还是等底层技术模型再进步。有个尴尬的情况:如果早早把Agent的工作流做得特别复杂,但模型能力突然提升——像OpenAI的最新推理模型出来后,以前的努力可能就白费了。比如o1出来前,做的所有工作流都没法用,底层模型太弱。但o1的出现让人觉得可以开始做些有用的东西了,它算是个起点。不过o1也只是第一步。所以现在不怎么建具体的框架了,而是专注做function calling和工具开发,把这些基础打好。很期待o2、o3,比如DeepSeek的下一代模型。到那时,市场空间会更大,确定性也会更高。基于o1这样的推理模型,已经有一些不错的商业场景。未来空间会越来越大,但还在确定性的开端。就像这几年dify成功,但技术进步后,老范式可能得迭代。建议等等看,同时基于现有能力开始试水。
赵赫:从非技术角度补充一下。这个问题其实是在问:如果模型不进步了,能不能做所有事?当然会进步,但换个视角再答一次。一直在反思:现在的模型已经很强了,但为什么做出来的东西还是差强人意?观察到两个原因。第一,谷歌的模式是有现金牛业务养科学家,再由厉害的工程师把科学翻译成产品,最后设计师懂用户需求。现在的问题是,科学家不少,但能把底层技术翻译成实用产品的工程师太少——这是个信息传递断链的问题,需要时间积累。第二,上一代互联网技术人很难有归零心态。新技术出来时,如果威胁到他们的地位,就成了一种错误——「你怎么能比我强?」要么被他们收编,要么被干掉。这种阻力阻碍创新。所以即便技术够了,好东西也出不来。这不是技术瓶颈,而是思想瓶颈。得先突破这个,才能让好东西涌现出来。
