硅谷创业者深度解析今年智能体创业技术卡点_AI热点日报

探索2025年Agent技术的核心卡点与未来发展方向。核心内容包括：Agent技术的最新进展与社会影响、硅谷专家对技术难点的深度解析、以及Agent商业化前景与创业时机的探讨。 3月份Manus的出现，让大众第一次直观感受到Agent的强大。R1、o3以及更多推理模型的发布，也为Agent的发展储备

探索2025年Agent技术的核心卡点与未来发展方向。核心内容包括：Agent技术的最新进展与社会影响、硅谷专家对技术难点的深度解析、以及Agent商业化前景与创业时机的探讨。

跟硅谷创业者聊 Agent：今年创业做 Agent，技术卡点在哪里？

3月份Manus的出现，让大众第一次直观感受到Agent的强大。R1、o3以及更多推理模型的发布，也为Agent的发展储备了足够硬核的技术基础。很多人的判断是一致的：2025年，是真正的Agent元年。

但热潮之下，问题同样扎眼。现在的技术卡点到底集中在哪些环节？未来Agent之间怎样协作才是最理想的？现在入场创业，时机对吗？

极客公园旗下的全球化闭门社区Global Ready，联合整数智能组织了一场闭门讨论，邀请硅谷的AI专家和创业者们，围绕Agent的落地、技术难点和商业化方向，做了一次深度碰撞。以下是在脱敏处理后，整理的讨论要点精华。

主要分享嘉宾：
Yifeng Yin, 本场 Global Ready 活动 Host，Co-founder of a stealth start-up， ex-HuggingFace
Kecheng Huang, Co-founder & CEO, Emerging AI
Dongxu Huang, Co-founder & CTO, PingCAP
Zheqing (Bill) Zhu, Founder & CEO, Pokee AI

01 Agent 当下的核心技术卡点：更多工具调用能力、更长上下文

Yifeng Yin：今天我们聚焦Agent。一项技术的商业潜力，很大程度上取决于它能碘伏什么。那么，Agent究竟是最佳解决方案？如果要让Agent真正担起这个角色，还需要哪些技术上的突破？

Zheqing (Bill) Zhu：从第一性原理出发，如果未来所有的端到端通信都由Agent完成，以人为中心的网页浏览可能就会慢慢消失——信息传递和任务执行，会完全由Agent之间的协作来实现。但这需要几个前提条件。首先，互联网本身可能需要一次重构，不再依赖浏览器操作，而是让Agent直接执行任务。其次，Agent的执行能力必须大幅提升。拿现在的Agent来说，用Claude或GPT-4o做的产品，调用能力相当有限，50个工具基本就是极限，再多就乱了。所以，未来要解决的核心问题是：如何让Agent在未知环境下自主调用上千个工具，完成复杂任务。

Dongxu Huang：结论和Bill类似，但思考视角略有不同。评估工具时，更关注从人的角度出发——我们真正需要什么，而不是工具能做什么。就像互联网是为了解决人类沟通和信息获取效率才诞生的，Agent也应该匹配我们的核心需求。Transformer那篇论文的标题「Attention is All You Need」很有哲学意味。但从人类的角度延伸一下：「Attention is all we ha ve」——注意力是我们拥有的全部，也是最想支配的资源。订机票、订酒店这些事很消耗精力，需要集中注意去比价、选择，但我们并不想把时间花在这里。更希望把注意力放在真正喜欢的事情上，比如户外、读书、陪伴家人。所以，Agent的本质应该是帮我们把时间花在更有价值的地方。通用型或个人助理型的Agent，会是一个重要方向。过去，搜索引擎或手机应用都是基于固定场景设计的简单流程，灵活性不够。随着GenAI的普及，更高的灵活性终于成为可能。ChatGPT刚出来时只是个对话工具，现在已经能处理50个工具的调用。未来更进一步，成为真正的个人助理，任何不想做的事都可以交给它。作为企业高管，需要私人助理，但不可能给每个员工都配一个——成本太高。这个需求是普遍的。如果AI Agent能让每个人都拥有一个助理，把注意力更好地分配到我们想关注的地方，这就是它要解决的核心问题。未来Agent的方向，可能是如何通过技术放大人类的注意力管理能力。

Kecheng Huang：Bill提到网页浏览可能会被重构，想法类似。当新的交互形式出现时，旧的形式不会完全消失，而是会折叠到特定场景——电脑出现后，纸笔没消失，但用途变窄了。网页浏览、ChatGPT和Agent，可以看作三次迭代。用Google时，通常已经明确知道要查什么，直接搜索是最快的路径。ChatGPT适合模糊性的思考或启发式场景。而Agent，正在慢慢涌现。随着底层基础设施完善、数据积累和产品范式的摸索，Agent开始展现潜力。比如最近的Manus，它能把你的历史行为浓缩到框架里，帮你处理模糊任务。从技术角度来看，Agent比Chatbot或网页更核心的能力有三点：第一，多模态理解能力——不只限于文字，能通过多种形式理解需求；第二，实时环境感知能力——执行任务时需要调用不断变化的服务，Agent要能动态适应；第三，个性化数据整合能力——把个人历史数据，各种模态、各种场景融合起来，真正理解你。这三点让人对Agent的未来充满期待，Manus只是开始。

Dongxu Huang：特别同意Kecheng提到的两点。总结一下：第一，缺一个Agent之间的互联网——像路由器一样，能让Agent高效通信。做MCP开发时，调用十几个服务就很麻烦，有的想本地部署，有的放远端，Agent之间的上下文共享也完全不够。第二就是memory，记忆能力。Agent最终要提供个性化服务，离不开数据。但现在的软件行业处理数据的接口并不适合AI或Agent，可能需要一次重构。比如操作数据，现在最好的可能是SQL，但未来可能会有更AI友好的方式。另外，Agent和人类的信息交互也有区别。人类靠消息传递，但Agent之间不需要这种低效方式。之前看到一个demo，两个AI Agent在电话里低声说话，有趣但方向完全不对——Agent之间的记忆共享不该靠电话，直接给个S3 endpoint，加载到内存就好了。缺两样东西：一个是Agent的互联网，一个是Agent的大脑，包括记忆和上下文管理。

02 Agent 没有创造新需求，而是在优化解决方案

Yifeng Yin：如果想让Agent成为某些问题的解决方案，让以Agent为核心的商业模式落地，基础设施上需要做哪些努力？什么样的基础设施才能真正支撑Agent落地？

Zheqing (Bill) Zhu：Agent不是满足一个全新需求，而是优化现有需求——有些事本来靠人做，但其实可以交给机器，只是因为互联网没完全联通或AI能力不足，才一直靠人力。举个例子，前段时间把某个平台上的图片和文字下载下来，整理成文档，再上传到另一个平台，整个过程花了两个小时。这其实是Agent该干的事：从Google Docs下载所有内容存到本地，再上传到LinkedIn。但现在没有工具能一键搞定。Agent要解决的就是这种重复性劳动，让机器人替代人。先要把互联网上的重复性劳动解决好，比如用15秒代替两小时或两天的任务。如果这能做到，产品市场契合度自然会显现。基础设施方面，算力不是瓶颈，已经够用了。核心问题是工具的完整性——没有统一的标准接口。Agent之间的互联网，现在连单个Agent调用工具的链条都不完善。规划好一系列操作后，能不能找到对应的工具执行？这都还没解决。先把工具链标准化——不管是政府还是个人，接入Agent都用同一格式——可能是落地的第一步。后面再考虑Agent间的通信，或虚拟世界和物理世界的连接，那是更远的未来。

Dongxu Huang：Bill说的工具链和想法有些重合，比如Agent之间的互联网和记忆能力。但从人的角度，还有更深层的问题。比如想买机票，得去United或Booking网站，Agent要顺利完成任务，就得能读取微信或接入这些平台。这不是技术问题，而是人性或商业壁垒的问题。Agent落地的最大挑战可能不在技术，而在人性——现有玩家如果封闭API、搞各种闭源限制，不转变思维，可能只会有新的LinkedIn、新的Booking崛起。基于开放生态重塑市场，比技术突破更重要。技术上，需要一个信任基础的Agent互联网。就像现在的互联网基于TCP/IP，Agent的生态也需要类似的底层支撑。开放性和协作是关键——这也是为什么看好开源，它能推动集体智慧，而不是某一家独大。

Kecheng Huang：基础设施确实是大话题。算力、算法和模型方面，开源模型越来越强，算法也在进步。至于数据，如何让行业数据更公平、更开放，是企业与政府都需要推动的。云端的算力集群建设已经很成熟，但端侧和边缘侧的算力流转还有优化空间。手机是为互联网时代设计的，但在Agent时代，多模态数据和高并发任务会带来新挑战，需要更多投入。至于政府角色，监管越来越重要。国内大模型还得备案审批，如何在加速创新和维持社会稳定之间平衡，是个难题。另一个有趣的点是社会背景。Agent和具身机器人如果取代更多人力，剩余劳动力怎么办？全球业务中发现，中美都在热议AI，但在日本、欧洲，AI普及率没那么高，这些成熟社会有抵御机制。中美在这方面机制不足，担心未来会有更多类似武汉萝卜快跑的抗议。

Zheqing (Bill) Zhu：倒没那么担心。从工业革命到信息化时代，人口增加很多，但就业率没下降，反而上升了。执行层面被Agent取代后，创造性工作会不会打开新空间？比如现在一年出20部好莱坞大片，未来能不能出500万部，每人都有个性化版本？

03 2025 是 Agent 确定性的开端

观众提问：现在大家都说Agent和AI Agent是生活中不可或缺的东西。作为公司创始人，怎么保证自己的产品不会被大厂商品化？未来如何定位自己的公司？

Zheqing (Bill) Zhu：这个问题有意思，但感觉有点假设必须胜出。并不觉得这是一个赢家通吃的游戏。看看现在的模型：Anthropic擅长代码和写作，OpenAI在推理和数学上有优势，Perplexity能搜索。市场会有很多同质化产品，但会自然演化，找到自己的舒适区，彼此拉开差异化。最终不会是winner-takes-all，肯定会有垂直领域的Agent和不同的基础设施。每家公司可能会同时用多个基础设施，就像现在用几大云厂商一样。不是先发优势或技术最强就能胜出，而是能不能找到适合的产品市场契合点，找到自己的细分领域才能生存。

Dongxu Huang：很认同。AI是未来所有公司的最大杠杆，但这个杠杆不是为了赢，而是让生活和工作更美好。在PingCAP有个实践：每个人在报告里都要写怎么用LLM或GenAI提高效率，连前台也不例外。程序员用Cursor这种工具已经尝到了甜头，连报销都没走，自己就掏钱用了。AI不是主营业务的竞争点，而是整个社会的生产力变革。不管愿不愿意，所有行业都会被AI改造。至于定位，做数据基础设施，也会被AI重塑，但核心是拥抱它，而不是想着击败谁。

Yifeng Yin：如果现在的基础模型能力就止步于此，基于现有水平做工程化和Agent，能创造多大的空间？或者说，能产生多大的商业价值？

Dongxu Huang：过去一年一直在思考这个问题。一直纠结是该多投入精力建Agent框架和工作流，还是等底层技术模型再进步。有个尴尬的情况：如果早早把Agent的工作流做得特别复杂，但模型能力突然提升——像OpenAI的最新推理模型出来后，以前的努力可能就白费了。比如o1出来前，做的所有工作流都没法用，底层模型太弱。但o1的出现让人觉得可以开始做些有用的东西了，它算是个起点。不过o1也只是第一步。所以现在不怎么建具体的框架了，而是专注做function calling和工具开发，把这些基础打好。很期待o2、o3，比如DeepSeek的下一代模型。到那时，市场空间会更大，确定性也会更高。基于o1这样的推理模型，已经有一些不错的商业场景。未来空间会越来越大，但还在确定性的开端。就像这几年dify成功，但技术进步后，老范式可能得迭代。建议等等看，同时基于现有能力开始试水。

赵赫：从非技术角度补充一下。这个问题其实是在问：如果模型不进步了，能不能做所有事？当然会进步，但换个视角再答一次。一直在反思：现在的模型已经很强了，但为什么做出来的东西还是差强人意？观察到两个原因。第一，谷歌的模式是有现金牛业务养科学家，再由厉害的工程师把科学翻译成产品，最后设计师懂用户需求。现在的问题是，科学家不少，但能把底层技术翻译成实用产品的工程师太少——这是个信息传递断链的问题，需要时间积累。第二，上一代互联网技术人很难有归零心态。新技术出来时，如果威胁到他们的地位，就成了一种错误——「你怎么能比我强？」要么被他们收编，要么被干掉。这种阻力阻碍创新。所以即便技术够了，好东西也出不来。这不是技术瓶颈，而是思想瓶颈。得先突破这个，才能让好东西涌现出来。