腾讯研究院发布AI编程观察报告2.0解读行业趋势
腾讯研究院AI透镜系列最新深度研究《丰饶之后:AI Coding 观察报告 2.0》正式发布。该报告由曹士圯、余一、袁晓辉执笔,将时间镜头精准聚焦于2025下半年至2026第一季度。在首版《AI Coding非共识报告》发布九个月后,本报告系统性地验证了当初七条非共识判断的落地情况,并提炼出六个全新的结构性洞察。报告的核心命题清晰而深刻:当AI编程接连跨越“辅助补全”与“自主协作”两道关键能力门槛后,代码生成已步入一个前所未有的丰饶时代。稀缺性,正悄然从“如何编写代码”迁移到“如何验证质量、如何定义产品规格、如何持续高效运营”这些更深层次的挑战上。
报告背景与定位
- 研究脉络:2025年7月的首版报告曾提出“AI Coding是通用智能体(Agent)的先验战场”等七条在当时颇具争议的前瞻判断。九个月过去,多数判断已成为行业共识,而新的结构性挑战也随之浮现。因此,第二版报告不再争论“AI能否编程”这一基础问题,而是转向追问一个更本质的问题:“在代码丰饶之后,什么资源变得真正稀缺?”
- 时间跨度:报告聚焦2025年下半年至2026年第一季度,覆盖了Claude Opus 4.5发布(标志着第二道门槛)、METR实验结论逆转、Cursor估值跃升、Skills生态爆发、以及三场引发行业震动的“Anthropic Day”等关键事件节点。
- 研究方法:研究综合了前沿实验室技术报告、第三方基准测试(如SWE-bench、Vellum)、权威行业调研(如a16z、Pragmatic Engineer、GitClear)、领先企业实践(如Anthropic、OpenAI、Cursor)以及重大安全事件分析。报告采用“AI透镜”方法论,旨在穿透市场短期噪声,提取可验证的长期结构性趋势。
6个结构性洞察
- 模型加速趋同,前沿差距不减:六大主流商业模型在SWE-bench Verified基准上的表现已压缩至1个百分点的狭窄区间,开源模型如Qwen3-Coder也追至80%段位。这意味着,“选择哪家模型”对多数企业而言已非核心决策。然而,Anthropic在2026年4月9天内接连发布Mythos Preview(93.9%,不公开)与Opus 4.7(87.6%,公开),这种“内部能力持续突破+阶段性差异化降权公开”的双轨机制表明,前沿实验室的能力储备与公开可用模型之间,正在拉开新的代际差距。
- 智能体原生成为工具演化的收敛方向:形态上,Cursor 3、Codex App、Google Antigravity等工具正将集成开发环境(IDE)从“代码编辑器+AI插件”升级为“智能体编排平台+代码视图”。接口上,命令行界面(CLI)赢得了智能体内循环的竞争(gh命令约200 tokens vs GitHub MCP服务器55,000 tokens,效率差275倍),MCP则退守企业外循环,而Skills用标准作业程序(SOP)封装,成为非开发者的首选接口。结论很清晰:给智能体最好的工作环境是编排平台,最好的能力接口是代码与SOP。
- 代码生成规模化,验证成新瓶颈:SWE-bench上87.6%的通过率意味着“如何实现功能”已退出核心瓶颈。新的瓶颈出现在两端:向前是规格定义(KTH实验显示AI已能从926字的英文规格中完整自举代码),向后是验证与维护(Veracode发现45%的AI生成代码任务包含已知漏洞,GitClear分析2.11亿行代码后发现技术债务增加了30-41%)。下一波价值创造,不在于生成更好的代码,而在于构建更好的规格定义、验证和维护基础设施。
- 产品构建零门槛,品味、运营逐渐稀缺:YC 2025年冬季批次中,25%的创业公司95%以上的代码由AI生成,单人创始人(Solo founder)比例从23.7%升至36.3%,Base44单人6个月被Wix以8000万美元收购。然而,“原型墙”现象普遍存在:AI能快速生成最小可行产品(MVP),但随之而来的安全、扩展性、边缘情况问题会逐渐浮现,维护成本可能从每月20美元飙升至200美元。AI消除了“从零到原型”的门槛,但产品分发、系统运维、合规管理、产品品味成为了新的稀缺资源。
- SaaS没有死去,它正在被重新分配:三场“Anthropic Day”事件定点打击了中间层SaaS:Cowork发布导致FactSet股价下跌10%,COBOL博客导致IBM下跌13.2%(创25年最大单日跌幅),Claude Design导致Figma下跌6.89%。受害者都是那些“把API包装成带收费UI”的单功能中间层。同一时期,Cursor估值从293亿跃升至500亿美元,Skills目录超过2600个,平台层与极简自建层两极壮大。行业的计价单位正从“按座位收费”向“按产出/消耗收费”迁移。
- 做什么和谁能做,开发者被双向重定义:首先是“做什么”在变:开发者正从“代码编写者”转向“智能体编排者”,Staff+级别工程师中有63.5%是最重度的智能体用户,判断力与系统理解力成为核心技能。其次是“谁能做”也在变:非开发者首次以“构建者”身份进入,Epic Games超过50%的Claude Code使用来自非开发者,Skills让非开发者能在10分钟内用markdown写出第一个智能体能力。就业市场在三层流动:底层初级编码工作被压缩,中层技术项目经理岗位激增(LinkedIn数据显示增长250%),高层架构与产品定义工作被杠杆化放大。
报告内容详解
第一章 质变时刻:两道能力门槛与五维证据
- 第一道门槛(2024年中,Claude 3.5 Sonnet):AI从辅助补全跃升为可靠的代码生成助手,能力边界从Copilot式的行内补全,扩展到Cursor式的全栈写作。
- 第二道门槛(2025年末-2026上半年,Opus 4.5/4.7):从简单任务辅助跨越到稳定的自主协作。Opus 4.5首次在SWE-bench Verified上突破80%(达到80.9%),且token消耗较上一代下降约65%。
- 五维证据汇聚:技术(SWE-bench突破)、产品(Plan Mode/多智能体/100万上下文)、用户体验(“Claude Christmas”现象)、意见领袖(Karpathy从“模型就是垃圾”转为“Opus 4.5强了10倍”)、商业(Claude Code年经常性收入从零到25亿美元,Anthropic估值达3800亿美元)。
- METR逆转:2025年初的首次随机对照试验显示AI让开发者慢了19%,而2026年2月的后续实验结论逆转为快了18%(置信区间从-38%到+9%),30-50%的开发者拒绝参与“无AI”的对照组。
第二章 模型与驾驭工程:趋同、分化与协同进化
- 商业趋同:六家头部模型(Opus 4.5/4.6、Gemini 3.1 Pro、MiniMax M2.5、Kimi K2.6、GPT-5.4)在SWE-bench Verified上的表现压缩至1个百分点区间。
- 前沿分化:Opus 4.7一次性跳升6.8个百分点至87.6%,打破了持续5个月的趋同区间;Mythos Preview达到93.9%但不公开,双轨机制已然形成。
- 驾驭工程(Harness Engineering):当模型能力趋同时,竞争力转向驾驭框架。在SWE-bench Pro上,脚手架(scaffold)变化导致的分数波动,是更换模型所带来波动的22倍。技能演进路径从提示词工程(2022-24)到上下文工程(2025),再到如今的驾驭工程(2026)。
- 多智能体编排:范式从子智能体(Sub-agents,一个大脑指挥多个手脚)演进到智能体团队(Agent Teams,一个团队各司其职),Kimi K2.6甚至能推动至300个子智能体并行、连续执行12小时。
- 源码泄漏启发:2026年3月Claude Code意外暴露51.2万行TypeScript源码,揭示了其40+离散能力工具系统、KAIROS守护进程、autoDream记忆整合等关键设计。
第三章 工具生态的重塑:智能体优先、CLI与Skills
- 智能体优先(Agent-First)转型:IDE的定位正从“代码编辑器+AI插件”升级为“智能体编排平台+代码视图”。Cursor 3.0推出Agents Window支持跨仓库并行运行多智能体;OpenAI Codex App上线两个半月周活跃用户达400万。
- CLI vs MCP:CLI对智能体而言是原生语言(训练数据包含海量shell命令),而MCP需要额外的抽象层。行业收敛到分层路由:CLI赢得本地快速迭代(内循环),MCP赢得企业跨系统协调(外循环)。
- Skills生态:智能体技能(Agent Skills)以文件夹(内含SKILL.md和可选脚本)作为智能体的“入职手册”,采用渐进式披露按需加载。其三层架构为:Skills(SOP层,定义何时做/怎么做)封装MCP(集成层,连接外部系统)与CLI(执行层,操作基础设施)。Skills让非开发者首次直接成为智能体作者,其生态在一个季度内翻倍,精选目录超过2600个。
第四章 当构建不再稀缺:瓶颈迁移、原型墙与赛道消融
- 瓶颈迁移:过去的瓶颈在于“编写实现”,AI消除此瓶颈后,瓶颈迁移到“定义规格”与“验证维护”两端。Karpathy提出了Software 1.0(代码)→ 2.0(权重)→ 3.0(提示词/规格)的范式演进。
- 原型墙(Prototype Wall):典型路径是第一周兴奋(AI快速生成MVP),第三周担忧(安全、扩展性问题浮现),第二个月放弃(维护成本超出预期)。Addy Osmani提出“70%问题”:AI生成的代码看似完成了70%,但完成剩余30%的代价可能超过从头手写。
- 赛道消融:AI编程作为独立品类的边界开始消融,因为编程能力(读写文件+执行命令+迭代修复)天然等于通用智能体的能力栈。从Claude Code到Agent SDK,再到Cowork和Channels,路径清晰,多入口(IDE/终端/即时通讯/网页/桌面)正在汇聚。
第五章 格局与安全:SaaS重新分配与三种新攻击面
- SaaS重新分配:中间层“复杂度封装层”SaaS受到冲击,平台层(如Cursor、Anthropic)与极简自建层(Skills生态)两极壮大。IDC预测纯按座位计费模式将在2028年前作废,计价单位正从“per seat”向“per outcome/consumption”迁移。
- 三种新攻击面:LiteLLM供应链攻击(AI工具本身成为攻击目标)、Axios npm供应链事件(旧范式+AI加速)、Vercel/Context.ai身份劫持(AI工具的OAuth被入侵,且攻击者被AI显著加速)。
- 攻防对称下降:Nicholas Carlini使用Claude Code发现了Linux内核存在23年的漏洞;Mythos Preview发现了数千个零日漏洞(发现OpenBSD存在27年的TCP SACK漏洞成本不到50美元)。前沿实验室开始采用“双轨降权+身份验证准入”的新安全范式。
第六章 面向未来:角色转型、非开发者入场与就业流动
- 角色转型:开发者从“编写者”转向“编排者”,时间分配向上游迁移(定义规格、设计约束、评估产出、管理协作)。Amjad Masad提出三象限:往下走(系统编程/嵌入式/安全关键领域)、留在中间(全栈/CRUD应用,最危险)、往上走(产品设计/商业策略)。
- 教育体系响应:斯坦福开设“The Modern Software Developer”课程,鼓励学生不写代码;MIT开设“No Code and Agentic AI”专业课;62%的美国大学计算机科学专业招生人数下降,但AI专业申请涌流。
- 非开发者入场:Epic Games超过50%的Claude Code使用来自非开发者;Block公司的非工程师员工自建MCP服务器;Bolt.new平台上60-70%的用户是非传统开发者。
- 一人公司主流化:YC单人创始人比例升至36.3%,“10人做100人的事”从预言变为常态。Cursor以20人做到1亿美元ARR,Bolt.new以15人在2个月内做到2000万美元ARR。
- 就业三层流动:高层(架构/判断力)价值上升,中层(管理智能体的技术项目经理)岗位新增,底层(初级编码)被压缩。
报告结论
腾讯研究院《丰饶之后:AI Coding 观察报告 2.0》指出,随着Claude Opus 4.7等模型跨越自主协作门槛,AI编程已进入代码生成的丰饶时代。稀缺性正从“如何编写代码”迁移至“如何定义产品规格、验证维护与持续运营”。开发者角色从编写者转为智能体编排者,非开发者借助Skills首次以构建者身份入场。工具形态全面转向智能体优先(Agent-First),SaaS中间层被重新分配为平台层与极简自建层两极。与此同时,AI也拉低了攻防双方的门槛,使得软件供应链安全面临全新挑战。一个由AI重新定义软件开发和商业格局的时代,已经到来。
相关攻略
想象一下,在你的飞书工作群中,除了你本人,其他成员都是各司其职的AI智能体。它们能力互补,分工明确,甚至还有一位“运营主管”负责统筹调度与任务分发。 你不再需要逐一给智能体下达指令。只需在群里发布一个总体需求,这位主管便会立即响应:精准拆解任务、协调内部资源,并指挥不同的专业智能体并行工作、自动协同
如今,开发应用真的可以告别繁琐的代码了。只需用自然语言描述你的想法,就能快速生成一个功能完整的网站或H5页面,并实现一键部署上线。 近期,阿里巴巴正式推出了其首个对话式AI开发工具——Meoo秒悟。这款工具究竟有多强大?简单来说,它将应用开发的门槛降到了前所未有的低点,让整个过程变得如同日常聊天一样
这两天,OpenAI的GPT-Image-2和Anthropic的Claude Design接连刷屏,前者生成的各种“神图”在社交平台满天飞,后者则被视作设计行业的生产力革命。看着这些炫酷的新能力,想必很多朋友已经心痒难耐,迫不及待想上手体验了。 不过,想用上这些尖端功能,门槛确实不低。无论是想体验
腾讯研究院AI透镜系列最新深度研究《丰饶之后:AI Coding 观察报告 2 0》正式发布。该报告由曹士圯、余一、袁晓辉执笔,将时间镜头精准聚焦于2025下半年至2026第一季度。在首版《AI Coding非共识报告》发布九个月后,本报告系统性地验证了当初七条非共识判断的落地情况,并提炼出六个全新
为帮助开发者选择高性价比AI编程套餐,实测对比了七家主流平台。测试以统一任务考察其速度、输出质量与价格。结果显示,智谱套餐表现优秀但难抢购;火山引擎支持模型最全且输出详尽;MiniMax价格低且速度快;讯飞星辰价格最低且不限请求次数。建议根据实际需求选择最适合而非最便宜的套餐。
热门专题
热门推荐
为什么不能满仓操作?仓位管理是风险控制的第一道防线 在加密市场的惊涛骇浪中,一个核心原则被反复验证:满仓操作,无异于将自己置于毫无退路的悬崖边缘。它背后潜藏着五大风险:市场不确定性下的单点暴露、心理压力导致决策失衡、错失动态再平衡机会、杠杆叠加加剧爆仓、链上痕迹削弱抗审查能力。理解这些风险,是构建稳
对于成长型企业而言,部署AI的最大挑战往往不在于技术本身,而在于算力成本宛如一笔糊涂账——每月支出多少、流向何处、下月预算如何规划,几乎全凭估算。联想最新推出的百应AI 3 0版本,正是精准回应了这一难题。 本次,联想首次为成长型企业打造了一套覆盖全链路的词元经济解决方案,其核心理念极为简洁:将算力
上周,金山办公在武汉举办了WPS AI NEXT线下路演,现场发布的新一代WPS多维表格,凭借一份硬核成绩单引发行业关注。在权威表格智能体评测榜单SpreadSheetBench最新排名中,WPS多维表格的AI智能引擎位列全球第二,仅次于谷歌,充分展现了国产办公软件的AI实力。 当前,多维表格赛道竞
宗门联赛S3赛季引入三线对抗机制,增加排兵布阵博弈;新增战术设计可禁用特定秘术,强化情报收集。同时加入挂机功能降低参与门槛,匹配机制优化提升公平性,位面加速缩短比赛耗时,满足不同玩家需求。
车队运营团队普遍面临两个核心痛点:工具碎片化、手动流程耗时严重。在近期举办的Vision 26峰会上,Motive一口气发布了集成硬件与人工智能的多项创新方案,矛头直指这两个痼疾,将其物理AI运营平台的边界大幅外扩。从本质上看,这套新方案要解决的是一个老问题:如何把散落在不同系统里的数据整合到一个统





