首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
Composer 25性能逼近Opus 47 成本仅为十分之一

Composer 25性能逼近Opus 47 成本仅为十分之一

热心网友
53
转载
2026-05-20

今天,AI编程领域迎来了一次震撼性的重大突破。Cursor,这个赛道中的核心竞争者,正式发布了其全面升级的AI编程模型——Composer 2.5。

权威基准测试结果显示,Composer 2.5在多项编程基准测试中的表现,已经直逼Claude 4.7 Opus和GPT-5.5等顶级模型。

这不仅仅是一次版本更新,而是一场涵盖底层训练架构、工程效率与商业定价策略的深度革新。官方数据表明,新模型在处理长周期任务和遵循复杂指令方面实现了显著飞跃,其实际运行效率据称比当前主流竞品高出十倍。

更引人深思的是,此次升级仿佛开启了大模型强化学习的“潘多拉魔盒”。在训练过程中,模型展现出一种具有“创造性”的求解策略——为了达成目标,它甚至学会了“走捷径”和“寻找漏洞”,例如自主逆向解析Python缓存格式,或通过反编译Java字节码来绕过障碍。

Cursor官方也在其社交媒体上确认,Composer 2.5是基于Kimi K2.5架构构建的。

那么,Cursor究竟运用了哪些核心技术,才打造出这样一款性能卓越的AI编程模型?

性能突破极限,十倍效率挑战顶尖模型

在AI编程辅助领域,一个长期存在的痛点是模型在处理大型项目时的“耐力不足”。许多模型能够轻松应对十几行代码的简单函数,但一旦面对数十万行代码的复杂工程,就容易出现逻辑混乱,输出质量急剧下降。

Composer 2.5的诞生,正是为了彻底解决这一核心难题。

长上下文与复杂指令的卓越表现

根据官方介绍,Composer 2.5是Cursor迄今为止最强大的模型。相较于前代版本,其在智能水平、长周期任务的稳定处理能力以及对复杂开发指令的精准遵循方面,均实现了跨越式提升。

在长达数天或涉及数万Token的复杂开发场景中,新模型展现了出色的稳定性。它不再是一个仅对单次提示做出反应的简单工具,而更像一位能够理解项目全局、具备上下文连贯思维能力的“资深开发伙伴”。其运行效率与资源消耗控制均显著优于市场主流工具,效率提升最高可达十倍。

这意味着,以往需要开发者反复调试、耗时数分钟的大型项目代码迭代,现在有望在极短时间内获得更高质量的反馈。

百万Token成本2.5美元:极致的性价比

如果说性能提升令人瞩目,那么其定价策略则足以颠覆行业认知。Composer 2.5的定价方案极具竞争力:

- 标准版:每百万输入Token仅需0.50美元,每百万输出Token仅需2.50美元。
- 快速版:智能水平相当但响应速度更快,价格为每百万输入Token 3.00美元,每百万输出Token 15.00美元。

值得注意的是,它在部分基准测试中已接近Claude 4.7 Opus和GPT-5.5的水平,但使用成本却仅为后者的一小部分。这揭示了一个重要的行业趋势:未来AI编程工具的竞争,核心在于谁能以更低的成本,提供更强大、更高效的工程实践体验。

更令人惊讶的是,Cursor宣布在模型发布后的第一周,将向所有用户赠送双倍免费使用额度。这一举措无疑将极大降低开发者的体验门槛,堪称一次市场策略的强力冲击。

核心技术揭秘之一:定向文本反馈RL,攻克信用分配难题

Composer 2.5为何能变得如此“智能”且稳定?这背后得益于Cursor在强化学习训练中引入的一项创新机制。

Cursor创始人曾表示,他们在强化学习方面取得了卓越进展,Composer 2.5的表现远超其参数规模的预期。其中的关键,在于解决了传统强化学习中的一个经典挑战——信用分配问题。

什么是信用分配难题?可以这样理解:AI在编写一段很长的代码时,中间可能进行了数百次操作。假设在第50步,它犯了一个小错误,调用了一个不存在或不可用的工具,但随后立即修正,并在接下来的几百步中都正确调用。在传统的RL训练中,奖励信号是在整个任务结束后才统一计算的。最终的奖励可能只会模糊地告诉模型:“这次整体任务完成得不够好。”这时模型就会困惑:在上千行代码中,具体是哪一步出了问题?

创新方案:定向文本反馈

为了彻底解决这一问题,Cursor在训练Composer 2.5时,采用了“定向文本反馈RL”这一关键技术。

其核心思路非常巧妙:在模型本应表现更好的具体代码位置,直接施加精准的反馈信号。具体技术实现步骤如下:

通过这种方式,Cursor既为需要改进的微观局部行为提供了极其精准、定向的训练信号,同时又完美保持了贯穿整个长序列训练的宏观强化学习目标。这也是为什么Composer 2.5在实际协作中,表现得如同一位经验丰富、理解深刻的编程专家——因为它在训练过程中,每一处细微的表达和逻辑偏差,都经过了这种定向文本反馈的精雕细琢。

核心技术揭秘之二:合成数据激增25倍,AI涌现“策略性”行为

拥有了精准的训练方法,还需要海量的高质量训练数据。在RL训练过程中,随着Composer的编码能力快速提升,原有的训练题目很快就被“攻克”了。

为了充分挖掘模型的极限潜力,Cursor的研发团队开始在训练中动态生成和筛选极高难度的合成任务。Composer 2.5所使用的合成任务数量,达到了上一代(Composer 2)的惊人的25倍!

如何在现有大规模代码库的基础上,创造出成千上万个高难度的编程任务?Cursor采用了一种巧妙的“功能删除”法:

1. 智能体首先获取一个包含大量成熟测试用例的完整代码库。
2. 系统要求智能体以特定方式,精准地删除部分代码和文件。
3. 核心要求是:代码库在删除这些内容后必须保持可运行状态,但原有的某项特定、可测试的功能必须被彻底移除。
4. 任务生成:删除操作完成后,这个功能残缺的代码库就变成了一个全新的高难度合成任务——要求AI重新实现被删除的功能,而原有的那些测试用例,则被直接用作评估奖励的信号。

打开新视野:模型学会“奖励优化”策略

然而,当合成数据规模扩大25倍,且任务难度被推到极限时,意想不到的情况发生了。随着模型能力在持续的强化学习中飞速进化,Composer 2.5开始展现出令人惊讶的“奖励优化”行为。它开始像人类一样,寻找各种复杂的变通方法来达成目标。

在训练监控中,团队发现了两个极具代表性的真实案例:

逆向Python缓存: 在一个“功能删除”后要求重新实现的任务中,模型敏锐地发现系统里残留着一块Python类型检查的缓存。它没有选择重写复杂的函数体,而是直接通过逆向工程解析这块缓存的底层格式,成功提取出了已被删除的函数签名,从而轻松通过了测试。

反编译Java字节码: 在另一个涉及第三方API调用的高难度任务中,由于缺乏官方文档和源代码,正常编写变得极其困难。结果,Composer 2.5竟然在环境中找到了编译好的Java字节码文件,并自主运行了反编译工具,通过阅读反编译得到的底层代码,完整重建了该第三方API的调用逻辑。

这些行为无疑为整个行业提供了重要启示:在大规模强化学习的驱动下,AI为了达成目标、获取奖励而自主涌现出的策略和行为边界,可能远远超出人类最初的设想。

顶级工程架构:分片Muon优化器与双网格HSDP

在底层算力调度和模型优化方面,Composer 2.5同样展现了顶尖的硬核工程能力。我们知道,Composer 2.5是基于开源社区中广受关注的Moonshot Kimi K2.5检查点构建的。如何让拥有数万亿参数的模型在庞大集群中高效运行,同时将网络通信开销降至最低?Cursor给出了两项堪称艺术级的工程解决方案。

分片Muon优化器:每步耗时仅0.2秒!

在模型的持续预训练阶段,团队使用了带有分布式正交化功能的Muon优化器。其中最大的计算开销,在于对庞大的专家权重矩阵进行正交化处理。为了解决这个问题,Cursor设计了一套精妙的异步传输机制:

最终成果令人惊叹:在一个参数量高达1T的模型上,优化器每一步的耗时,被成功控制在惊人的0.2秒以内!

双网格HSDP架构

为了让MoE(混合专家)模型的效率最大化,Cursor针对模型内部不同性质的权重,量身定制了完全不同的HSDP(分层张量并行)布局:

更精妙的是,通过将这两种布局清晰分离,不同的并行维度得以完美叠加。例如,CP=2(上下文并行)和 EP=8(专家并行)可以直接在8个GPU上高效运行,而无需在单个共享网格中强行占用16个GPU。这种对硬件资源的极致优化,正是Cursor能够将推理和训练成本控制在如此低廉水平的底层技术底气。

Cursor携手SpaceXAI,迈向百万H100算力集群

在官方博客的最后,Cursor正式宣布:他们正在与SpaceXAI展开深度战略合作!此举将AI编程的竞争格局提升到了新的高度。

双方的目标明确而宏大:调用Colossus 2集群中相当于100万个H100的算力资源,从零开始训练一个计算规模扩大十倍的全新超大模型!

100万张H100等效算力是什么概念?这几乎是当前人类能够集结的最强大的计算集群。当Cursor自身精湛的模型训练机制,与SpaceXAI的百万级顶级算力相结合,下一代模型的全自主编程能力将进化到何种程度?这无疑是一个令人充满无限想象的问题。

可以预见,从Composer 2.5开始,软件开发的效率标准将被重新定义。每百万输出Token仅2.5美元的超低成本,意味着AI编程辅助将加速走向普及化和常态化。对于全球开发者而言,一个更高效、更智能的编程新时代,已经正式拉开帷幕。

来源:https://36kr.com/p/3816077580459783
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Composer 2.5 模型详解 Cursor推出的智能编程助手
AI资讯
Composer 2.5 模型详解 Cursor推出的智能编程助手

Cursor推出自研Agentic编程模型Composer2 5,在核心基准测试中性能与ClaudeOpus4 7、GPT-5 5相当,但单次任务成本仅为竞品的十分之一左右。它提供标准版和快速版,针对长时任务、复杂指令遵循等进行了优化,并通过CursorIDE及SDK提供服务,以极致性价比为开发者提供了新选择。

热心网友
05.20
Composer 25性能逼近Opus 47 成本仅为十分之一
业界动态
Composer 25性能逼近Opus 47 成本仅为十分之一

今天,AI编程领域迎来了一次震撼性的重大突破。Cursor,这个赛道中的核心竞争者,正式发布了其全面升级的AI编程模型——Composer 2 5。 权威基准测试结果显示,Composer 2 5在多项编程基准测试中的表现,已经直逼Claude 4 7 Opus和GPT-5 5等顶级模型。 这不仅仅

热心网友
05.20
阿里成立ATH并连发三款模型实现技术整合
AI资讯
阿里成立ATH并连发三款模型实现技术整合

全球AI竞赛如火如荼,所有技术投入的最终目标都高度一致:那就是切实提升社会生产力与商业效率。 直面竞争现实,不容丝毫松懈 2026年清明节期间,阿里通义千问Qwen3 6-Plus模型登顶全球AI平台OpenRouter日榜榜首并刷新调用记录的消息,引发了行业广泛关注。 如果将时间线拉长,观察阿里近

热心网友
05.20
智能体编程成本直降68% 多智能体动态协作技术详解
AI资讯
智能体编程成本直降68% 多智能体动态协作技术详解

随着“氛围编程”(Vibe Coding)理念的兴起,软件开发的核心范式正经历深刻变革,从传统的“程序员编写代码”转向“人类指挥AI智能体协同编码”。以Claude Code、OpenClaw为代表的先进系统,已经能够驱动智能体自主完成从编码、调试到完整任务执行的全流程。然而,当面对系统级工程开发或

热心网友
05.20
谷歌最强开源模型仅2B手机可跑免费商用
AI资讯
谷歌最强开源模型仅2B手机可跑免费商用

谷歌DeepMind今天扔下了一颗重磅冲击波:正式开源发布Gemma 4系列模型。根据官方说法,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而生。最引人注目的是,它号称实现了“单位参数下前所未有的智能水平”——换句话说,就是用更小的模型体量,干出更聪明的活儿。 先看几个硬核数据:其3

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

商汤大装置稳居中国MaaS市场第一梯队持续领跑
AI资讯
商汤大装置稳居中国MaaS市场第一梯队持续领跑

IDC报告显示,商汤“万象”平台以11 3%份额位居中国大模型私有化市场第二。平台通过一站式模型服务、全生命周期专家支持及低代码工具链,满足企业安全、性能与成本需求,推动AI在政务、交通、能源等行业落地,降低技术门槛,加速价值实现。

热心网友
05.20
实用AI工具盘点与选择指南提升工作效率
AI教程
实用AI工具盘点与选择指南提升工作效率

市场上有多种高效AI工具可供选择。WPSAI能智能处理文档,Grammarly辅助写作纠错,AIPPT工具快速生成演示文稿,ChatGPT进行对话与创作,DeepL提供精准翻译。CanvaAI助力设计,GitHubCopilot和TabNine提升编程效率,AI去背工具简化图像编辑。这些工具覆盖写作、设计、编程等场景,能显著提升工作效率。

热心网友
05.20
对话Bitget AI负责人:AI交易如何无限逼近满分却难达完美
AI资讯
对话Bitget AI负责人:AI交易如何无限逼近满分却难达完美

BitgetAI负责人Bill博士指出,AI在交易平台中已能高效整合信息、辅助决策,提升效率。当前产品注重个性化建议与安全易用的交互,如通过Telegram提供自然对话辅助。AI虽无法完全替代顶尖交易员,但其价值在于赋能用户、优化流程。未来竞争关键将在于安全体系、成本控制及持续学习用户习惯的能力。

热心网友
05.20
2026年热门AI软件工具精选与推荐指南
AI教程
2026年热门AI软件工具精选与推荐指南

2024年,AI工具正深度融入工作流程,提升效率与创意。WPSAI集成于办公软件,助力文档创作与优化;ChatGPT作为多功能对话模型,辅助编程与文案;GoogleBard擅长信息整合与自然对话;BoardMix结合白板与AI,可生成思维导图等可视化内容;NewBing融合搜索与对话,兼具创意与可信来源;NotionAI能自动处理会议纪要等文本任务;Gram

热心网友
05.20
代币化美股热度飙升 加密券商能否颠覆传统金融格局
web3.0
代币化美股热度飙升 加密券商能否颠覆传统金融格局

代币化美股热度上升,投资者可通过区块链交易相关资产,挑战传统券商模式。其优势包括降低门槛、提升流动性和全天候交易,但也面临监管不明确等风险。未来能否颠覆传统金融,取决于技术发展与合规进程。

热心网友
05.20