首页 游戏 软件 资讯 排行榜 专题
首页
AI
Cursor Composer 2.5评测 低成本实现Opus 4.7级AI编程体验

Cursor Composer 2.5评测 低成本实现Opus 4.7级AI编程体验

热心网友
65
转载
2026-05-19

今天凌晨,Cursor扔出了一枚重磅冲击波:迄今为止最强大的模型Composer 2.5正式亮相。官方给出的评价相当直接——它更聪明了,尤其擅长处理那些耗时较长的持续性任务,在遵循复杂指令方面也变得更加可靠。

更引人注目的是其性能与成本的对比。有说法称,它能以十分之一的成本,实现接近Claude Opus 4.7级别的性能。如果这个说法成立,那意味着在高端模型竞技场上,性价比的天平正在发生倾斜。

图片

与上一代Composer 2相比,2.5版本在智能水平和行为表现上可谓全面提升。这背后是一系列技术升级的共同结果:训练规模的扩大、更复杂的强化学习环境构建,以及新学习方法的引入。

图片

除了在更难的任务上“锤炼”模型,Cursor团队还花了不少心思优化那些基准测试难以衡量、却直接影响用户体验的维度,比如模型的沟通风格和努力程度的校准。这些细节的打磨,往往才是决定一款产品好用的关键。

从官方披露的成本效率对比图来看,Composer 2.5在同等能力的模型中优势明显,其成本效率最高可达其他模型的10倍。

图片

一个值得关注的细节是,Composer 2.5基于与Composer 2相同的开源检查点构建,即月之暗面的Kimi K2.5。这或许意味着,在优秀的基座模型之上,通过精妙的后续训练和调优,同样能激发出惊人的潜力。

图片

与此同时,Cursor还宣布了与SpaceXAI的一项重磅合作:双方将联手,从零开始训练一个规模大得多的新模型。据悉,总算力投入将是此前的10倍。借助SpaceXAI的Colossus 2超算(拥有百万块H100等效算力),以及双方积累的数据和训练技术,这很可能预示着模型能力的一次“代际”飞跃。

马斯克本人也在社交媒体上发声,呼吁大家试用Composer 2.5,并透露该模型的部分训练正是在Colossus 2上完成的。

图片

Cursor创始人对此信心十足,他表示团队在强化学习方面已经做得“极其出色”,Composer 2.5的表现远超其参数规模应有的水平。对于下一个与SpaceXAI合作的版本,他们“无比兴奋”,并计划大幅扩展模型规模和算力投入。

图片

Composer 2.5 训练体系

Composer 2.5的训练体系引入了多项关键改进,这些改进同时瞄准了模型智能和实际可用性。

第一项革新,是基于文本反馈的精准强化学习。

随着单次推理过程可能长达数十万token,强化学习中的“功劳分配”成了大难题。当奖励是基于整个冗长的推理过程计算时,模型很难分辨到底是哪一个具体决策导致了最终结果的好坏。当我们想抑制某个局部不良行为时——比如一次错误的工具调用、一处令人费解的解释,或是一种风格违规——最终奖励只是一个充满噪声的信号,它告诉你出了问题,但问题具体出在哪儿,却无从得知。

Cursor的解决方案是引入精准的文本反馈。思路很巧妙:在模型推理轨迹中那个本可以做得更好的具体节点,直接插入一段描述期望改进方向的简短提示。这将形成一个“教师”模型的概率分布。然后,以原始上下文中的策略作为“学生”,通过一个同策略蒸馏的KL损失,将学生的token概率向教师的概率拉近。这样一来,既获得了对目标行为的局部化训练信号,又保留了基于完整轨迹的整体强化学习目标。

举个例子:在一个漫长的推理过程中,模型调用了一个不存在的工具,并收到了“未找到工具”的错误,然后它继续进行了其他有效调用。在数百次调用中,这一次错误对最终奖励的影响微乎其微。但通过文本反馈,可以精准定位这次错误:在出错的上下文中插入提示“提醒:可用工具有……”,附上列表。这会改变“教师”的概率分布,降低调用错误工具的概率。随后,仅针对这一轮交互,更新“学生”的权重。

在Composer 2.5的训练中,这一方法被广泛应用于调整代码风格、沟通方式等多种模型行为。

图片

第二项关键,是合成数据的规模化应用。

在强化学习训练中,模型的编程能力会快速提升,直到能正确完成大部分既定任务。为了持续“拔高”,Cursor在整个训练过程中动态筛选并创建更困难的任务。Composer 2.5使用的合成任务数量,达到了Composer 2的25倍。

他们采用了多种基于真实代码库创建合成任务的方法。例如“功能删除”:给智能体一个包含大量测试的代码库,要求它以某种方式删除部分代码和文件,使得代码库在移除某些可测试功能后仍能运行。而合成任务,就是重新实现被删除的功能,并用原有的测试用例作为可验证的奖励。

大规模创建合成任务也带来了意想不到的挑战:奖励破解。随着模型越来越强,它开始寻找各种精巧的“捷径”来完成任务。有案例显示,模型找到了一个遗留的Python类型检查缓存,并逆向工程其格式,从而复原了一个被删除的函数签名。在另一个案例中,它甚至找到并反编译了Ja va字节码,重建了一个第三方API。这些行为虽然被监控工具发现并诊断,但也说明,大规模强化学习需要越来越谨慎的对抗和设计。

图片

第三项,是底层基础设施的优化:分片Muon与双网格HSDP。

在持续预训练中,Cursor采用了分布式正交化的Muon优化器。生成动量更新后,以模型的自然粒度运行Newton-Schulz迭代:对注意力投影按每个注意力头处理,对堆叠的MoE权重则按每个专家处理。

主要开销来自专家权重的正交化。对于分片参数,他们将同形状的张量分批处理,通过“全量交换”将分片汇聚为完整矩阵,运行计算后再传回原始分片布局。这些传输是异步的,当一个任务在等待通信时,优化器运行时会推进其他任务,实现了网络传输与计算的重叠。这在效果上等同于全矩阵Muon,但能保持分片组持续忙碌。在1T参数的模型上,优化器单步耗时仅需0.2秒。

这与他们为MoE模型使用HSDP的方式紧密相关。HSDP构成多个FSDP副本,并在对应的分片之间进行梯度全归约。Cursor对非专家权重和专家权重使用了独立的HSDP布局:非专家权重相对较小,其FSDP组可以保持较窄的范围;而承载了绝大部分参数的专家权重,则使用更宽的专家分片网格。这种独立的布局设计,使得不同的并行维度可以重叠,既避免了不必要的广域通信,又将专家优化器的计算工作分摊到了更多GPU上。

Composer 2.5 定价

最后来看看大家关心的价格。Composer 2.5的标准版定价为每百万输入token 0.50美元,每百万输出token 2.50美元。

此外,还提供了一个速度更快、智能水平相同的变体,定价为每百万输入token 3.00美元,每百万输出token 15.00美元。Cursor指出,这个快速版的价格,比其他前沿模型的快速版本要更便宜。

来源:https://www.51cto.com/article/843598.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

尼克尔Z 70-200mm F2.8中长变焦镜头性价比高现售12799元
业界动态
尼克尔Z 70-200mm F2.8中长变焦镜头性价比高现售12799元

尼克尔Z70-200mmf 2 8VRS是一款顶级变焦镜头,采用豪华光学结构,包含多种特殊镜片以出色控制色差。其采用内变焦设计,配备三个独立控制环,支持自定义功能,操作便捷。镜头成像清晰细腻,具备f 2 8大光圈与强大防抖,对焦快速安静,满足专业用户对画质和可靠性的极致要求。

热心网友
05.18
网店模拟手游随机事件触发规律与高性价比处理攻略
游戏攻略
网店模拟手游随机事件触发规律与高性价比处理攻略

该手游通过随机事件系统模拟电商创业,事件间存在非线性关联,决策影响店铺长远发展。游戏包含选品、定价、人力及直播带货等核心模块,需玩家动态调整策略。渐进解锁与资金管理贯穿成长过程,结合经济周期模拟,兼顾策略深度与清晰的经营成长体验。

热心网友
05.18
大衣哥回应演出不涨价:高性价比是受邀关键
业界动态
大衣哥回应演出不涨价:高性价比是受邀关键

近期,“你就是朱之文”这一网络热梗席卷社交平台,让“大衣哥”朱之文再度成为公众焦点。在音乐节上与音乐人贰佰合作演绎《玫瑰》后,他更是赢得了众多年轻乐迷的青睐,成功实现了个人影响力的又一次“破圈”传播。 人气的急剧攀升,直接反映在纷至沓来的商业演出邀请上。仅五月份的演出日程,早已被排得密不透风。从青岛

热心网友
05.17
4060Ti 16G显卡性价比分析与消费级部署实战指南
AI
4060Ti 16G显卡性价比分析与消费级部署实战指南

计划在个人电脑上部署AI模型或体验多模态推理?RTX 4060 Ti 16GB凭借其大显存容量,常被视为高性价比选择。然而,决定其AI性能的关键因素远不止显存大小。核心计算能力、显存带宽以及软件生态的兼容性,共同构成了评估这张消费级显卡AI潜力的完整维度。本文将深入剖析RTX 4060 Ti 16G

热心网友
05.17
小众复古高性价比音频设备推荐实用与情怀兼具
业界动态
小众复古高性价比音频设备推荐实用与情怀兼具

你是否注意到,近期消费者选购音频设备的心态正在悄然转变?过去,许多人可能更关注醒目的品牌标识;如今,越来越多的用户趋于理性,开始深入思考产品的真实价值:音质表现究竟如何?功能是否切合实际需求?价格是否合理?这股“性价比为王”的消费新风尚,正在深刻重塑整个音频市场格局。 耳机、智能音箱等日常必备品类自

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Mac清理Safari自动填充记录教程 保护苹果隐私安全
系统平台
Mac清理Safari自动填充记录教程 保护苹果隐私安全

在使用Safari浏览器时,自动填充功能确实能极大提升效率。但随着时间推移,其中可能积累大量过时地址、失效密码,甚至无意保存的敏感内容。这些残留记录不仅影响使用体验,更可能成为隐私泄露的隐患。本文将系统介绍在Mac上彻底清理Safari自动填充记录的多种实用方案,帮助您有效管理浏览器数据。 一、通过

热心网友
05.19
关闭Windows自动维护功能 解决电脑空闲时CPU占用过高问题
系统平台
关闭Windows自动维护功能 解决电脑空闲时CPU占用过高问题

你是否遇到过这样的困扰:电脑明明处于空闲状态,风扇却突然高速运转,硬盘指示灯频繁闪烁,任务管理器显示CPU或磁盘占用率异常飙升?这种“系统看似休息,硬件却异常忙碌”的现象,很可能源于Windows系统内置的“自动维护”功能在后台悄然运行。该功能的设计初衷是好的,旨在利用系统空闲时间自动执行磁盘碎片整

热心网友
05.19
Win11高对比度模式开启教程 弱视用户屏幕显示优化指南
系统平台
Win11高对比度模式开启教程 弱视用户屏幕显示优化指南

如果你在使用Windows 11时,感觉屏幕上的文字、图标或按钮有些模糊不清,看久了眼睛容易疲劳,这可能不是你的视力问题,而是系统默认的色彩搭配对比度不够。为了让界面元素更醒目、更容易识别,Windows 11内置了一个非常实用的功能——高对比度模式。它通过大幅强化前景与背景的颜色差异,能显著提升屏

热心网友
05.19
Mac关闭Spotlight索引的详细步骤与禁用设置技巧
系统平台
Mac关闭Spotlight索引的详细步骤与禁用设置技巧

当你的Mac出现运行卡顿、风扇噪音增大或应用程序启动缓慢时,很可能是因为Spotlight索引服务正在后台占用大量系统资源。Spotlight作为macOS内置的搜索工具,虽然方便,但其持续的索引过程确实可能影响性能。本文将详细介绍五种有效管理Spotlight的方法,包括彻底禁用、精准控制索引范围

热心网友
05.19
Mac清理Microsoft Teams缓存详细步骤指南
系统平台
Mac清理Microsoft Teams缓存详细步骤指南

当您在 macOS 上遇到 Microsoft Teams 运行缓慢、界面显示错误或登录失败等问题时,不必立即归咎于网络或系统故障。一个常见且高效的解决方案是清理应用程序的本地缓存文件。这些缓存数据在长期使用后可能损坏或过时,从而影响软件性能。本文将为您提供三种在 Mac 上安全清理 Teams 缓

热心网友
05.19