Rubber Duck功能缩小Claude Sonnet与Opus性能差距74.7%

时间：2026-04-16 21:43

GitHub Copilot CLI 重磅升级：Rubber Duck 功能引入“第二意见”审查，AI 编程效率提升近 75% 近日，GitHub Copilot 团队发布了一项突破性更新。4月6日，一项名为“Rubber Duck”的实验性功能正式亮相，为其命令行工具 Copilot CLI 引入

GitHub Copilot CLI 重磅升级：Rubber Duck 功能引入“第二意见”审查，AI 编程效率提升近 75%

近日，GitHub Copilot 团队发布了一项突破性更新。4月6日，一项名为“Rubber Duck”的实验性功能正式亮相，为其命令行工具 Copilot CLI 引入了创新的“双模型”协作机制。该功能的核心在于，通过整合来自不同模型家族的“第二意见”审查，显著提升代码生成与问题解决的可靠性。官方测试数据显示，这一设计使 AI 的代码处理性能实现了接近 75% 的大幅提升。

这一创新直指当前 AI 编程助手的核心挑战：在代码规划与生成的初始阶段，一旦智能体做出错误判断，该错误极易在后续环节中被层层放大。而仅依赖单一 AI 模型进行自我检查，往往会受限于其固有的训练数据与思维模式，难以发现自身盲点。Rubber Duck 功能的巧妙之处在于，它并非让模型“独自纠错”，而是引入一个来自不同技术背景的模型作为独立审查员，利用差异化的视角来识别潜在问题与逻辑漏洞。

那么，这个“第二大脑”具体如何运作？它采用了跨模型家族的组合策略。例如，当开发者选择 Claude 系列模型作为主要代码生成智能体时，Rubber Duck 功能便会自动调用 GPT-5.4 模型担任审查者。后者的核心职责，是对前者的工作计划与代码输出进行系统性评估，并提交一份详尽的“审查关注点清单”。这份清单通常涵盖了被忽略的关键细节、有待商榷的底层假设，以及容易引发错误的边界情况。

概念之外，实际效果更具说服力。GitHub 团队使用权威的 SWE-Bench Pro 基准进行了全面测试。通过对比 Claude Sonnet 4.6 与更强大的 Claude Opus 4.6 单独运行的性能差距，他们发现：当为 Sonnet 4.6 配备 Rubber Duck 审查机制后，其性能竟能弥补两者间高达 74.7% 的差距。这一数据充分证明了“第二意见”在提升 AI 编程准确性方面的巨大价值。

尤其在处理高复杂度任务时，例如涉及 3 个以上文件修改或需要超过 70 步操作的棘手问题时，搭载 Rubber Duck 的智能体得分比基线版本高出 3.8%。在实际应用案例中，该机制成功识别了多种深层隐患，包括系统架构中的逻辑缺陷、循环覆盖错误，以及跨文件协作时可能产生的隐性冲突。

为适应多样化的开发需求，Rubber Duck 提供了三种可配置的协作模式：主动模式、被动模式与用户触发模式。系统会在几个关键节点自动发起审查，例如在智能体完成计划制定后、实现一段复杂功能后，或编写完测试用例后。当然，如果智能体陷入“思考循环”或长时间无进展，系统也会被动触发审查介入。为确保流程透明，开发者亦可随时手动请求审查，Copilot CLI 将清晰展示审查反馈内容及具体的修改建议与依据。

目前，这项极具潜力的功能已以实验模式正式上线。有兴趣体验的开发者，只需安装最新版 GitHub Copilot CLI，并通过运行 /experimental 命令即可启用。启用后，选择 Claude 作为主模型，并确保拥有 GPT-5.4 的 API 访问权限，即可亲身感受“双脑协同”为编程工作流带来的效率飞跃。

来源：https://www.163.com/dy/article/KPVU559S0511B8LM.html

duck opus 功能缩小安全标准 rubber claude

上一篇苹果自研AI服务器芯片Baltra曝光：直接采购基板，把控封装质量 下一篇数毛社评测《赛博朋克2077》PS5 Pro更新：光追升级，但仍存局限

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

宇树验证具身智能新趋势核心战场不止于模型

具身智能领域的竞争，正步入一个全新的发展阶段。近日，宇树科技正式发布了其WVLA2 0具身大模型，并公开展示了无需远程遥操的实机演示。这一举动向业界释放了一个明确信号：当前这场竞赛的核心壁垒，或许已不再是谁拥有更大的模型参数，而是谁的架构设计更为精巧、谁能更深度地实现软硬件一体化、谁能积累更海量的实

科技数码 · 2026-07-01

智元精灵G2机器人产线直播完成64828件成功率99.99%

99 99%的任务成功率——这是智元机器人在6月23日至28日期间，将精灵G2机器人直接部署到真实的平板量产质检产线，并全程公开直播后，交出的最具说服力的答案。让我们关注这场直播的硬核数据：连续64小时不间断作业，产线累计完成17625件产品检测，机器人累计执行64828次操作，任务成功率精确达到

科技数码 · 2026-07-01

纯电动Cayenne首秀保时捷驾驶中心全国路演

保时捷正在加速推进其电动化转型战略。继纯电动Cayenne与Gen 3 Evo赛车在三亚街道赛共同亮相后，仅过了一周时间，这款全新纯电SUV便驶入中国专业赛道场景——这一次，地点换成了永久性专业赛道。回顾2026年北京车展，保时捷首款纯电动Cayenne Turbo正式首发并公布了售价。新车提供两

科技数码 · 2026-07-01

AI工具能否成为高价志愿咨询纠纷的破局之道

广东高考成绩公布后，志愿填报这场“第二次大考”随即全面开启。对众多家庭而言，这或许比高考本身更令人心力交瘁——时间紧迫、信息庞杂、选项繁多，每一步都如履薄冰。教育部近日发布预警，严厉批评那些漫天要价的“志愿规划师”，直言其本质上就是忽悠。然而每年踩坑的案例仍屡见不鲜，网上信息真假混杂，不同机构给出的

科技数码 · 2026-07-01

头部企业全产业链布局锂电池回收循环

近年来，伴随新能源汽车产业的爆发式增长，早期投入使用的动力电池正迎来集中退役高峰，锂电池回收行业因此进入一个至关重要的“窗口期”。这些退役电池中富含锂、钴等珍贵金属资源——尤其是被誉为“白色石油”的锂，正从地下矿藏逐渐转向我们身边的“城市矿山”，从“一次性使用”的线性消耗模式，迈向“循环再生”的可持