首页 游戏 软件 资讯 排行榜 专题
首页
AI
Claude+Opus 4.6编程大赛:挖掘500个day0漏洞与K线成交量分析

Claude+Opus 4.6编程大赛:挖掘500个day0漏洞与K线成交量分析

热心网友
18
转载
2026-02-09


智东西
作者|王涵
编辑|心缘

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西2月6日报道,今天凌晨,Anthropic正式发布旗舰模型Claude Opus 4.6,是Anthropic首款开启100万token上下文窗口测试功能的旗舰级模型。


Opus 4.6具备更缜密的规划能力,能维持更长时间的智能体任务执行,可以在庞大代码库中稳定运行,并能够进行自我纠错。

在基准测试中,Opus 4.6在智能体编程评估Terminal-Bench 2.0中获得最高分,于综合性多学科推理测试Humanity’s Last Exam中也坐稳了第一名的宝座。

针对金融、法律等经济价值领域的GDPval-AA评估中,Opus 4.6也是第一,并较第二名的GPT-5.2拉开约144个Elo分差,较前代版本Claude Opus 4.5提升了190分。


就在Opus 4.6发布后几分钟,OpenAI把GPT-5.3-Codex也搬了出来“正面硬刚”。截至北京时间2月6日11点,X平台上有关“Claude VS Codex”的话题下已有4.1万条讨论。


Varick Agent的CEO“vas”发帖称:“Claude 4.6 Opus仅用一次调用就重构了我的整个代码库。25次工具调用,新增3000多行代码,创建了12个全新文件。它模块化了所有内容,拆解了单体架构,理顺了混乱的逻辑。结果没一个能运行,但重构后的代码,实在是美得惊人。”


有网友展示出他用Opus 4.6一次性做出的k线成交量分布表。评论区纷纷感叹:这要是真的,那一切都结束了。

在话题讨论中,有不少网友都自发测评了Opus 4.6与GPT-5.3 Codex这两款模型,还晒出了测试Agent在复杂现实世界任务中的表现的Terminal-Bench,结果显示GPT-5.3 Codex比Opus 4.6领先了11.9%。


在网友的测评中,在编程方面GPT-5.3 Codex获得的好评似乎更多。有网友发出对比:“Opus 4.6有100万上下文+企业/知识工作+发现500个零日漏洞+Claude代码中的Agent集群-基准测试成绩不如Codex 5.3;而gpt-5.3-codex有代码基准测试胜出+速度更快+任务中转向,但上下文窗口不到Opus的一半。”


还有网友放出了更直观的性能对比图:




价格上,在200K上下文以内(包括200K),Opus 4.6输入每百万token的价格为5美元(约合人民币34.69元),输出每百万token的价格为25美元(约合人民币173.45元);超过200K上下文,Opus 4.6输入每百万token的价格为10美元(约合人民币69.38元),输出每百万token的价格为37.5美元(约合人民币260.18元)。


此外,Anthropic还将向Pro与Max用户限时赠送价值50美元(约合人民币346.9元)的额外使用额度,不适用于Team版、企业版及API/控制台用户。

使用额外额度的用户需同时满足以下两个条件:

1、已于2026年2月4日(太平洋时间)晚11:59前开通Pro或Max订阅;

2、在2026年2月16日(太平洋时间)晚11:59前启用额外用量功能。

Claude Opus 4.6即日起在claude.ai正式、API接口及所有主流云平台同步上线。开发者可通过Claude API调用claude-opus-4-6模型。

一、“大海捞针”测试得分76%,缓解“上下文衰减”问题

在多语言编程测试SWE-bench Multilingual中,Opus 4.6的成绩较Opus 4.5提升1.6分;在网络安全漏洞复现测试CyberGym中,Opus 4.6获得66.6分,较Opus 4.5提升15.6分,是Sonnet 4.5分数的两倍多。


Opus 4.6在长文本连贯性测试Vending-Bench 2中以 8017.59 的分数大幅领先,在计算生物学BioPipelineBench测试中也以53.1分的成绩位居第一。


Opus 4.6在从海量文档中检索相关信息方面能力较上一代有所提升。这一优势延伸至长上下文任务,它能在处理数十万token时更稳定地保持和追踪信息,减少信息漂移,并能捕捉到可能遗漏的深层细节。

Anthropic团队在博客中称,用户常抱怨AI模型存在“上下文衰减”问题——即对话超过一定token数量后性能会下降。

对此,研究团队对Opus 4.6进行了MRCR v2的“8针-100万”变体测试,这是类似于一种在浩瀚文本中检索隐藏信息的“大海捞针”式基准测试。在这个测试中Opus 4.6得分达76%,而Sonnet 4.5仅得18.5%。


Opus 4.6的综合基准测试如下图所示。总而言之,Opus 4.6在长上下文中查找信息更精准,吸收信息后的推理能力更强。


二、行为失范率极低,新增六类网络安全探测工具

智能水平的飞跃并未以牺牲安全性为代价。在Anthropic的自动化行为审计中,Opus 4.6的行为失范率极低,行为失范包括欺骗、奉承、助长用户妄想以及配合滥用等情形。

其安全对齐程度与前代旗舰模型,即迄今为止对齐度最高的Claude Opus 4.5保持同等水准。


值得注意的是,Opus 4.6在所有近期Claude模型中展现出最低的过度拒绝率,即模型未能回应良性查询的情况。


在博客中,Anthropic团队透露,针对Opus 4.6,他们开展了迄今最全面的安全评估体系,首次应用多项全新测试方法并对既有评估方案进行升级。Anthropic团队新增了用户福祉评估、更复杂的危险请求拒答能力测试,并更新了模型隐蔽执行有害行为的评估标准。

同时,其运用可解释性科学的新方法进行实验,开始探究模型特定行为背后的成因,以期发现标准测试可能遗漏的问题。

针对Opus 4.6在特定领域可能被危险利用的突出能力,研究团队同步部署了新的防护机制。尤其鉴于该模型显著增强的网络安全能力,他们开发了6种新型网络安全探测工具以帮助追踪不同形式的潜在滥用行为。

同时,Anthropic也在加速推进Opus 4.6在网络防御领域的应用,通过其协助发现并修复开源软件漏洞。

他们认为网络防御者利用Claude这类AI模型来平衡攻防态势至关重要。网络安全领域发展迅速,Anthropic将根据对潜在威胁的认知持续调整和更新防护措施,近期其可能启动实时干预机制以阻断滥用行为。

三、API新增自适应思考功能,Claude Code现可多智能体并行

通过API接口,开发者们还可以获取到更精细的模型算力控制方案,并为长期运行的智能体任务带来更高灵活性。具体新增以下功能:

1、自适应思考:此前开发者仅能在启用或禁用深度思考模式间二选一。现在通过自适应思考功能,Claude可自主判断何时需要深度推理。在默认算力等级(高)下,模型会在必要时启动深度思考,开发者也可通过调整算力等级来改变其触发频率。

2、算力调控:现提供四个可调节的算力等级:低、中、高(默认)、极致。

3、上下文压缩(测试版):长程对话与智能体任务常触及上下文窗口限制。当对话接近可配置阈值时,上下文压缩功能将自动总结并替换早期对话内容,使Claude能够执行更长任务而不受限制。

4、100万token上下文(测试版):当提示内容超过20万token时,将适用高级定价。

5、128k输出token:Opus 4.6支持最高128k token的输出长度,使Claude能完整处理需要大规模输出的任务,无需拆分为多次请求。

6、美国境内推理:对于需要在美国境内运行的工作负载,可选择美国专属推理服务,定价为标准token费用的1.1倍。

在Claude与Claude Code平台,Anthropic新增了多项功能:

Claude Code中新增智能体团队的研究预览功能。现在用户可以启动多个并行工作的智能体,它们将自主协同配合,特别适用于代码库审查这类可拆分为独立、重读取的子任务。

在与常用办公工具的协作体验方面,Claude Excel集成版现在能够处理长时程与高难度任务,支持先规划后执行、自主解析非结构化数据并推断正确格式,还能单次完成多步骤修改。

Excel集成版还能搭配PowerPoint集成版使用,用户可先在Excel中处理并结构化数据,再通过PowerPoint实现可视化呈现。

PowerPoint集成功能现已面向Max、Team及企业版用户开放研究预览。

四、放手两千次会话,Opus 4.6率智能体团队“炼”出十万行C编译器

Anthropic最新还给出了一个开发者使用并行Claude智能体团队构建C语言编译器的案例。在这个案例中,开发者指派Opus 4.6率领智能体团队构建一个C语言编译器,随后便基本放手任其运行,仅用两周,就完成了一个小团队一个月的工作。

(视频)

在为期两周、近2000次Claude Code会话中,Opus 4.6消耗了20亿个输入token并生成1.4亿个输出token,总成本略低于2万美元(约合人民币13.88万元),这个成本仅相当于开发者个人独立完成所需投入的零头。

最终Opus 4.6做出了一个有着10万行代码规模的编译器,并且是净室实现,即开发全程Claude无网络访问权限,仅依赖Rust标准库。

这个编译器能在x86、ARM和RISC-V架构上构建可启动的Linux 6.9内核,还能编译QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型项目。

该编译器在包括GCC torture测试套件在内的大多数编译器测试中达到99%通过率,甚至通过了编译器、操作系统等底层技术的 “终极测试”:成功编译并运行第一人称射击游戏《Doom》。

经过多轮实践,开发者总结出了协调多个Claude高效协作的四大核心方法:

1、改进测试框架:

在项目后期,Claude每次实现新功能时都会频繁破坏现有功能。为此开发者构建了持续集成流水线,实施更严格的检查机制,让Claude能更好地测试自身工作,确保新提交不会破坏现有代码。

2、站在Claude的视角设计适配环境:

每个智能体都启动于无上下文的新容器中,会花费大量时间自我定位,尤其在大型项目中。甚至在运行测试前,为帮助Claude自助,开发者需要在说明中要求维护详细的README文档和进度文件,并需频繁更新当前状态。

3、简化并行机制:

当存在多个独立失败的测试时,并行化轻而易举,但当智能体开始编译Linux内核时却陷入困境。与包含数百个独立测试的套件不同,编译Linux内核是单项巨型任务,所有智能体都会遇到相同的bug,修复后却互相覆盖修改,运行16个智能体也不行,因为它们都卡在解决同一问题上。

为此,开发者编写了新测试框架,将GCC作为在线验证编译器进行比对。这让每个智能体都能并行工作,在不同文件中修复不同bug,直至Claude的编译器最终能编译所有文件。

4、多元智能体角色分工:

LLM编写的代码常重复实现现有功能,因此开发者指派了一个智能体专门合并发现的重复代码。另一个负责优化编译器本身的性能,第三个则专攻输出高效的编译代码,还让一个智能体以Rust开发者视角批判项目设计并进行结构性改进,另设智能体专注文档工作。

开发者称,该成果已经逼近Opus的能力边界,但仍有需要提升的方面:

1、16位x86编译器缺失:缺乏从实模式启动Linux必需的16位x86编译器,该环节需调用GCC(x86_32和x86_64编译器为自主实现);

2、汇编器与链接器不完善:这两部分是Claude最后开始自动化的模块,目前仍存在较多缺陷。演示视频中使用的是GCC汇编器与链接器;

3、兼容性未达全替代标准:虽能成功构建众多项目,但尚不能完全替代真实编译器;

4、代码生成效率偏低:即使启用所有优化选项,其输出代码效率仍低于禁用优化的GCC;

5、Rust代码质量有限:代码质量尚可,但远未达到专业Rust程序员的水准。

结语:Anthropic在安全性上下了狠功夫

Opus 4.6在长上下文理解、复杂推理与智能体协作等方面的性能提升,为企业级高密度、长周期任务提供了新的解决方案。

同时,在Anthropic的博客中,他们用了很大篇幅来写新模型的安全性。Anthropic通过增强安全评估体系与部署主动防护机制,展现出对AI风险治理的前置性投入。

来源:https://www.163.com/dy/article/KL3AI24T051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

国内首款“养虾本”来了
科技数码
国内首款“养虾本”来了

2026 04 14 一个核心趋势是:未来的商业竞争,本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求,谁就能在市场中赢得关键优势。 本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路,每个环节都紧密耦合。实践证明,其中任一节点的效率

热心网友
04.14
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”
科技数码
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”

AI行业迎来关键转折:从“烧钱补贴”迈入“商业化定价”新阶段。被市场誉为“Token第一股”的迅策科技(03317)迎来重大利好。近期,国泰君安国际大幅上调其目标价至245港元 股。多重因素驱动下,迅策有望成为AI领域“千亿市值俱乐部”的有力竞争者。 中国AI实现弯道超车:成本优势构筑核心壁垒 全球

热心网友
04.14
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话
AI
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。

热心网友
04.07
Agent接管EDA工作流,不只写脚本!浙大打通真实芯片设计闭环
AI
Agent接管EDA工作流,不只写脚本!浙大打通真实芯片设计闭环

新智元报道编辑:LRST【新智元导读】从「会写Tcl」,到「能真正推进设计优化流程」,大模型正第一次以Agent形态进入真实EDA工具链。大模型正在快速进入工程研发现场。但在 EDA(电子设计自动化

热心网友
04.07
企业微信CLI开源,向AI开放消息、日程、文档等能力
科技数码
企业微信CLI开源,向AI开放消息、日程、文档等能力

新京报贝壳财经讯(记者韦英姿)3月30日,企业微信CLI(命令行界面)开源项目上架GitHub社区,开放消息、日程、文档、智能表、会议、待办、通讯录等七大产品能力,支持主流AI Agent(如Cla

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

追觅宣布进军天文领域 构建“空天地一体化”生态
科技数码
追觅宣布进军天文领域 构建“空天地一体化”生态

“我们的代码,终将写入繁星”:追觅科技成立天文BU,构建从地面到太空的生态闭环 “我们的代码,终将写入繁星。”这句来自追觅科技的宣言,不只是一句诗意的口号,更是一份清晰的战略升级路线图。就在9月10日,这家中国科技企业正式宣告成立天文业务单元(BU),由此完成了一次至关重要的战略跃迁。这标志着其“全

热心网友
04.17
Just Learn
AI
Just Learn

Just Learn是什么 提起用AI为教育赋能,Just Learn这款工具是个绕不开的名字。它由Just Learn公司开发,核心目标非常明确:一手帮教师扩展专业能力,一手为学生打造个性化的学习旅程。说到底,它的价值在于通过AI驱动学习和24 7全天候辅导这两大核心,把教育资源重新“盘活”,让老

热心网友
04.17
Vue 渲染机制中的伪代码拆解:三分钟看懂 Patch 函数的核心逻辑
前端开发
Vue 渲染机制中的伪代码拆解:三分钟看懂 Patch 函数的核心逻辑

Vue 渲染机制深度解析:Patch 函数核心逻辑与优化策略 Vue js 的响应式系统实现了数据驱动视图的核心理念。然而,当数据发生变化时,视图是如何被高效且准确地更新的呢?这背后的核心引擎,正是虚拟 DOM 体系中的 Patch 函数。它并非直接操作真实 DOM,而是通过深度比对新旧虚拟节点(V

热心网友
04.17
JRPG神作《空之轨迹 the 2nd》发售日公布!首批特典送前作
游戏评测
JRPG神作《空之轨迹 the 2nd》发售日公布!首批特典送前作

《空之轨迹SC》完全重制版《空之轨迹 the 2nd》正式定档2026年9月17日,登陆多平台 日本Falcom官方正式公布,经典日式角色扮演游戏《空之轨迹SC》的完全重制版——《空之轨迹 the 2nd》,将于2026年9月17日全球同步发售。本作将登陆任天堂Switch 2、Switch、Pla

热心网友
04.17
AI Art Prompt Generator
AI
AI Art Prompt Generator

AI艺术提示生成器是什么 简单来说,你可以把它理解为一个永不枯竭的创意火花塞。这个基于前沿AI技术的工具,专为破解创作瓶颈而生,无论你是专业画师还是灵感偶尔“罢工”的爱好者,它都能派上用场。它的工作原理并不复杂:依托当前顶级的OpenAI模型,将你的初步想法“催化”成一系列具体、新颖且富有启发性的艺

热心网友
04.17