首页 游戏 软件 资讯 排行榜 专题
首页
AI
GPT-5.5全球首发实现零代码编程 AI技术开启智能开发新纪元

GPT-5.5全球首发实现零代码编程 AI技术开启智能开发新纪元

热心网友
47
转载
2026-05-14

今天,编程AI的“终极考试”迎来了第一位破局者。在一个让所有前沿模型集体交白卷的新基准——ProgramBench上,GPT-5.5成功解出了第一道题,实现了零的突破。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这个由Meta联手斯坦福、哈佛推出的基准,难度堪称“地狱级”。它包含了200个任务,要求AI仅根据一个编译好的可执行文件和一份文档,从零开始完整重写出该程序。不给源代码,不许反编译,也不许联网。从jq、ripgrep这类小工具,到FFmpeg、SQLite乃至PHP编译器这样的重量级项目,无一不是挑战。

此前,所有模型的通过率都是0%。正如OpenAI研究员Noam Brown所言,是时候淘汰旧的评估方式了。而GPT-5.5的这次突破,无疑为编程AI的能力评估树立了新的里程碑。

编程AI「终极考试」,从0重建程序

ProgramBench的“难”,在于它彻底改变了游戏规则。传统的编程基准,如SWE-bench或HumanEval,本质是“修bug”或“补函数”,模型是在已有代码库的基础上工作,相当于开卷考试。而ProgramBench是真正的“闭卷”:只给成品和说明书,要求你逆向出整个制造过程。

正是在这样严苛的条件下,GPT-5.5攻克的第一个任务是“cmatrix”——一个在终端显示《黑客帝国》风格数字雨效果的经典程序。更令人惊讶的是,其不同推理级别选择了截然不同的策略。

GPT-5.5首破纪录:同一题,C和Python两种解法

GPT-5.5的high和xhigh两个版本,分别用C语言和Python完成了对同一道题的解答,并且都通过了全部行为测试。

其中,high版本展现出了教科书般的工程方法:它先进行了10轮探索,测试了40多种命令行标志组合,彻底摸清了原程序的所有行为边界。然后,它一次性写出了完整的C语言实现,仅经过5次细微调整便宣告成功。

xhigh版本则更加缜密,进行了27步探索,穷尽了每一条可能的命令行路径,最终一气呵成地交付了完整的Python程序。

关键数据揭示了“推理算力”的核心作用。在默认(medium)推理模式下,GPT-5.5的表现仅略优于Claude Sonnet 4.6。然而,一旦切换到xhigh模式,性能便直线飙升。

它不仅成为首个解出题目的模型(通过率0.5%),更在26个任务上通过了95%以上的单元测试,创下了“几乎解出”任务数量的新纪录。从平均分、中位数到高通过率任务占比,GPT-5.5 xhigh在各项指标上均实现了对竞争对手的全面碾压。

178次调用,Opus 4.7栽在两个bug上

与GPT-5.5的“高效”形成鲜明对比的,是Claude Opus 4.7 xhigh的“高成本”失利。它花费了10.74美元,调用了178次API,成本是GPT-5.5普通版本的十倍有余,结果却有19个测试失败,成绩垫底。

失败原因出人意料地简单,却足以致命:

第一个bug是颜色解析的大小写敏感问题。 Opus的代码使用了区分大小写的strcmp()而非strcasecmp(),导致“GREEN”、“Red”等输入被误判为无效。这个细微的函数选择差异,直接导致了11个测试失败。讽刺的是,在其漫长的178步探索中,它从未测试过大写或混合大小写的颜色输入。

第二个bug是无效颜色的退出码错误。 原程序遇到无效颜色参数时应返回exit(0),但Opus的实现错误地返回了exit(1)。尽管它在探索阶段已经观察到了正确的行为,却未能在自测中发现这一偏差,这又导致了8个测试失败。

不过,Opus 4.7也并非全无亮点。在处理缺失的ncurses头文件时,它展现了惊人的系统工程能力。当其他模型选择改用ANSI转义序列这种更简单的方案时,Opus花了约20步进行深入调查:用ldconfig -p查找动态库,用nm -D检查导出符号,最终手写了一份106行的头文件来直接链接动态库。这是一种充满创意的硬核工程思维,可惜并未转化为更好的测试成绩。

还有199题未解

ProgramBench的出现,标志着编程基准评估进入了一个新阶段。传统的SWE-bench通过率已被“卷”到了88.7%,GPQA上AI的表现甚至超过了多数博士生。这些旧基准正在快速“融化”,区分度越来越低。

而ProgramBench的200道题,至今仍只有1道被攻克,整体通过率仅为0.5%。这清晰地表明,AI在“从零创造”而非“局部修补”的能力上,仍有漫长的路要走。

更重要的是,此次突破揭示了一个关键趋势:“推理算力”正成为决定编程AI能力上限的核心变量。 同一个GPT-5.5模型,在中等推理模式下表现平平,但在高推理模式下却实现了质的飞跃。这说明,限制模型表现的或许并非其知识或架构的绝对上限,而是我们给予它“思考”的时间和资源。

历史经验表明,AI发展史上的每一个“从零到一”时刻——无论是AlphaGo击败职业棋手,还是GPT-4通过专业考试——都从来不是线性进步的起点,而是能力即将指数爆发的信号。

Noam Brown提出的推理算力缩放定律,在ProgramBench上得到了直观验证。智能,或许正日益表现为算力的函数。这意味着,通往更高级AI的路径,可能不一定需要等待碘伏性的架构革命。只要推理算力能够持续扩展,今天只能重建一个终端特效程序的模型,明天或许就能挑战SQLite,后天甚至可能尝试理解更复杂的系统核心。

ProgramBench上剩余的199道未解之谜,正是这条进化之路上的一个个新路标。

来源:https://www.aitntnews.com/newDetail.html?newId=25051
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

CTO如何平衡AI效率提升与团队建设管理
AI
CTO如何平衡AI效率提升与团队建设管理

最近,一个反复出现的新闻标题越来越常见:某大型企业一边高调宣扬AI带来的效率提升,一边大规模裁员。 主角轮番更替,背后的逻辑却如出一辙。企业既面临内部削减成本的压力,又需要向外界展示竞争优势。对许多企业而言,这意味着加大AI的使用力度,同时裁减被认为“多余”的员工——尽管目前对AI能力与可靠性的评估

热心网友
05.13
企业ESG治理新路径 合规与伦理实践指南
科技数码
企业ESG治理新路径 合规与伦理实践指南

人工智能深度融入企业ESG治理,成为推动绿色转型的关键引擎。它显著提升了数据管理、风险识别与决策效率,助力企业将可持续发展转化为竞争优势。然而,AI应用也面临数据质量、合规成本及伦理挑战,企业需在利用技术红利的同时,构建以人为本的负责任治理框架。

热心网友
05.13
豆包AI代码审查使用教程与操作步骤详解
AI
豆包AI代码审查使用教程与操作步骤详解

想要高效利用豆包AI进行代码审查,精准发现潜在缺陷、提升代码可维护性与安全性?这需要掌握正确的方法。直接提交一段代码并简单指令“帮我审查”,往往难以获得深度、有价值的反馈。关键在于采用结构化指令与多维度验证策略,以下将详细拆解具体操作步骤。 一、提供清晰上下文与明确审查指令 豆包AI的代码审查质量,

热心网友
05.13
苹果推出AI虚拟培训师革新销售教练模式
科技数码
苹果推出AI虚拟培训师革新销售教练模式

苹果将在其销售培训平台AppleSalesCoach中引入AI虚拟讲师,用于制作个性化培训视频。该功能可根据员工负责的产品线、需提升的技能及母语生成定制内容。所有内容均由内部专家团队策划与审核,确保准确性,且AI生成视频会添加明确标识以区分。

热心网友
05.13
Figma AI图层命名混乱解决方案 利用上下文关联优化命名逻辑
AI
Figma AI图层命名混乱解决方案 利用上下文关联优化命名逻辑

FigmaAI重命名图层时因缺乏上下文导致命名混乱。优化关键在于提供清晰上下文线索:绑定父级Frame语义并启用上下文继承,使子图层命名统一携带前缀;利用变体属性联动,强制AI读取属性定义并将属性名与值注入图层名;对视觉信息贫乏的图层,可在描述字段插入强语义注释作为上下文锚点,从而引。

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

深度学习与生成式AI为人工智能工程师带来新机遇
AI
深度学习与生成式AI为人工智能工程师带来新机遇

短期课程 开发人员的ChatGPT提示工程 你将在本课程中学到什么 想用大型语言模型(LLM)快速构建强大的应用吗?《开发人员的ChatGPT提示工程》这门课,正是为你准备的。通过OpenAI API,你将能解锁那些在过去成本高昂、技术门槛高甚至无法实现的能力,快速将创新想法转化为价值。 这门短期课

热心网友
05.14
AI绘画工具志设:在线生成图片的智能平台
AI
AI绘画工具志设:在线生成图片的智能平台

志设是什么 在创意设计领域,灵感与效率往往难以平衡。是否存在一个工具,既能深度理解您的创意构思,又能迅速将其转化为高品质视觉作品?这正是专业级AI图像生成平台“志设”致力于解决的核心问题。 简而言之,志设是一个融合了前沿人工智能技术的综合性设计解决方案平台。它全面覆盖从平面广告、海报设计到网页UI、

热心网友
05.14
AI口语练习软件TalkMe帮你克服社交恐惧
AI
AI口语练习软件TalkMe帮你克服社交恐惧

对于渴望提升外语口语与听力水平的学习者而言,如何找到一个高效、便捷且能轻松练习的环境,常常是首要难题。今天我们要深入解析的这款产品——TalkMe,正是精准切入这一需求,试图通过前沿的AI技术,提供一种全新的语言练习解决方案。 简而言之,TalkMe是一款专注于跨语言学习的AI应用,其核心功能设计紧

热心网友
05.14
王牌机甲现代战争手游上班挂机下班称霸全攻略
游戏资讯
王牌机甲现代战争手游上班挂机下班称霸全攻略

当冰冷的钢铁巨兽被注入炽热的战斗意志,会碰撞出怎样的战略火花?《王牌机甲》这款游戏,将宏大的科幻叙事深度融入现代战争战术框架,为玩家开启了一段关于征服、策略与深厚羁绊的未来纪元。 在这里,你绝非孤军奋战。每一位通过招募加入的精英机师,都拥有独立的背景故事、专属技能树与独特的成长路线。游戏核心的“羁绊

热心网友
05.14
暗黑大天使技能分支系统解析 从基础技能树到高阶分支指南
游戏资讯
暗黑大天使技能分支系统解析 从基础技能树到高阶分支指南

《暗黑大天使》的技能分支系统提供元素、物理和辅助三大专精方向,玩家需根据角色属性与战斗需求选择分支。技能可投入资源升级并可能触发连锁效果,实战中需结合装备、敌人及团队配合灵活运用。该系统丰富了玩法,但需大量资源与多系统联动,选择需谨慎规划。

热心网友
05.14