游乐游手机版
首页/业界动态/文章详情

史诗级进化,OpenAI上线Mac版“超级龙虾”:Codex进化成赛博同事

时间:2026-04-22 14:05
又是羡慕Mac用户的一天。 今天凌晨,OpenAI正式发布了专为macOS系统深度优化的新版Codex智能体,并附上了一句颇具野心的宣言: Codex for (almost) everything It can now use apps on your Mac, connect to more

又是羡慕Mac用户的一天。

今天凌晨,OpenAI正式发布了专为macOS系统深度优化的新版Codex智能体,并附上了一句颇具野心的宣言:

Codex for (almost) everything.

It can now use apps on your Mac, connect to more of your tools, create images, learn from previous actions, remember how you like to work, and take on ongoing and repeatable tasks.

Codex (几乎) 无所不能。

它现在可以调度 Mac 上的应用程序,连接更多生产力工具,并具备图像生成能力。此外,Codex 能够通过历史行为进行学习,记忆您的工作偏好,并自主承接持续性及重复性的任务。

简单来说,Mac版的“原生智能助手”正式上线了,其功能之强大,足以让其他平台的用户眼红。

自今年2月中旬将OpenClaw(因其图标被戏称为“龙虾”)的创始团队收入麾下后,OpenAI在接下来的两个月里,显然一直在潜心将OpenClaw的核心自动化能力整合进Codex。如今成果揭晓,一出手便是“王炸”级别的重磅更新,重新定义了AI辅助工作的边界。

图源:X

那么,这个全新的Mac版Codex究竟能做什么?它如何提升开发效率与日常办公体验?让我们一探究竟。

从开发者到维护者,Codex已实现全自动化开发闭环

OpenAI公布的演示视频,首先震撼地展示了Codex在Mac环境下的自主开发与调试能力。

用户仅需向Codex下达一个自然语言指令:测试一个“井字棋”应用并修复所有Bug。接到指令后,Codex自主打开了Mac本地的Xcode工程文件,随后像真人用户一样,依次点击模拟器中的井字棋网格进行测试,最终定位到程序代码并执行启动命令。

图源:雷科技

这个细节至关重要。它表明Codex并非通过后端API直接调用测试代码,而是真正通过图形用户界面(GUI)来“视觉化使用”这个应用。两者的本质区别在于:前者依赖于应用本身是否开放API;后者则无需任何API,仅凭先进的视觉识别与模拟操作即可完成任务,实现了真正的“所见即所控”。

这意味着Codex具备了真正意义上的“通用执行能力”。对于许多不提供API的第三方应用,以往的AI助手只能望而却步;而现在,Codex可以像人类一样直接操作它们,极大扩展了其应用场景。

这背后,是OpenAI强大的多模态视觉识别与坐标映射技术在支撑。Codex能够“看懂”屏幕上的UI元素,并精确计算出鼠标应该点击的像素坐标来完成动作,实现了从“理解”到“执行”的无缝衔接。

测试过程中,Codex直接识别出了一个行为逻辑上的Bug:“人类走一步,电脑对手却走了两步”。这或许是整个演示中最惊艳的一环——Codex没有参考任何错误日志,纯粹通过视觉观察和游戏规则推理,就判断出了应用程序在行为表现上的异常,展现了初步的因果推理能力。

图源:雷科技

某种程度上,这标志着Codex已经拥有了一定的自主决策与“拟人化”问题解决能力。在确定问题后,它开始着手修复代码,重新编译运行,并最终确认Bug已被解决。在另一个演示中,Codex甚至能在没有明确文件路径提示的情况下,自主探索本地前端项目结构,并给出改动范围最小的代码修改方案,体现了优秀的工程思维。

可以说,OpenAI通过这几个简洁的案例,直观展示了Codex从前端界面交互到后端代码修改的完整工作流。而这一切都基于对图形界面的视觉识别完成,表明其已具备覆盖绝大多数开发环境的全流程闭环能力,为自动化软件开发铺平了道路。

这确实有些令人震撼。如果说以前使用Codex辅助开发,你还需要具备一定的编程知识来处理API接入等问题;那么现在,你可以直接跳过这些步骤,让Codex像一位真正的全栈工程师那样操作电脑,并生成你想要的程序。

不只是“代码生产者”,更是“创意协作者”

另一段视频则凸显了Codex在多模态创意任务上的强大执行能力。用户要求Codex为一个网页的主视觉区域生成一张图片,甚至没有提供具体的风格提示词。

Codex是如何应对的?它没有随意生成一张图片,而是先读取了本地项目文件,结合图形界面捕捉到的信息,智能判断出网页的主题是“费城深夜快餐”,并据此生成了一张包含汉堡、薯条和深夜灯光氛围的、极具场景感的图片。

图源:雷科技

不仅如此,Codex还进一步分析了“主视觉区”的排版需求。为了避免遮挡左侧的文案,生成的图片需要在左侧留白,并将视觉重心偏向右侧。仅此一项,就超越了大多数仍处于“纯文本代码生成”阶段的开发辅助工具——它们往往无法理解网页中的视觉元素与设计意图,更不用说自动生成并插入适配的图片了。

图源:OpenAI

在确认图片符合要求后,Codex自动将图片文件移动到本地项目文件夹中,随后修改HTML文件,用真实的图片标签和本地路径替换掉占位符。同时,它还微调了CSS样式,确保图片完美适配网页尺寸,最后刷新内置浏览器以展示最终效果,整个过程一气呵成。

OpenAI还演示了Codex如何从零搭建一个网页。在接收到开发“乐高追踪网页应用”的需求后,Codex调用开发工具编写代码,并在本地自动启动了开发服务器,通过自带的浏览器面板加载了页面,实现了快速原型构建。

随后,用户可以将任何修改需求直接告诉Codex。例如,在演示中,用户仅仅在编辑框中输入“缩小字体”的指令,Codex便自动完成了字体调整、布局重排等一系列操作,真正实现了“所见即所得”的实时协作,极大提升了前端开发与内容调整的效率。

图源:雷科技

对于网页开发者而言,Codex的角色已然发生根本性转变。过去,它更多地被视作Debug和搭建框架的“代码生产者”,最终的整合、样式调整与视觉微调仍需人工介入。

现在,它正成为你的“全能协作者”。你可以将更多创意和执行工作交付给它,即便是涉及具体视觉元素调整和UI微调的任务——以往AI可能难以精准理解这类模糊意图,但现在情况不同了,因为它也能“看见”并理解网页的视觉上下文。

你的专属AI私人助理正式上线

在最后两组演示中,OpenAI展示了Codex如何化身为你的“智能私人助理”,处理跨平台信息管理。用户仅用一句话,就让Codex同时检索了Slack、Gmail、Google Calendar和Notion这四个截然不同的SaaS平台。

接着,Codex基于其强大的语义理解能力,自主分析了各平台的通知与信息,并根据紧急程度与相关性进行智能排序,将信息分类为“急需处理”和“可以暂缓”。同时,它还能主动提醒用户,某些看似日常的汇报信息中可能包含需要审批的事项,值得额外关注,展现了出色的信息洞察力。

图源:雷科技

信息分类总结完毕后,用户下达了新指令:“持续留意并通知我”。Codex随即创建了一个名为“Teammate - Hourly”的后台任务,并自动设定了运行规则:每小时检查一次各平台,仅在出现实质性新信息(或无法获取最新信息)时提醒用户,实现了智能化的信息过滤。

这个功能正是此前OpenClaw爆火的核心——全自动的挂机“数字员工”。只需下达指令,Codex便能在后台持续监控与执行,将AI从“被动响应式工具”转变为“主动协助型伙伴”。

而且,Codex现在的自动化操作支持在同一会话线程中持续运行。你只需打开对应的聊天窗口,就能让AI重复或继续执行之前的任务,无需重新交代一遍工作流程。因此,别小看这些简单的演示,只要指令足够详尽,Codex完全能像OpenClaw那样执行复杂的、多步骤的自动化工作流。

演示中还显示,Codex在监控到新邮件后,会自动概括邮件内容,并询问用户是否需要帮忙起草回复。这也是它根据任务上下文自行推理并提供的增值服务,真正做到了想你所想。

图源:雷科技

在最后一个视频里,Codex根据用户要求,通过插件访问企业内部知识库,找到指定的产品报告,并生成了一份面向高管的简报。整个过程,用户只提供了产品名称和任务目标,并未告知报告存储位置或查找方法,Codex自主完成了寻址、检索、分析与撰写。

全自动寻址、快速检索海量文档与图片、提炼关键信息并生成报告——用户一句话,Codex便自主拆解并执行了多个步骤。更重要的是,它无需企业提供私有API接口,仅利用用户已有权限调用文档,极大降低了数据泄露风险,保障了企业数据安全。

当然,Codex现在也具备了直接创建与整理文档的能力。演示中,它将网页端GitHub项目最近的Issue按主题整理成电子表格,并输出为Excel文件。结合前述能力,你完全可以将它视为一个高效的“数据收集与分析员”,无论是私有库还是公开数据,都能交由它汇总、分析并输出成结构化文档,供后续工作直接调用。

目前,Codex已集成超过九十款主流办公及开发插件,用户可在聊天框中随意调用。面对如此强大的工具生态与智能化水平,Mac用户的工作方式即将迎来新一轮变革。

为什么首选是Mac平台?

平心而论,OpenAI的最新版Codex,其实比原版OpenClaw更适合广大普通用户。因为它无需用户授予系统底层Root权限,不必以牺牲安全性和隐私性来换取便利性。相反,它借助macOS完善的辅助功能API(Accessibility API)和底层沙箱机制,实现了既稳定又安全的运行。这一点,在目前权限管理更为复杂、API生态相对混乱的Windows端还难以完全实现。

此外,Codex明显针对苹果的官方开发工具进行了深度整合。它不仅能直接读取Xcode的项目结构,还能处理Swift软件包依赖和模拟器状态设置,同时自动调用苹果官方的开发文档和API规范进行实时纠错——这对苹果生态的开发者而言至关重要,提供了无缝的开发体验。

另一个关键因素在于Apple的硬件协同生态。许多人在讨论AI智能体时,容易忽略硬件协同的影响。试想,如果你在Windows上让AI执行任务时忘了开启远程桌面,很可能不得不亲自回到电脑前操作。而Mac与iPhone、iPad无缝协同的生态,让用户可以轻松在移动设备上查看Codex的工作成果,并随时下达新指令,实现了真正的跨设备工作流。

图源:苹果

当你安排Codex在家中的Mac上工作,自己外出时,通过iPhone进行查看和管理的原生体验,无疑远超任何第三方远程工具(尽管苹果官方的远程桌面软件价格不菲)。

总而言之,Mac版Codex的发布,基本标志着这款AI工具正式跨越了“被动助手”的阶段,开始进化为能够直接接管系统桌面、理解视觉上下文、操作各类软件的“全能智能体(Agent)”。

它不再是一个需要你费心解决各种API接口和使用难题的工具,而是一个能看懂屏幕、能自主操作不同软件、甚至能替你统筹安排跨平台工作的“赛博同事”。(突然想到,如此强大的Codex,未来能帮我通关《赛博朋克2077》吗?)

现在,压力无疑给到了macOS的老对手微软。Windows平台究竟何时才能上线同等能力的功能?Copilot折腾了一两年,至今在系统级集成与自动化能力上仍不尽如人意,实在有些对不起微软投入的巨额资源与用户的期待。

来源:https://36kr.com/p/3770202199323136
上一篇通义千问关联公司注册资本翻倍,阿里云与杭州通义实验室共同持股 下一篇​Gucci 联手谷歌,时尚智能眼镜将于 2027 年亮相
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
郭明錤称iPhone 18 Pro/Max可变光圈镜头成本上涨50%
业界动态 · 2026-05-30

郭明錤称iPhone 18 Pro/Max可变光圈镜头成本上涨50%

5月30日,天风国际证券分析师郭明錤在X平台发布推文,披露了苹果iPhone 18 Pro系列相机系统的重要升级方向。本次核心升级在于主摄将首次搭载可变光圈技术,而镜头成本的涨幅可能远超预期。 具体数据方面:郭明錤指出,iPhone 18 Pro与iPhone 18 Pro Max的主摄可变光圈镜头

618电竞主机选购指南:三款品质之选畅享专业体验
业界动态 · 2026-05-30

618电竞主机选购指南:三款品质之选畅享专业体验

618大促,攀升旗舰店推出三款电竞主机,覆盖不同预算,全场满4000减400,直播间另有福利。配置含i5-14600K+RTX5060(3199元起)、锐龙59600X+RX9060XT、i5-14400F+RTX5060(4899元起),支持AI算力与DLSS4 5,享三年质保包邮。

英特尔锐炫G系列掌机处理器正式发布
业界动态 · 2026-05-30

英特尔锐炫G系列掌机处理器正式发布

英特尔推出锐炫G系列掌机处理器,基于第三代酷睿Ultra架构,含G3和G3Extreme两款,采用Intel18A制程与2+8+4核心配置。最高搭载Xe3架构锐炫B390显卡,支持光追和XeSS3技术,旨在平衡性能与能效,首批机型来自宏碁、微星等品牌。

莫氏鸡煲店主已靠流量还清所有欠债
业界动态 · 2026-05-30

莫氏鸡煲店主已靠流量还清所有欠债

广东顺德莫氏鸡煲店主老莫凭网络热度还清所有债务,坦言钱已入账。生意火爆遭邻居投诉,他不意外,租铺面无扩张计划,打算忙完三年收摊退休,回归之前与熟客相伴的清闲日子。

2026 GEO服务商选型指南:四家头部厂商效果兑现能力解析
业界动态 · 2026-05-30

2026 GEO服务商选型指南:四家头部厂商效果兑现能力解析

2026年GEO服务市场进入效果兑现期。百分点科技Generforce以数据智能和RaaS模式实现闭环;欧博东方专注跨境多语言优化;智推时代深耕社交AI推荐;泓动数据提供量化归因中台。选型应基于品牌核心战场与效果诉求。