Claude Fable 5 轻松复刻经典版《超级马里奥》,还原度之高令人难以置信。
先来看一段演示视频。
视频播放完毕,或许有朋友觉得效果不过如此。但评判标准要看对比对象。昨天我们讨论了 MiMo 的表现,并顺带介绍了 MiMo Code。今天,我们来评估 GLM 5.1 能交出怎样的答卷。
从测试覆盖范围看,本次几乎囊括了国内外主流模型。坦白讲,AI 目前仍处于早期发展阶段,花一两年时间做各种测试对比,值不值得?非常值得。未来谁最了解顶级 AI,谁就能抢占先机。
回到《超级马里奥》这个案例。除了 Claude 旗下那款模型,整个测试中只有 GLM 5.1 的结果让人眼前一亮。
据闻 GLM 5.2 即将发布,我们先以 5.1 作为基准。等到 5.2 登场,再次测试,看看进步幅度。下面直接展示最终成果,然后分享制作流程——既要知其然,也要知其所以然。
效果展示
最终效果大致如下所示。
是不是有种“与众不同”的感觉?先列举它的亮点:
- 地图轮廓基本能认出是马里奥风格。
- 核心操作与游戏逻辑顺畅,中途不会卡死。
- 能一路走到终点,成功通关。
仅这三点,就已经甩开不少模型了。再聊聊不太理想的地方:
- 跳跃高度有些放飞,跳得极高,与原版物理逻辑相去甚远。
- 地图细节与原版相比仍存在明显差距。
- 还存在明显 bug:两个小蘑菇重叠在一起,一踩上去直接损失一条命。
它做到了几分,与 Fable 差距多大,相信一眼便知。Fable 的还原度堪称“大气层”——细节丰富、趣味性高,可在 TOPAI 上在线体验完整效果。
目前,8 个模型的测试结果已全部上传完毕。
制作过程
效果已经很直观了,下面看看制作过程——如何用一句话实现这样的效果?
工具依然是 Claude Code,通过 JCode 实现一键配置、一键启动、一键接入 GLM 5.1 官方 API。配置完成后,模型已设置为 GLM-5.1,思考强度为 Xhigh。
接着输入需求。需求描述很简单,细节让模型自行脑补——有时说得太清楚反而会限制发挥。一个回车下去,剩下的只有等待。
从截图可以看到,它整整思考了 6 分 23 秒才开始输出内容。这个时长有点久,但也不算离谱。最终花了 22 分钟完成整个游戏。整体耗时约 28 分钟,与 Claude Fable 接近。
为什么 GLM 5.1 的结果比其他模型还算不错?推测主要原因是它在过程中做了大量自检和修正。从整个对话历史能看到很多“检测、修正、验证”的环节。如今新一代模型和智能体普遍内置了这种自我验证机制。
交付清单如下:
清单标注:单文件、无依赖、约 1982 行。它做了多项状态检测,执行得相当到位。所以一直说,国内比较全面的模型,就是智谱的 GLM 系列,尤其是 5.0 之后的版本。
当然,与国际最顶尖的模型相比,差距依然存在。从代码行数就能看出端倪:Claude Fable 当时只用 700 多行就实现了更好的效果,而它用了将近 2000 行,几乎是三倍。写过程序的人都明白:同样的事情,用更少的代码实现,往往意味着更强的技术功底。多数情况下,精简代码本身就是极其困难的事,需要优化多种算法或业务逻辑。
GLM 5.1 这一波,相对而言确实还能看,就不多吐槽了。具体效果可以直接在网页上体验。想看源代码的话,右键即可查看,没有做压缩处理。
其他模型的效果也已一并上传。我们会逐一介绍,有兴趣可以先去试玩一下,真的很有意思。Claude Fable 是那种真正能玩的,直通四关。而有些模型,纯粹是来搞笑的,画面抽象得别有一番乐趣。
