手搓CodingPlan照妖镜与TOKEN燃烧器

时间：2026-06-05 16:32

市面上那么多 Coding Plan 套餐，究竟哪一款最值得选择？各家厂商都在宣称自己的产品如何强大，如何才能避免被营销话术迷惑？哪家速度更快、哪家综合实力更硬核？为了彻底厘清这些问题，一位从业者自掏腰包，将主流的 Coding Plan 全部买下——火山方舟、阿里百炼、腾讯混元、智谱 GLM

市面上那么多 Coding Plan 套餐，究竟哪一款最值得选择？

各家厂商都在宣称自己的产品如何强大，如何才能避免被营销话术迷惑？

哪家速度更快、哪家综合实力更硬核？

为了彻底厘清这些问题，一位从业者自掏腰包，将主流的 Coding Plan 全部买下——火山方舟、阿里百炼、腾讯混元、智谱 GLM、MiniMax、Kimi……一个不落。接着，他亲手打造了两款工具：一款名为 Jcode，专门用于在本地调用 Claude Code 进行验证；另一款叫做 CodingPlan Test，接入了所有平台的 API，能够进行批量测试并直观对比。

而且，在开发这个工具的过程中，某个环节被设计成了一道考题，结果难倒了大批国产 AI 模型。此前我们一直在介绍不同模型升级该系统时的表现，今天换个角度——来看看这个系统本身究竟实现了哪些实用功能。

这是一套基于 Next.js 的全栈系统，目前数据持久化采用 JSON 实现，本地启动仅需两行命令：

第一行：npm install

第二行：npm run dev

启动项目后，首先映入眼帘的是仪表盘。从这里可以直观查看已接入多少平台、多少平台已启用、多少平台已配置 API Key。下方可快速配置 API、进行批量测试、开启 AI 群聊。左侧菜单栏包含 7 个功能入口（不含仪表盘）。

1、平台管理

平台管理模块主要用于管理各类 API 接口。目前默认预设了 8 个平台，涵盖主流的 Coding Plan，包括小米 MiMo，以及知名的中转平台 OpenRouter——通过 OpenRouter 可以接入全球顶级模型。如果这些仍无法满足需求，用户也可以自行添加新平台。每个平台均支持多种接入协议，兼容 OpenAI 和 Anthropic 的协议，并允许扩展其他协议。用户可自定义配置模型、快速切换协议与模型，还能一键进行可用性测试。

2、批量测试

针对特定问题，可以进行批量测试与直观对比。测试时，可设定系统提示词和问题，然后勾选待测对象（默认全选，也支持手动调整）。点击测试后，所有结果会统一展示，包含具体的回答内容、首词延迟、总耗时、输入 token 数以及输出 token 数。

如果觉得纯文字对比不够直观，底部还提供了性能对比图表——这堪称 Coding Plan 的“照妖镜”，速度和能力高低一目了然。有些选手速度极不稳定，消耗时间超长；有些选手稍微增加难度，思考到一半就直接崩溃。

3、单独对话

可以与特定平台的特定模型进行深度交流。有些模型一问就露馅——一旦它认定自己是 Claude 之后，无论如何纠正都拉不回来。

4、群聊功能

群聊功能允许将多个模型和角色拉入同一个群聊中交流，可玩性极高。支持两种模式：广播模式和接力模式。广播模式是发送一条消息，所有模型都会回复你；接力模式则是发送一条信息，所有模型根据上下文依次回复。广播模式相对简单，接力模式则包含更多选项——可以设置群聊的对话轮数上限，让它们自由讨论，也可以手动停止。用户可以选择平台或者角色加入群聊，角色的底层仍是模型，但通过专门的系统提示词，会表现出不同的回答逻辑。这一功能也可用于测试不同模型的角色扮演能力。

创建对话后，抛出一个话题，它们就能展开讨论。例如询问 AI 模型的终极理想——豆包的回答是“人间烟火收集者”，Kimi 的回答是“成为一座无限图书馆的守门人”，阿里百炼里的 Kimi 回答是“我想成为一条河”，MiniMax 回答是“找一个海边小镇，开一间小小杂货铺”，智谱 GLM 回答是“想去流浪，做一个在光影中穿梭的故事捕手”。看来这个问题激发了它们的文艺气息，整体氛围宛如一群文艺青年在畅谈。

除了探讨理想，也可以把整个项目组拉进来聊聊项目——轻轻松松就能组建一支协作团队。这个模式玩法多样，每个角色随机排序回答，而且每个大模型的回答都会作为上下文，从而产生无限种排列组合。

5、对战模式

单聊天太乏味？那就来 1V1 单挑。目前对战模式主要设计了五子棋对战和中国象棋两种玩法。新建对战时可以选择对战类型，然后选择对战的选手，选手可以是平台也可以是角色。若选择平台，可进一步指定具体模型；若选择角色，则可进行相应配置。点击开始后，它们就会自行下棋。

这些 AI 模型都能编写不错的对战逻辑代码，但如果直接将棋局状态交给它们，让它们直接给出走法，它们的表现就会变得非常弱。目前观察下来，大部分模型搞不清楚自己在做什么。直接对战时，Sonnet 4.6 基本可以秒杀所有国产模型，而 Opus 4.6 自然又能秒杀 Sonnet 4.6。不确定各家是否针对这类问题做过专项训练，但从实际表现来看，Anthropic 的 Claude 模型确实非常强悍。中国象棋方面，似乎所有模型都不太擅长——看这局面，智谱 GLM 的赢面稍大，不过基本上不是靠实力取胜，全靠运气，颇有“菜鸡互啄”的感觉。后续需要研究如何激发它们在这方面的能力。

6、历史记录

批量测试记录——所有测试均有存档，点击可查看详细内容，方便后期对比、截图和分析。同时支持导出为 JSON 或 CSV 格式。

7、系统设置

系统设置界面非常简洁，主要用于配置系统提示词和角色管理。角色可以设置头像、名称、介绍、绑定平台和模型。

以上就是该系统的核心功能。Base 版本已开源，如果需要最新版，也可以开放源码。之所以没有急于更新，是因为几个 Star 实在没什么实质意义。另外，想为该系统征集一个名字——当初随便取的“Coding Plan”略显随意。要不学 MiniMax 叫“TokenPlan”？还有一个非常迫切的需求就是消耗 Token，因为手上一大堆 Coding Plan 的额度都处于闲置状态，得想办法把这些 Token 用掉，否则太浪费了。基于此，也可以叫“Burn Plan”。另外，单纯的一轮对话很难测试模型的编程或智能体能力，所以正在考虑是否添加一个 Agent 功能。

最后，上次有读者提到需要 JCode，软件已上传至网盘，需要可自取；Coding Plan 的 Base 代码也已开源。

来源：https://juejin.cn/post/7621384552314257423

Token