市面上那么多 Coding Plan 套餐,究竟哪一款最值得选择?
各家厂商都在宣称自己的产品如何强大,如何才能避免被营销话术迷惑?
哪家速度更快、哪家综合实力更硬核?
为了彻底厘清这些问题,一位从业者自掏腰包,将主流的 Coding Plan 全部买下——火山方舟、阿里百炼、腾讯混元、智谱 GLM、MiniMax、Kimi……一个不落。接着,他亲手打造了两款工具:一款名为 Jcode,专门用于在本地调用 Claude Code 进行验证;另一款叫做 CodingPlan Test,接入了所有平台的 API,能够进行批量测试并直观对比。
而且,在开发这个工具的过程中,某个环节被设计成了一道考题,结果难倒了大批国产 AI 模型。此前我们一直在介绍不同模型升级该系统时的表现,今天换个角度——来看看这个系统本身究竟实现了哪些实用功能。
这是一套基于 Next.js 的全栈系统,目前数据持久化采用 JSON 实现,本地启动仅需两行命令:
第一行:npm install
第二行:npm run dev
启动项目后,首先映入眼帘的是仪表盘。从这里可以直观查看已接入多少平台、多少平台已启用、多少平台已配置 API Key。下方可快速配置 API、进行批量测试、开启 AI 群聊。左侧菜单栏包含 7 个功能入口(不含仪表盘)。
1、平台管理
平台管理模块主要用于管理各类 API 接口。目前默认预设了 8 个平台,涵盖主流的 Coding Plan,包括小米 MiMo,以及知名的中转平台 OpenRouter——通过 OpenRouter 可以接入全球顶级模型。如果这些仍无法满足需求,用户也可以自行添加新平台。每个平台均支持多种接入协议,兼容 OpenAI 和 Anthropic 的协议,并允许扩展其他协议。用户可自定义配置模型、快速切换协议与模型,还能一键进行可用性测试。
2、批量测试
针对特定问题,可以进行批量测试与直观对比。测试时,可设定系统提示词和问题,然后勾选待测对象(默认全选,也支持手动调整)。点击测试后,所有结果会统一展示,包含具体的回答内容、首词延迟、总耗时、输入 token 数以及输出 token 数。
如果觉得纯文字对比不够直观,底部还提供了性能对比图表——这堪称 Coding Plan 的“照妖镜”,速度和能力高低一目了然。有些选手速度极不稳定,消耗时间超长;有些选手稍微增加难度,思考到一半就直接崩溃。
3、单独对话
可以与特定平台的特定模型进行深度交流。有些模型一问就露馅——一旦它认定自己是 Claude 之后,无论如何纠正都拉不回来。
4、群聊功能
群聊功能允许将多个模型和角色拉入同一个群聊中交流,可玩性极高。支持两种模式:广播模式和接力模式。广播模式是发送一条消息,所有模型都会回复你;接力模式则是发送一条信息,所有模型根据上下文依次回复。广播模式相对简单,接力模式则包含更多选项——可以设置群聊的对话轮数上限,让它们自由讨论,也可以手动停止。用户可以选择平台或者角色加入群聊,角色的底层仍是模型,但通过专门的系统提示词,会表现出不同的回答逻辑。这一功能也可用于测试不同模型的角色扮演能力。
创建对话后,抛出一个话题,它们就能展开讨论。例如询问 AI 模型的终极理想——豆包的回答是“人间烟火收集者”,Kimi 的回答是“成为一座无限图书馆的守门人”,阿里百炼里的 Kimi 回答是“我想成为一条河”,MiniMax 回答是“找一个海边小镇,开一间小小杂货铺”,智谱 GLM 回答是“想去流浪,做一个在光影中穿梭的故事捕手”。看来这个问题激发了它们的文艺气息,整体氛围宛如一群文艺青年在畅谈。
除了探讨理想,也可以把整个项目组拉进来聊聊项目——轻轻松松就能组建一支协作团队。这个模式玩法多样,每个角色随机排序回答,而且每个大模型的回答都会作为上下文,从而产生无限种排列组合。
5、对战模式
单聊天太乏味?那就来 1V1 单挑。目前对战模式主要设计了五子棋对战和中国象棋两种玩法。新建对战时可以选择对战类型,然后选择对战的选手,选手可以是平台也可以是角色。若选择平台,可进一步指定具体模型;若选择角色,则可进行相应配置。点击开始后,它们就会自行下棋。
这些 AI 模型都能编写不错的对战逻辑代码,但如果直接将棋局状态交给它们,让它们直接给出走法,它们的表现就会变得非常弱。目前观察下来,大部分模型搞不清楚自己在做什么。直接对战时,Sonnet 4.6 基本可以秒杀所有国产模型,而 Opus 4.6 自然又能秒杀 Sonnet 4.6。不确定各家是否针对这类问题做过专项训练,但从实际表现来看,Anthropic 的 Claude 模型确实非常强悍。中国象棋方面,似乎所有模型都不太擅长——看这局面,智谱 GLM 的赢面稍大,不过基本上不是靠实力取胜,全靠运气,颇有“菜鸡互啄”的感觉。后续需要研究如何激发它们在这方面的能力。
6、历史记录
批量测试记录——所有测试均有存档,点击可查看详细内容,方便后期对比、截图和分析。同时支持导出为 JSON 或 CSV 格式。
7、系统设置
系统设置界面非常简洁,主要用于配置系统提示词和角色管理。角色可以设置头像、名称、介绍、绑定平台和模型。
以上就是该系统的核心功能。Base 版本已开源,如果需要最新版,也可以开放源码。之所以没有急于更新,是因为几个 Star 实在没什么实质意义。另外,想为该系统征集一个名字——当初随便取的“Coding Plan”略显随意。要不学 MiniMax 叫“TokenPlan”?还有一个非常迫切的需求就是消耗 Token,因为手上一大堆 Coding Plan 的额度都处于闲置状态,得想办法把这些 Token 用掉,否则太浪费了。基于此,也可以叫“Burn Plan”。另外,单纯的一轮对话很难测试模型的编程或智能体能力,所以正在考虑是否添加一个 Agent 功能。
最后,上次有读者提到需要 JCode,软件已上传至网盘,需要可自取;Coding Plan 的 Base 代码也已开源。
