体验火山腾讯阿里编程模型后的真实感受

首页/AI教程/文章详情

体验火山腾讯阿里编程模型后的真实感受

时间：2026-06-04 17:31

测试阿里、火山、腾讯三家编程模型在相同任务上的表现。腾讯模型相对较好但仍有功能缺失，阿里和火山模型均存在严重bug，核心功能无法使用。三者开发计划粗糙，代码质量低下，浪费大量时间与精力。

先分享一个令人沮丧的发现。

阿里、火山、腾讯三大互联网巨头，分别拿出了各自主打的新一代编程模型。看外表，个个有模有样；真正上手试用，结果全部翻车。

用完火山，腾讯，阿里的编程模型，我失眠了！

原本想用《全是垃圾，浪费时间》当标题——后来冷静了，感觉自己也成长了。先向GLM5道个歉，如果说它算是“弱智”，那这三家就是“智障”。当然，这些大厂没在我面前吹嘘过，但它们实实在在浪费了我一天一夜的时间。

只在开头发句牢骚，后面认真写。让大家看清楚这三家在AI编程领域的真实水平。

今天不谈基准测试，基准毫无意义。我直接参考《Claude Opus4.6 实战记录，欢迎对标和超越！》那篇文章的测试场景。文章大约一万字，先介绍测试环境，然后展示测试结果，分享具体过程，分析出现的bug，最后对比运行速度和tokens消耗。

1、测试环境

先交代测试环境和所使用的模型对象。

测试工具选用Claude Code，通过CCSwitch切换不同模型。使用的模型分别为：

阿里百炼平台的qwen3.5-plus
火山方舟平台的Doubao-Seed-2.0-Code
腾讯混元平台的tc-code-latest

选择标准很简单——每个平台最新发布的主力模型，或者最新的编程专用模型。所有测试基于同一个Base项目，使用完全相同的工具和提示词。不同文件夹下存放不同模型升级后的项目。

2、直接上结果

所有测试完成，先看最终效果。使用相同的命令启动项目。

这是Base项目，未做修改前角色管理页面的原始状态：

接着观察修改完成后各模型的表现。评判标准仍是那三条：第一看能不能用，第二看好不好用，第三看全不全面。

能不能用？

打开网页，逐项验证。

阿里：

能正常启动，但角色管理页面布局有些错乱，而且没有显示头像区域。点击编辑或添加角色——直接崩溃。先不管具体报错是什么，反正功能出错。核心功能的第一步，不可用。

火山：

启动正常，布局正常，能看到一个头像区域（填充了一个机器人图标）。点击编辑或添加角色——同样直接崩溃，而且报错跟阿里完全一样。要不是用端口号区分，我都怀疑启动了同一个服务。显然不可用。

腾讯：

启动正常，显示基本正常，头像位置用小人图标占位。点击添加或编辑——居然有一个功能正常的！现在标准确实低，能正常打开这个页面就让人高兴了。

更意外的是，腾讯的模型还考虑了头像占位。但是这个系统仍然不太能正常使用：角色编辑和添加页面中无法获取角色列表和模型列表，角色成了空壳，群聊功能完全无法建立。

好不好用？

连基本可用都达不到，自然谈不上好用。

全不全面？

连基本可用都达不到，自然谈不上全面。

3、制作过程

以下是初始提示词，所有模型都从这一段开始：

目前群聊接力的时候可以选择平台管理中的模型，也可以对这些模型预先配置系统提示词和角色提示词，这样已经可以通过系统提示词来个性化聊天了。但是通过平台配置里面绑定角色比较有局限性——这样一个平台就只能是一个角色。我希望换另外一种设置：**角色里面选模型**，然后群聊开始的时候，我可以直接选平台，也可以直接选角色。角色的管理还是在系统设置的“角色管理”中进行。为了实现上面的需求，角色功能需要升级：- 除了可以设置提示词之外，还得能**选择平台和模型**- 另外还能**设置头像**- 如果设置了头像，群聊的时候就显示自定义头像；如果没有设置头像，就用对应模型平台的 logo 作为头像我的需求大概是这样。说说你的这个需求的理解，不急着写代码

来看看它们的回答情况。

第一轮：看起来都是高手！

仅看第一轮的回答，个个都像高手，分析得头头是道。

阿里：对需求的理解基本准确。还主动查看了代码结构，提出了改动方案，并询问了许多细节问题。前期细节考虑充分——先不说问题是否精准，至少它在努力提问、确认细节。说实话，看到这里，感觉它能完成任务。于是按照方案开始执行。

火山：理解也没有问题，提出了三个问题，虽然问题不够精准，但至少提了。回答完问题后，它也开始动手编写代码。

腾讯：理解同样正确，提出了4个问题。第一个问题非常犀利，也是后来它能去掉冗余的关键。后面几个问题点到了要害，但从提问方式看，对这个业务的理解还不够深入。回答后，它又追问了另外三个更实际的问题，比如模型从哪里获取（我说了从平台来）。只可惜最终开发完成后，它没有把平台列表正确地展示出来，导致无法选择模型。

三个模型在理解部分都问题不大，可能是我已经把需求描述得非常清晰了。差异主要在于阅读原有代码后的理解和提问，这部分不够精准和全面。

第二轮，都没有给出详细的开发方案

上面列出的都是理解和提问部分。其实还有一个重要环节没有贴出来——完整的开发计划。这一步非常关键，细节决定成败。开始编码之前，必须完整理解项目，制定详尽计划。它们做得都不好，计划很短，大约只有一到两屏，不到Opus 4.6的五分之一。Opus 4.6写了10个章节，细节极其丰富，所以一次通过，没有任何运行错误和逻辑bug。

第三轮，结果全部翻车！

胜负不在战时，而在战前。从上一轮的设计方案，基本就能预见结果。虽然第一轮都像模像样，但第二轮已经暴露短板，第三轮则是彻底裸奔。

下面深入分析，它们到底写了些什么。重点关注需求完成度、代码质量问题，以及为什么点击创建功能时出错。

阿里百炼

需求完成度：…

存在的问题：…

创建出错原因：创建角色（POST）时API路由忽略了新增字段，这是最核心的bug！

火山

需求完成度：…

存在的问题：…

创建出错原因：由于创建时就没有保存新增字段，编辑时加载的表单数据为空，形成恶性循环。

腾讯

需求完成度：…

存在的问题：…

从上述Review来看，每个模型基本都包含一个或多个严重bug。看来它们写的不是代码，而是bug。以后不比谁能力强，比谁的bug少。谁做得好已经没什么可比性——半斤八两。

下面来看看能比的方面——使用时间和tokens消耗情况。

4、时间对比

在测试的同时也记录了时间。

阿里：从开发完成到开始安装依赖包，大约消耗26分钟。测试时间大概在下午5点。

火山：从开发完成到开始安装依赖包，大约消耗14分钟。测试时间大概在晚上11点多。

腾讯：构建完成到可以测试，消耗30分钟。测试时间在凌晨零点多。

测到腾讯时已经半夜，直接导致失眠。从测试结果看，火山明显快很多，腾讯和阿里相对较慢。最早测方舟套餐时，写个博客都要很久，现在速度似乎有所提升。腾讯和阿里可能还在优化产能，速度不太理想。当然也可能受时段和高峰期影响，数据仅供参考。

5、消耗对比

除了时间，也关注了消耗情况。

阿里：消耗了9%，用量按调用次数计算。

火山：消耗了33%，看起来不是按次数计算。后期消耗增长极快，估计是上下文变大，tokens消耗很快。但相对而言，开发速度也很快。

腾讯：消耗了6.8%，统计方式和阿里一致，按次数计算。

从用量来看，火山消耗最快，估计5小时配额用不了多久。阿里和腾讯按次数算，比较耐用，即便入门款基本也用不完。

最后简单说几句

为了测试它们的实力，一直干到半夜，后来躺在床上辗转反侧。

看它们写代码，真的让人头疼。一个月花40或200，是找它们写代码的，不是写bug的；是找它们干活的，不是给它们收拾烂摊子的；是找它们节省时间的，不是浪费时间的。

最后反思一下：考不好，会不会是题目太难？代码写不好，会不会是使用方法不对？

Base代码已经公开，有兴趣的可以git下来自己玩一玩。

来源：https://juejin.cn/post/7618227944550055978

编程

上一篇OpenClaw真相揭秘：名为帮你赚钱实为赚你钱 下一篇从前慢两种慢带来的不同命运

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。