作者 | 黄昱
腾讯混元3.0预览版开源:一场关于“实用主义”的AI节奏校准
4月23日,腾讯正式向外界揭开了Hy3 preview,也就是混元3.0预览版的面纱,并宣布开源。这不仅仅是一次新模型的发布,更像是腾讯在AI竞赛进入新阶段后,一次清晰的战略表态。
不追规模,求平衡:300B参数的“甜点区”
先看核心参数:Hy3 preview是一个融合了快慢思考的MoE语言模型,总参数量2950亿,但激活参数控制在210亿,最大支持256K的上下文长度。这个配置透露出一个明确信号——它没有盲目追逐参数的“军备竞赛”,而是精准定位在了“性能与性价比”的平衡点上。目标很务实:成为大多数业务场景落地时,那个最优、最经济的选择之一。
为何是300B量级?在腾讯的视角里,这似乎是能力与效率的最优平衡带。像复杂推理、长上下文理解、指令遵循这些关键能力,在这个规模上已经能得到充分释放。而继续扩大参数,边际收益会显著递减,投入翻倍换来的能力提升,往往只有个位数百分点。这笔账,算得很明白。
能力指向明确:为“干活”而生
除了日常的对话、写作、搜索等通用能力,Hy3 preview明显在几个关键领域加重了砝码:Coding、智能体(Agent)、指令遵循和上下文理解。这些能力提升并非纸上谈兵,模型已经在腾讯内部的元宝、ima、WorkBuddy、CodeBuddy等多个产品中上线应用。可以说,它的设计初衷就是为了更好地“执行任务”。
这一切,可以被视为腾讯在AI下半场的一次关键“节奏校准”。过去几个月,腾讯内部动作频频:混元大模型团队完成了组织升级和工作流重构;今年2月,重建了涵盖预训练和强化学习的大模型研发基础设施;同时,数据质量也被摆在了更重要的位置。
更重要的是,团队确立了模型追求实用性的三大原则:一是强调能力体系化,拒绝“偏科生”;二是评测讲求真实性,主动跳出容易被“刷榜”的公开榜单;三是始终追求性价比。这三个原则,为Hy3 preview定下了清晰的调性。
重建后的首秀,也是新篇章的开端
Hy3 preview意义特殊。它不仅是混元大模型在全链路重建后诞生的第一个模型,更是腾讯首席AI科学家、AI Infra及大语言模型部负责人姚顺雨加入腾讯后,交出的首份成绩单。据透露,这个模型从2026年1月底启动训练,到最终上线,用时不到三个月。这个速度,被内部视为混元大模型尝试解决真实世界问题的一个新开端。
姚顺雨将Hy3 preview定义为“混元大模型重建的第一步”。此次开源和发布,一个重要目的就是获取来自开源社区和用户的真实反馈,从而帮助提升即将到来的Hy3正式版的实用性。同时,团队也在继续扩大预训练和强化学习的规模,以提升模型的智能上限,并通过与腾讯众多产品的深度“协同设计”,持续优化模型在真实场景中的综合表现,并开始探索特色能力。
这种“协同设计”并非空谈。在研发过程中,混元模型团队就与元宝产品团队进行了紧密的co-design。团队的评估理念很清晰:模型的优劣,不在于榜单分数的简单堆叠,而在于对复杂能力体系的适应性和在实际业务中的落地效果。为此,他们一方面自建了50多个评测基准来评估模型的实际能力;另一方面,则让模型深度融入腾讯内部业务,在实际应用中学习和进化。
Agent时代:比拼的不再只是模型强弱
Hy3 preview的发布,无疑是混元研发加速演进的一个重要信号。在新的基础设施和技术理念支撑下,更大尺寸的模型已经在路上。而当前AI竞争的焦点,已经悄然转变。随着技术进入下半场,大模型在完整工作流中的协作效果,即“执行任务”的能力,成为了新的角力点。这也正是Hy3 preview重点强化Coding、智能体、指令遵循等能力的原因。
那么,它的“干活”能力究竟如何?混元团队面向内部用户进行了人工评测,覆盖了编程与通用工作流等典型场景。数据显示,Hy3 preview在用户盲评中的整体胜率大约在55%–56%。目前,它已经接入了腾讯内部的CodeBuddy、WorkBuddy等AI Agent产品。
效果数据更为直观:在CodeBuddy和WorkBuddy产品上,Hy3 preview的首token延迟降低了54%,端到端时长降低了47%,成功率则提升至99.99%以上。在实际用户环境中,它已经能够稳定驱动最长495步的复杂Agent工作流,覆盖文档处理、数据分析、知识检索、MCP工具链编排等多样化的办公场景。
这恰好印证了腾讯高级执行副总裁汤道生3月份的观点:人工智能的应用范式正从“聊天机器人”向“智能体”跃迁。AI落地不只是一道算法题,更是一道工程题。当主流大模型的能力差距逐步缩小时,企业比拼的不再是“谁的模型更强”,而是谁能通过工程化手段,把模型用得更好。
结语:以战养技,生态决胜
显然,腾讯正试图走通一条差异化路径:即便模型本身不是参数最多的,但只要“底盘”够稳、接口够丰富、工程化能力够强,依然有希望在Agent时代的生态竞争中占据优势。Hy3 preview的发布,标志着腾讯不再执着于堆砌参数的神话,而是选择在300B参数的基准线上,依托自身庞大的社交与工具生态,进行高效率的“以战养技”。
这种务实的节奏感,最终能让腾讯在AI下半场走多远?关键或许在于,Hy3正式版能否在“读万卷书”(大规模训练)之后,真正完成“行万&里路”(海量场景应用)的质变。这场关于实用主义的实验,才刚刚开始。
