腾讯混元大模型正式上线姚顺雨团队主导研发

首页

热心网友

转载

2026-05-18

腾讯混元的新一代模型，Hy3 preview，刚刚揭开面纱。

这不仅是混元团队在架构与基础设施层面重新出发后的首个版本，更因其“实用性”的明确标签而备受关注。首批发布的模型尺寸相对较小，目标直指落地应用。同样引人注目的是，这也是AI专家姚顺雨归国加盟腾讯后交出的首份重要答卷，其背后贯彻的正是他所倡导的“AI下半场”理念——模型在腾讯庞杂的真实业务场景中打磨，效果与实用性被置于首位。

根据官方信息，新一代模型在聊天、代码、智能体、数理推理、指令遵循及上下文理解等多个维度的能力均获得了增强。

目前，Hy3 preview已在腾讯云、元宝、腾讯内部办公助手（ima、CodeBuddy、WorkBuddy）、QQ、QQ浏览器、腾讯文档、腾讯乐享等平台首发上线。微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等更多核心产品也正在陆续接入。

此外，该模型已支持接入OpenClaw、OpenCode、KiloCode等流行的开源智能体框架，并正式上架了腾讯云的大模型服务平台TokenHub。

五一假期前夕，全球AI赛场可谓动作频频：阿里的Qwen 3.6 Max Preview、月之暗面的Kimi 2.6、小米的MiMo-V2.5-Pro相继亮相。那么，作为基础大模型的腾讯混元Hy3 preview，其实际表现究竟如何？我们不妨上手实测一番。

智能体硬核测试：复杂任务能否胜任？

作为ReAct（推理与行动）框架的提出者，姚顺雨的加入无疑强化了混元在智能体方向的基因。Hy3 preview在代码与智能体能力的提升，正顺应了“Agent下半场”的技术趋势与市场需求。

在腾讯的AI办公助手WorkBuddy上，我们可以指派其进行代码开发、深度研究、产品管理、数据分析等复合型任务。

例如，要求它调研关于DeepSeek的融资传闻，并对比至少5个不同背景的权威信源，列出已知事实与逻辑冲突点，最后给出信度评分。模型能够自主启动多轮搜索，完成长链推理后，系统性地梳理出信源间的矛盾，最终生成一份客观中立的调查报告，整个过程无需人工干预。

进一步，我们让它联网获取联合国人口司的数据，完成一项“全球人口结构变迁”的可视化分析。这个涉及数据获取、清洗、分析与图表呈现的复合任务，Hy3 preview同样完成得较为顺畅，最终输出了直观的图表与配套分析文本。

在纯代码能力测试中，我们让它生成一款“开心消消乐”网页游戏。最终产出的作品画面精美，游戏逻辑完整，可直接运行，整体完成质量超出了预期。

唠嗑、编故事……它的基本功扎实吗？

切换到腾讯元宝，可以看到混元大模型和其他主流模型一样，提供了“快速思考”与“深度思考”两种模式。前者响应更快，后者则思考更充分，答案质量更高。为了全面考察，我们后续测试均选择了“深度思考”模式。

既然主打实用，不妨先来聊聊家常。向Hy3 preview吐槽自己最近“变笨了”，它会耐心开解，分析可能是睡眠不足、工作压力大或刷短视频过多所致，并贴心地给出三条实用建议。

当话题延续到“写稿没灵感”时，它能自然衔接上下文，根据对话中流露的情绪调整回应的语气和深度，给出有针对性的创作建议。

它甚至能提供满满的“情绪价值”，变着花样夸人。

此前，知乎“AI请接招”活动中收录了一批刁钻问题，其中一道是：“今年才知道，亲生父母结婚时候没有叫我，我很难过怎么办？”许多大模型在此翻车，忽略了父母结婚时子女尚未出生的基本逻辑。Hy3 preview则敏锐地捕捉到了这个陷阱，在引导用户理清情绪的同时，展现了较强的常识推理与共情能力。

创意写作方面也值得一试。前段时间，NASA宇航员透过猎户座飞船窗口遥望地球的照片在社交媒体刷屏。

我们让Hy3 preview为这张图片生成5条朋友圈文案。它先分析了图片的孤独与震撼氛围，围绕对地球的敬畏、人类的渺小与伟大等情感触点，生成了风格各异的文案，有文艺的，也有哲思的，任意一条都足以直接发布。

在文风模仿上，要求它以欧·亨利的笔调创作一个短篇小说，其完成度也相当不错。

搜索能力方面，让它调查“Meta强制收集鼠标键盘输入的原因”，它能迅速援引权威信源，给出清晰、有据可查的解答。无论是查新闻、政策还是核实具体信息，整体表现都较为可靠。

“AI下半场”的底层重构

从技术层面看，Hy3 preview是一个融合了快慢思考机制的MoE（混合专家）语言模型。其总参数量为2950亿，激活参数量为210亿，支持256K上下文长度，在设计上兼顾了实用性与性价比。

据了解，混元团队在新一代模型上的主要工作是进行底层重构，将许多基础工作做得更加牢固，特别是预训练和强化学习的基础设施已被完全重做。团队并未在注意力机制等底层架构的微小创新上过度投入，而是选择了技术路线相对成熟的MoE，将全部精力和资源押注在工程基座（Infra）的稳固性上。

这意味着，Hy3 preview在模型稳定性、数据吞吐效率以及强化学习管线良品率上，可能达到了前所未有的工业级水准。

此外，在训练过程中，团队特别强调了模型评估，并加强了对自建Benchmark的研究。这与姚顺雨此前在博客中阐述的思路不谋而合——评估大于训练（Evaluation > Training）。

姚顺雨在《大模型的下半场》一文中曾指出，现有大模型的“配方”（预训练+强化学习+算力扩展）已高度成熟，具备了强大的泛化与解题能力。下半场的核心逻辑在于提出问题：“我们应该训练人工智能做什么？”

进入下半场，由于通用模型配方极其强大，投入巨大精力进行微调可能仅带来百分之几的提升。因此，评估变得比训练更为重要。行业需要重构评估体系，设计出更贴近现实世界复杂性的新任务与新范式，而非简单地设计更难的“考卷”。

要在AI下半场生存与发展，从业者必须具备类似“产品经理”的思维模式。必须深入思考：AI究竟该为谁解决什么实际问题？又该如何客观衡量它解决得好不好？

在这方面，腾讯手握微信、游戏、广告、云服务等国内乃至全球都极为复杂的业务场景。其自建的评测环境，必然高度贴合真实业务流中的难点与痛点。Hy3 preview的推出，或许标志着腾讯在其庞大生态内，已经初步构建出一个能够切实解决实际问题的生产力工具。

Hy3 preview于2026年1月底启动训练，从训练到上线仅用了不到三个月。这可以看作是混元大语言模型从“读万卷书”迈向“行万&里路”，尝试解决真实世界问题的一个开端。

当然，Hy3 preview只是一个起点。未来，混元团队希望通过开发者与用户的协同，进一步提升模型能力，使其在真实的场景与任务中持续进化。

来源:https://www.163.com/dy/article/KR7DRHKH0511AQHO.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：月之暗面Kimi浏览器插件安装与使用指南下一篇：通用世界模型问世机器人将具备自主进化与认知能力