腾讯混元Hy3预览版开源发布:智能体性能全面升级
腾讯混元大模型家族迎来了新成员。4月23日,混元Hy3 preview语言模型正式发布并宣布开源。这不仅仅是一次常规迭代,而是混元技术路线重建后的首个成果,被定位为迄今“最智能”的模型。

从技术架构上看,Hy3 preview是一个融合了快慢思考机制的混合专家模型,总参数量达到295B,激活参数为21B,并最大支持256K的上下文长度。官方信息显示,其在复杂推理、指令遵循、上下文学习、代码及智能体等核心能力上均实现了大幅提升。
这一系列进展的背后,是腾讯混元在2026年2月启动的一次系统性重建。这次重建覆盖了预训练和强化学习的基础设施,并确立了追求模型“实用性”的三个核心原则:
首先,是能力体系化。不鼓励模型“偏科”,因为即便是代码智能体这类看似单一的应用,其背后也需要推理、长文理解、指令遵循、对话、代码生成与工具调用等多种能力的深度协同。
其次,是评测真实性。团队主动跳出容易被针对性优化的公开榜单,转而通过自建题目、最新考试、人工评测以及产品众测等多种方式,来评估和改进模型的“真实战斗力”。
最后,是性价比追求。实用性离不开商业合理性,因此需要深度协同模型架构与推理框架的设计,以大幅降低任务成本,让智能“用得起、用得好”。
可以说,Hy3 preview正是混元基于这套新原则,快速探索实用性大模型、解决真实世界问题的开端。腾讯首席AI科学家姚顺雨表示,这是混元大模型重建的第一步,希望通过开源获得社区的真实反馈,以提升未来正式版的实用性。与此同时,团队也在继续扩大训练规模,提升模型智能上限,并通过与腾讯内部产品的深度协同设计,持续优化模型在真实场景中的综合表现。
目前,Hy3 preview已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等产品中首发上线,并将在微信公众号、和平精英、腾讯新闻等更多主线产品中陆续部署。此外,该模型支持接入OpenClaw、OpenCode等流行的开源智能体框架,并已上架腾讯云大模型服务平台TokenHub。
Hy3 preview主打全面实用性,Agent能力大幅提升
多项测评结果印证了Hy3 preview模型能力的全面提升,尤其在以下几个维度表现突出。
1、出色的上下文学习和指令遵循能力
在各种真实的生产与生活场景中,理解杂乱冗长的上下文并严格遵从复杂多变的规则,是模型面临的首要挑战。基于腾讯丰富业务场景的灵感,混元团队创新性地提出了CL-bench和CL-bench-Life评测集,用以评估模型的上下文学习能力。结果显示,Hy3 preview在这方面的能力得到了显著增强。
2、复杂推理能力突出,清华数学博士资格考试国内分数最高
复杂推理能力是模型解决各类问题的基石。Hy3 preview在FrontierScience-Olympiad、IMOAnswerBench等高难度理工科推理任务中表现不俗。更值得一提的是,在最新的清华大学求真书院数学博士资格考试以及全国中学生生物学联赛中,该模型均取得了优异成绩,展现了其可泛化的强大推理能力。
3、代码与智能体提升最为显著,展现出高性价比
代码和智能体是Hy3 preview进步最为明显的方向。得益于重建后的预训练及强化学习框架,以及任务规模的提升,该模型在SWE-Bench Verified、Terminal-Bench 2.0等主流代码智能体基准,以及BrowseComp、WideSearch等主流搜索智能体基准中,均快速取得了有竞争力的结果。
在数字世界里,代码能力关乎模型在开发环境中的执行力,而搜索能力则聚焦于开放信息空间中的检索与整合效率,两者共同决定了模型在复杂智能体场景中的实际可用性。Hy3 preview在ClawEval和WildClawBench等评测中的突出表现,表明其智能体能力正稳步走向全面与实用。
除了公开榜单,腾讯混元还构建了多个内部评测集,以评估模型在真实开发场景中的表现。无论是在后端工程任务集Hy-Backend、贴近真实用户交互的Hy-Vibe Bench,还是高难度软件工程开发任务集Hy-SWE Max上,Hy3 preview均体现出了强大的竞争力。
综合比较各开源模型的规模与智能体综合表现,Hy3 preview展现出了较高的性价比优势。
腾讯核心业务已全面接入,多主线AI产品验证收益明显
在正式上线前,Hy3 preview已在腾讯多个核心AI业务中进行了广泛的产品测试,并获得了明显的正向收益。
在元宝端,通过深度的协同设计,一方面针对性提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现;另一方面,对文风、情商、内容组织等维度进行了精细化调优,为用户带来了更智能且更具“活人感”的交互体验。
在ima的知识库问答和通用问答场景下,测试显示Hy3 preview处理长文的能力出色,特别是在检索类任务中,回答的准确性、覆盖度和全面性均有较好表现。
在CodeBuddy和WorkBuddy产品上,Hy3 preview的首token延迟降低了54%,端到端时长降低47%,成功率提升至99.99%以上。在实际用户环境中,该模型已稳定驱动最长495步的复杂Agent工作流,覆盖文档处理、数据分析、知识检索等多种办公场景。
在公众号AI分身和AI客服的专项评测中,Hy3 preview相比前代展现出更全面的能力升级。新模型在用户意图理解、复杂上下文承接和信息组织方面更成熟,面对模糊提问和多轮对话时,能更准确地把握诉求,输出更稳定清晰的回复,过度脑补和主观代入显著减少。
在和平精英AI NPC场景的评测中,Hy3 preview的表现令人印象深刻。在游戏局外的人设扮演中,它能精准理解角色并输出高关联度的内容;在局内复杂对战场景中,其回复节奏贴近真实玩家,展现出优秀的拟人化扮演能力。
在腾讯文档的AIPPT场景,较上一版本取得了显著进步:生成成功率提升20%,评测得分提升10%,同时生成耗时缩短20%。在模版选择、色彩匹配、内容生成等多个阶段均表现优异。
在QQ AI助手小Q的产品评测中,新版本在响应速度与流式输出效率上显著优化;核心能力上,数学推理提升尤为明显,工具调用与多轮指代消解更稳定高效,在OpenClaw的智能体场景测试中综合体验实现跃升。
推理效率提升40%,同等成本智能密度最优
得益于模型与推理框架的深度协同设计,以及在推理框架、算子性能、量化算法等方面的全方位优化,Hy3 preview的整体推理效率提升了40%,成本相比上一代模型大幅下降。
在腾讯云大模型服务平台TokenHub上,Hy3 preview的输入价格最低为1.2元/百万tokens,输出价格最低为4元/百万tokens。同时,腾讯云联合混元推出了定制的Hy3 preview Token Plan套餐,个人版定价最低28元/月,旨在为Agent开发和创新应用提供更具性价比的选择。
相关攻略
腾讯的基础大模型,似乎终于迎来了转机。 5月7日,腾讯混元公布了一组数据:自上线以来,其最新模型Hy3 preview的Token调用量持续攀升,目前总量已超过上一代Hy2模型的10倍。其中,代码和智能体类场景的调用量增长尤为显著。 与此同时,来自第三方平台OpenRouter的公开数据也显示,在过
我们对于“AI个人助手”的想象,正变得越来越具体和迫切。 一个真正能融入日常生活的智能助手,必须能从我们生活的点滴痕迹中学习和理解,解决那些复杂场景下的实际问题。这听起来简单,实现起来却充满挑战。 在近期的AGI-Next前沿峰会上,腾讯的姚顺雨分享了一个生动的例子:当你询问AI“今天吃什么”时,真
5月7日,腾讯混元公布了一组关于其最新模型Hy3 preview的数据,结果相当引人注目。自该模型上线以来,其Token调用量持续攀升,目前总量已达到上一代版本Hy2的10倍之多。 增长点在哪里?代码和智能体类场景的贡献尤为突出。在腾讯内部的WorkBuddy、Codebuddy以及Qclaw等应用
说到国内自研大模型,腾讯混元绝对是个绕不开的名字。作为腾讯全链路自研的成果,它在内容创作、逻辑推理、代码生成以及多轮对话这些核心能力上,表现相当亮眼,业界口碑一直在线。更值得一提的是,其API还集成了AI搜索联网插件,能直接调用微信公众号、视频号等腾讯生态内的优质内容,这让它在获取实时、深度的信息并
原阿里通义视觉负责人薄列峰已加入腾讯混元团队,向副总裁蒋杰汇报。薄列峰拥有顶尖学术与工业背景,曾主导多项重要AI项目。近期,腾讯混元还吸引了微软WizardLM团队核心成员等人才加入,正快速构建多模态技术阵容,展现建立独立技术体系的决心。
热门专题
热门推荐
为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘
Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,
劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲
新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。
当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID





