腾讯混元Hy3 preview发布并开源:混元重建后首个模型 Agent能力大幅提升
腾讯混元Hy3 preview发布并开源:混元重建后首个模型 Agent能力大幅提升
4月23日,腾讯混元大模型家族迎来了一个重要新成员——Hy3 preview语言模型正式发布并开源。这不仅是混元技术架构重建后训练的第一个模型,也被官方称为迄今最智能的混元模型。它采用快慢思考融合的混合专家(MoE)架构,总参数达2950亿,激活参数为210亿,最大支持256K上下文长度。在复杂推理、指令遵循、代码与智能体等核心能力上,此次更新实现了大幅跃升。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这次发布的背后,是腾讯混元在2026年2月完成的一次系统性重建。团队重构了预训练和强化学习的基础设施,并确立了追求模型实用性的三大核心原则:
第一,能力体系化。模型不推崇“偏科”,因为即便是代码智能体这类看似单一的应用,也深度依赖推理、长文理解、指令遵循、对话、代码生成与工具调用等多种能力的协同作战。
第二,评测真实性。团队主动跳出容易“刷榜”的公开评测集,转而通过自建题目、最新考试真题、人工评测以及产品众测等多种方式,来评估和改进模型的“真实战斗力”。
第三,性价比追求。实用性离不开商业合理性。通过深度协同模型架构与推理框架的设计,大幅降低任务成本,目标是让高级智能“用得起、用得好”。
可以说,Hy3 preview正是混元基于这套新理念,快速探索实用性大模型、解决真实世界问题的开端。
腾讯首席AI科学家姚顺雨对此解读道,Hy3 preview是混元大模型重建迈出的第一步。此次开源和发布,核心目的是获得来自开源社区和用户的真实反馈,从而帮助提升Hy3正式版的实用性。与此同时,团队仍在继续扩大预训练和强化学习的规模,以提升模型的智能上限,并通过与腾讯内部众多产品的深度协同设计(Co-Design),持续优化模型在真实场景中的综合表现,并开始探索特色模型能力。
目前,Hy3 preview已在腾讯云、元宝、腾讯会议AI助手(ima)、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等产品中首发上线。微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也正在陆续接入中。
此外,Hy3 preview已支持接入OpenClaw、OpenCode、KiloCode等流行的开源智能体框架,并正式上架了腾讯云大模型服务平台TokenHub,方便开发者调用。
那么,这个新模型到底强在哪里?多项测评结果显示,其能力得到了全面提升。
1、出色的上下文学习和指令遵循能力
在各种真实的生产与生活场景中,理解杂乱冗长的上下文并精准遵从复杂多变的规则,是模型面临的首要挑战。基于腾讯丰富业务场景的灵感,混元团队提出了CL-bench和CL-bench-Life评测集,创新性地评估模型的上下文学习能力。结果表明,Hy3 preview在这方面的能力得到了显著提升。

2、复杂推理能力突出,清华数学博士资格考试国内分数最高
复杂推理能力是模型解决各类问题的基石。Hy3 preview在FrontierScience-Olympiad、IMOAnswerBench等高难度理工科推理任务中表现突出。尤其在最新的清华大学求真书院数学博士资格考试(2026年春季)和全国中学生生物学联赛(CHSBO2025)中取得了优异成绩,展现了其可泛化的强大推理能力。

3、代码与智能体提升最为显著,展现出高性价比
代码和智能体能力是Hy3 preview进步最大的方向。得益于预训练及强化学习框架的重建,以及强化学习任务规模的提升,混元以较快的速度在SWE-Bench Verified、Terminal-Bench2.0等主流代码智能体基准,以及BrowseComp、WideSearch等主流搜索智能体基准中,取得了具有竞争力的结果。

在数字世界中,代码能力关注模型在开发环境中的执行精度,而搜索能力则聚焦于在开放信息空间中的检索、筛选与整合效率,两者共同决定了模型在复杂智能体场景(例如OpenClaw)中是否真正具备可用性。Hy3 preview在ClawEval和WildClawBench等评测中表现突出,这表明其智能体能力正在稳步走向全面与实用。

除了公开榜单,腾讯混元还进一步构建了多个内部评测集,用于评估模型在真实开发场景中的表现。结果显示,无论是在后端工程任务集Hy-Backend、贴近真实用户开发交互的Hy-VibeBench,还是高难度软件工程开发任务集Hy-SWEMax上,Hy3 preview均体现出了强大的竞争力。

综合比较各个开源模型的参数量与智能体综合表现,Hy3 preview展现出了较高的性价比。

腾讯核心业务已全面接入,多主线AI产品验证收益明显
在正式全面上线之前,Hy3 preview已在腾讯主要AI业务中进行了广泛的产品测试,并获得了明显的正向收益。
在元宝端,混元团队与产品进行了深度协同设计。一方面,针对性提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现;另一方面,对文风、文笔、情商、内容组织和专业度进行了精细化调优。这种模型与产品的深度协同,为用户带来了更智能且更具“活人感”的交互体验。
在腾讯会议AI助手(ima)的知识库问答和通用问答场景下,测试显示Hy3 preview处理长文的能力出色,特别是在检索类任务中,回答信息的准确性、覆盖度和全面性表现较好。
在CodeBuddy、WorkBuddy产品上,Hy3 preview的首token延迟降低了54%,端到端响应时长降低了47%,成功率提升至99.99%以上。在实际用户环境中,新模型已能稳定驱动最长495步的复杂Agent工作流,覆盖文档处理、数据分析、知识检索、MCP工具链编排等多样化办公场景。
在公众号AI分身和AI客服的场景专项评测中,Hy3 preview展现出相比前代Hy2更全面的能力升级。新模型在用户意图理解、复杂上下文承接和知识信息组织方面表现更成熟,面对模糊提问、短句追问和多轮对话时,能够更准确地把握用户诉求,并输出更清晰、更稳定的回复。在结合知识库、用户记忆与上下文生成回答时,能更贴合AI分身和客服的角色设定,过度脑补、主观代入和情绪化表达显著减少,使整体交互体验更贴近“可信、自然、高效”的目标。
在《和平精英》AINPC场景评测中,游戏团队在Hy3 preview上线后第一时间完成接入并开展评测,其整体表现令人印象深刻。在游戏局外的人设扮演场景中,模型不仅能精准理解角色设定,还能针对开放性问题输出高度关联、富有增量价值的内容,带来了更加真实、自然、沉浸的对话体验。而在游戏局内的复杂对战场景中,模型回复节奏贴近真实玩家聊天体验,展现出优秀的稳定性与出色的拟人化扮演能力。
在腾讯文档AIPPT场景,较上一版本(Hy2)取得了显著进步:生成成功率提升20%,评测得分提升10%,同时生成耗时缩短20%。整体而言,新模型在模版选择、色彩匹配、生成大纲、补充内容等多个阶段,均表现出色,做到了无幻觉、契合主题且视觉效果佳。
在QQAI助手小Q的产品评测中,较上一版本,在长文本首字节时延、整体响应速度与流式输出效率方面均有显著优化;核心能力上,数学推理表现提升尤为明显,多场景指令遵循与泛化能力进一步增强。在工具调用推理及多轮指代消解方面表现更稳定高效,在OpenClaw最新的PinchBenchQQ智能体场景测试中取得突出效果,综合体验实现明显跃升。
推理效率提升40%,同等成本智能密度最优
得益于模型和推理框架的深度协同设计,以及在推理框架、算子性能、量化算法等方面的全方位优化,Hy3 preview的整体推理效率提升了40%,成本相比上一代模型大幅下降。
在腾讯云大模型服务平台TokenHub上,Hy3 preview的输入价格最低为1.2元/百万tokens,输入命中缓存价格低至0.4元/百万tokens,输出价格最低为4元/百万tokens。同时,腾讯云联合混元推出了定制的Hy3 preview TokenPlan套餐,个人版定价最低28元/月,为Agent开发和打造“龙虾”应用提供了更具性价比的选择。


相关攻略
腾讯混元Hy3 preview发布并开源:混元重建后首个模型 Agent能力大幅提升 4月23日,腾讯混元大模型家族迎来了一个重要新成员——Hy3 preview语言模型正式发布并开源。这不仅是混元技术架构重建后训练的第一个模型,也被官方称为迄今最智能的混元模型。它采用快慢思考融合的混合专家(MoE
腾讯混元在营销文案多样性上优于豆包:句式更丰富、热词覆盖率更高、术语转化更准、情绪张力与CTA更强、跨平台风格迁移更一致。 如果你生成的营销文案总感觉千篇一律,风格呆板,或者换个平台就水土不服,那问题可能出在工具上。不同的AI模型,在理解商业语境、覆盖行业术语以及生成多样化表达的能力上,确实存在肉眼
腾讯混元大模型:五种高效生成私域社群话术的实战路径 为私域社群快速产出既符合场景、语气自然,又暗藏转化钩子的互动文案,是许多运营者的日常挑战。灵感枯竭、时间紧迫,或是反复打磨仍觉“差点意思”——这些问题背后,往往是对工具潜力的挖掘不够深入。腾讯混元大模型内置了多项专项能力,只需掌握正确的操作路径,就
腾讯混元在诗歌生成中展现出更强的文学性,具体表现为格律严谨、典故运用深刻、风格统一、修辞手法丰富、留白处理巧妙;豆包则更注重语义的流畅性,但在韵律、文化深度、风格一致性、隐喻层次和留白艺术上相对较弱。 当人工智能涉足诗歌创作领域,其产出便超越了单纯的信息组合,演变为一场关于文学审美与艺术表达的深度比
1月27日消息,据腾讯云官微消息,腾讯搜狗输入法推出20 0版本,正式宣布全面AI化。在该版本中,语音、打字、翻译三大核心场景完成模型级升级。新版本中,输入法接入混元冠军翻译模型,支持30+种语言的
热门专题
热门推荐
一位传奇制作人的“最后一舞” 今天,游戏界一位耕耘了四十载的老兵,彼得·莫利纽兹,在社交平台上揭晓了他的“收官之作”——《阿尔比恩之主》。 争议与影响力并存的设计师 彼得·莫利纽兹这个名字,在英国乃至全球游戏史上,都意味着创新与争议的交织。他无疑是业界最具话题性、同时也最具影响力的设计师之一。 故事
《识质存在》多平台画面对比:Switch 2的“巧劲”与“妥协” 抽5套《识质存在》steam激活码+北通鲲鹏70旗舰手柄 一场跨越平台的视觉较量 最近,油管上那个以“数毛”闻名的游戏测评频道ElAnalistaDeBits,发布了一则备受关注的对比视频。主角是谁?正是卡普空的新作《识质存在》。视频
当埃隆·马斯克敲下“Doge” 你猜怎么着?有时候,撬动数十亿美元市值,只需要一个简单的单词或表情包。当埃隆·马斯克在推特上敲出“Doge”或者发布那只柴犬的魔性表情时,一场围绕狗狗币的狂欢或震荡,往往就此拉开序幕。这个最初源于网络玩笑的加密货币,早已找到了它最重量级的“代言人”。马斯克的影响力,在
《识质存在》好评如潮,配音阵容引关注 卡普空的新作《识质存在》最近正式发售了。市场反响相当热烈,目前本作在Steam平台上的总体好评率高达97%,开局堪称惊艳。 游戏热度之下,配音演员们也纷纷加入庆祝行列。男主角“休”的配音演员发文庆贺时,特别提到了为游戏中可爱角色“戴安娜”配音的演员——Grace
从青涩玩家到经典反派:祖国人扮演者的形象蜕变 最近,社交媒体上流传的一段视频挺有意思。那是祖国人扮演者早年拍摄的一则Playstation广告,画面里的他一脸青涩,和如今那个深入人心的经典反派形象,简直判若两人。这种强烈的对比,恰恰印证了一个事实:祖国人这个角色,已经被大众公认为影视史上最具代表性的





