腾讯混元Hy3预览版实测体验不追榜单专注实用能力提升
这周国产大模型领域可谓热闹非凡,阿里Qwen 3.6 Max、月之暗面Kimi 2.6、DeepSeek V4等新品接连登场,箭在弦上。在这波发布潮中,腾讯的混元Hy3 preview也于昨日正式亮相。值得注意的是,这是由腾讯首席AI科学家姚顺雨主导的第一代模型,其定位从一开始就非常清晰:不追求榜单上的高分,而是致力于在真实世界中解决实际问题。

核心数据一览
先来看看它的基本盘。混元Hy3 preview拥有2950亿的参数总量,其中激活参数为210亿,上下文长度达到256K(约20万字)。在衡量代码解决实际问题的SWE-Bench基准上,其成绩从53.0%提升至74.4%,提升幅度超过40%。这个74.4%的水平,已经接近GLM-4.7,在国内模型中稳居第一梯队。价格方面,输入为1.2元/百万tokens,输出为4元/百万tokens,具备一定的竞争力。
实际体验:能力究竟如何?
数据是冰冷的,体验才是温热的。那么,这款“不为打榜”的模型,在实际应用中表现怎样?
编程场景(WorkBuddy实测)
在编程辅助场景下,它的表现可圈可点。例如,生成一个3D金门大桥的交互体验代码,模型能够跑通基本功能,但在渲染写实度上有所欠缺,这部分受限于所选工具库的能力。让它编写一个游乐场经营类小游戏,从核心玩法到界面都能实现,不过UI风格会偏向某种“渐变紫”的审美。在完成复杂数据抓取并可视化的任务时,整个处理链路表现稳定,只是在最终图表的美观和细节调整上,还存在“最后一公里”的优化空间。
办公场景
转向办公领域,它的实用性更加凸显。将一份结构复杂的PDF转换为HTML时,模型能准确定位并提取关键信息,但若要完全复现原文档的精美排版,仍有难度。在撰写深度行业研究报告时,其引用的数据来源相对权威,结论部分甚至可以直接参考使用。进行数据可视化分析时,虽然前期调研所需时间较长,但最终输出的图表质量颇高。
日常聊天交互
最让人印象深刻的或许是它的对话风格。模型主打“活人感”,并非一味顺从用户的指令,而是会主动分析问题背后的原因,并提供有建设性的建议。在创意写作任务中,其输出风格更具个性化,那种常见的“AI腔调”明显减弱。
战略转向:从“答题”到“出卷”
这种产品特质,源于腾讯内部对行业现状的深刻反思。姚顺雨在内部曾提出一个判断:“模型过度追逐榜单成绩,将打榜语料放入训练集,数据被污染了。模型很会答题,到了真实场景却不稳定。”
“模型过度追逐榜单成绩,将打榜语料放入训练集,数据被污染了。模型很会答题,到了真实场景却不稳定。”
这句话精准点破了当前大模型发展的一个核心痛点。榜单衡量的是能力的上限,而用户感知到的往往是能力的下限。在MMLU这类通用基准上领先两个百分点,普通用户几乎察觉不到;但若是模型在指令遵循上稍差一点,或者输出格式不稳定,用户体验就会断崖式下降。
因此,Hy3 preview选择不再“刷榜”,转而开始“出卷子”——即直面并解决真实世界中的复杂、开放性问题。这无疑是一条更艰难,但也更贴近应用本质的道路。
落地场景与生态整合
目前,Hy3 preview的能力已经逐步整合到腾讯的多个产品中,包括元宝App、QQ的CodeBuddy、WorkBuddy,以及腾讯文档(企业微信内)。特别值得一提的是,在企业微信生态内,微盛·企微管家Claw已经接入了Hy3 preview。这意味着企业微信用户可以在客服应答、智能文档处理、业务数据分析等具体场景中,直接体验到这款模型的能力。
展望:过渡态与未来筹码
总体来看,Hy3 preview呈现出一种鲜明的“过渡态特征”:其智能体(Agent)能力框架已经具备,但在复杂任务执行的稳定性和完整性上还需打磨;技术方向得到了验证,然而大规模的工程优化仍在路上;它放弃了榜单竞争,但真实场景的严酷考验才刚刚开始。
可以说,腾讯的AI战略正在发生一次关键转向:从“追赶榜单”到“解决问题”。这个方向无疑是正确的,但一切都需要时间。现实的数据很骨感:在月活用户层面,豆包3.45亿、千问1.66亿、DeepSeek 1.27亿,而腾讯的元宝目前为5700万。
然而,腾讯手中握有一张无可比拟的底牌——微信生态。当模型能力与13亿用户的真实需求场景深度结合,这个雪球一旦滚动起来,将会产生怎样的能量,目前还无人能知。这场竞赛,远未到终局。
相关攻略
近期,存储芯片行业释放出一个值得高度关注的信号。全球主要SSD主控芯片供应商忆联科技(Silicon Motion)首席执行官发出预警:由于人工智能企业正通过签订长期供货协议并支付预付款的方式,大规模提前锁定核心产能,用于内存(DRAM)与固态硬盘(SSD)的NAND闪存芯片将面临结构性短缺。这场供
近期,存储行业释放出一个值得高度关注的信号。主控芯片供应商忆联科技(Silicon Motion)的CEO发出预警:由于人工智能企业正通过长期合约和预付款方式锁定大量产能,内存(DRAM)与固态硬盘(SSD)所依赖的NAND闪存将面临持续性短缺。这场供需紧张的拉锯战,很可能将持续至2028年,而相关
当你的潜在客户开始习惯问AI“哪个品牌好”,而不是打开百度搜索关键词时,品牌的战场就已经悄然转移了。没错,传统搜索引擎优化(SEO)依然重要,但在豆包、DeepSeek、文心一言这些生成式AI平台上的“能见度”,正迅速成为决定品牌认知度的新关键。这不再是未来的趋势,而是正在发生的行业变局。 面对这场
在探讨人工智能技术时,大语言模型(LLM)无疑是其核心组成部分与关键驱动力。两者之间并非简单的从属关系,而是一种深度融合、相互促进的共生生态。 从技术本质来看,大语言模型是人工智能,特别是深度学习与自然语言处理(NLP)领域发展到高级阶段的标志性成果。其核心原理在于:通过对海量文本数据进行预训练,模
数据,作为驱动数字经济发展的核心要素,其规模与流向已成为衡量人工智能产业成熟度的关键指标。国家数据局近期发布的权威数据,清晰揭示了2025年中国AI算力市场正在发生的结构性转变。 2025年,我国专门投入人工智能模型训练与推理应用的数据总量攀升至199 48 EB(艾字节),同比增幅高达42 86%
热门专题
热门推荐
为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘
Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,
劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲
新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。
当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID





