2026年1月22日,百度正式发布文心大模型5.0正式版——这是一款原生全模态大模型,参数规模达到2.4万亿。与市面上常见的“后期融合”式多模态方案不同,文心5.0采用统一自回归架构,将文本、图像、音频、视频等多种模态数据整合到同一训练框架中,实现端到端联合优化。简单来说,它从底层打通了各类信息的边界,能够真正实现跨模态理解与生成。
目前,普通用户可直接通过文心APP或文心一言官网体验;企业客户与开发者则可登录百度千帆平台调用模型、进行集成开发。

官方披露的信息显示,在涵盖语言理解、视觉推理、跨模态对齐等40多项国际权威基准测试中,文心5.0正式版综合能力已超越Gemini-2.5-Pro、GPT-5-High等前沿模型,稳居全球第一梯队。尤其在图像与视频生成质量上,它达到了专业垂直领域模型的水准。整体技术实力确实处于世界领先行列。




百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜指出,文心5.0区别于行业主流方案的关键在于:它从一开始就采用统一自回归架构进行原生全模态建模,而非后期将多个单模态模型拼接。这样一来,文本、图像、视频、音频等数据在同一个框架内完成训练和联合优化,真正实现了跨模态的深度融合与协同表达。

更值得关注的是,文心5.0引入了超大规模混合专家(MoE)结构。其参数稀疏性极高,实际激活参数占比不到3%,既保证了强大的性能,也大幅提升了推理效率。同时,模型依托海量工具交互环境,合成高质量的长程任务轨迹数据,再结合思维链(Chain-of-Thought)与行动链(Chain-of-Action)驱动的端到端多轮强化学习,使得智能体在任务规划与工具调用方面的能力得到显著增强。
其实早在2025年11月,百度就已推出文心大模型5.0 Preview版本并开放试用。此后,该系列模型多次登上LMArena全球大模型竞技场,在文本理解和视觉感知双榜单中持续位居国内第一,成功跻身国际顶尖水平阵营。

最新排名数据显示(1月15日),文心5.0以1460分高居LMArena文本榜国内首位、全球第八位,表现优于GPT-5.1-High、Gemini-2.5-Pro等主流竞品模型。这一成绩进一步验证了其技术实力。
