2024年9月,各大科技厂商密集举办发布会,竞相展示多模态能力以及对标OpenAI Sora的视频生成模型。其中,阿里云在9月19日云栖大会上发布通义万相AI视频生成模型,字节跳动则在9月24日火山引擎AI创新巡展上推出“豆包·视频生成模型”。相比之下,作为国内最早布局通用大模型的公司,百度在类Sora视频生成模型方面的响应显得较为稳健。截至目前,百度并未单独发布视频生成模型,2024年1月公开的视频生成方法UniVG仍处于论文研究阶段。

直到9月25日百度云智大会,百度才亮出了一项文生视频能力——没有推出独立模型,而是直接在迭代至4.0版本的曦灵数字人平台上,集成了文生3D数字人、文生3D视频内容的功能。根据用户的文字指令,生成的数字人可以自由变换妆容,并根据实际落地场景调整形象风格。得益于AI生成功能的嵌入与迭代,原本需要数小时才能完成的3D数字人生成流程,如今仅需5分钟。同时,3D数字人的制作成本也大幅降低:3D超写实数字人的单价从万元级别直接降至199元。
“落地”导向贯穿整场百度云智大会。与2023年云智大会一次性发布11款AI应用不同,2024年百度云的策略已明确转变为向下游“卖水”——即提供底层基础设施与平台服务。
Scaling Law(规模定律)的探索仍在继续。支撑千亿、万亿参数大模型的基础设施,已从CPU演进为GPU主导,集群规模也从千卡级扩展至万卡级。百度集团执行副总裁、百度智能云事业群总裁沈抖指出,大模型的Scaling Law将在未来一段时间内持续发挥作用,预计很快将出现更多十万卡集群。
最新发布的百度百舸AI异构计算平台4.0,正是面向十万卡集群的算力管理平台。一方面,百舸4.0能够将万卡任务的有效训练时长稳定在99.5%以上;另一方面,它使万卡集群下万亿参数MoE(混合专家架构)模型的算力利用率提升了30%。
在模型层,持续降价并降低使用门槛,仍是百度千帆大模型3.0迭代的核心方向。截至目前,文心旗舰模型的降价幅度已达90%,ERNIE Speed、ERNIE Lite两款主力模型则直接免费开放。据沈抖介绍,文心大模型的日均调用量已突破7亿次,千帆平台累计开发了超过70万个企业级应用。
在应用层,扮演B端企业用户的“卖水人”角色,是百度云AI应用的明确定位。除数字人生成外,针对智能客服和代码编程场景,百度云分别迭代了智能客服平台“客悦”和代码助手“文心快码”。更新版的“客悦”已支持语音、视频等多模态交互,使智能客服处理复杂任务的能力提升至92%,显著高于行业平均水平的80%。
目前,代码处理是AI模型最成熟的应用领域之一。多位从业者对36氪表示,AI对代码的理解与处理能力甚至优于长文本。“企业级代码架构解释”与“企业级代码审查”是“文心快码”新增的两项功能:前者帮助用户快速理解既有代码,加速开发上手;后者则基于对项目的整体理解,对代码进行纠错与优化。
百度云正在明确其基础设施提供商的角色定位。针对下游应用层,百度CEO李彦宏在会上再次强调,智能体是他最看好的方向:“就像互联网时代的账号一样,智能体门槛极低,但上限却非常高。”
