先来探讨几个核心观点。2024年vivo开发者大会上,vivo正式推出了自主研发的全新蓝心大模型矩阵。这并非简单的例行升级,而是从语言模型到端侧、语音、图像、多模态等全链路自研体系的重大突破。

整个大模型矩阵的配置非常清晰:包括语言大模型、端侧大模型、语音大模型、图像大模型、多模态大模型,全面覆盖。其中最受关注的当属全新的30亿参数端侧大模型3B。据官方介绍——在对话写作、摘要总结、信息抽取等日常高频使用场景中,蓝心3B的性能足以越级挑战行业7B到9B级别的模型。简而言之,它以更小的模型体积,实现了更高级别的性能表现。详细的性能数据更能说明问题:相比上一代蓝心7B,蓝心3B在极致性能上提升了300%,平衡模式下功耗优化了46%,内存占用减少了63%。实际体验层面——出词速度达到80字/秒,系统功耗仅450mA,内存占用压缩至1.4GB。可以说,它将旗舰级的大模型能力真正部署到手机上,同时保持低功耗、小体积。在SuperCLUE和Equal Eval的小模型综合能力榜单中,蓝心3B均夺得第一名,并且通过了泰尔实验室端侧大模型认证以及AIIA安全防范能力认证。权威认证方面同样表现突出。
语音大模型方面,vivo同样坚持纯自研路线。它不仅仅实现语音识别功能,还能精准理解自然语义,甚至模拟人声传递情感。一个典型应用场景就是同声传译。这种需求在商务沟通、跨国会议中日益普遍,只有实现流畅自然、语气到位,才算真正落地。
图像与多模态部分,vivo也进行了升级。蓝心图像大模型强化了融合中国特色的东方美学生成能力。官方自称是“国内最懂中文语境的图像模型之一”——这并不夸张,因为它支持国风水墨风格,甚至可在生成图片时直接添加汉字。这一点,许多国际大模型的本地化尚未实现。而多模态大模型的核心升级在于视觉感知与理解深度——它不仅能够识别屏幕内容,还能在视频流实时对话中保持流畅交互。蓝心语音、图像、多模态等模型,在多家专业榜单中均稳居第一。
总体来看,vivo的策略非常稳健:不盲目追求参数上的极致大,而是走适合自己的小而强路线,并逐步补全语音、图像、多模态等能力。端侧模型才是手机厂商真正能够拉开差距的关键——而蓝心3B这颗“小核”,显然已经超出了许多人的预期。
