微软此次一口气发布了三款 Phi-3.5 系列 AI 模型,其中最引人注目的是该系列首次引入混合专家(MoE)架构的版本——Phi-3.5-MoE。整个系列基于合成数据与经过筛选的公开网站数据构建,上下文窗口统一扩展至 128K,所有模型现已通过 MIT 许可在 Hugging Face 上完全开源。下面逐一介绍:

Phi-3.5-MoE:首款混合专家模型
这是 Phi 家族中首个采用 MoE 架构的模型。其结构为 16 x 3.8B MoE,每次推理仅激活 2 个专家,相当于只调动 66 亿参数参与计算。训练过程使用了 512 块 H100,在 4.9T 的 token 数据上进行打磨。微软团队从零开始设计,旨在榨取更高性能。结果在标准 AI 基准测试中,它直接超越了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash,甚至与当前领先的 GPT-4o-mini 仅差一步之遥。
Phi-3.5-vision:多帧图像理解能力升级
视觉版拥有 42 亿参数,采用 256 块 A100,在 500B token 上完成训练。此次最大的升级是支持多帧图像理解与推理——即能够同时分析多张图片并识别它们之间的关联。实测成绩十分亮眼:MMMU 从 40.2 提升至 43.0,MMBench 从 80.5 提高到 81.9,文档理解基准 TextVQA 从 70.9 上升至 72.0,每项指标均有实质性进步。
Phi-3.5-mini:轻量级却硬刚大模型
尽管仅有 38 亿参数,但该模型表现极为强劲:不仅超越 Llama3.1 8B 和 Mistral 7B,甚至能与拥有 120 亿参数的 Mistral NeMo 12B 一较高下。训练使用 512 块 H100,在 3.4T token 上完成。有效参数虽仅 3.8B,但在多语言任务中完全不逊于参数更多的竞品。此外,它支持 128K 上下文窗口,而主要对手 Gemma-2 系列仅提供 8K——这一差距堪称降维打击。
