微软发布Phi-3.5模型：128K上下文首用混合专家_AI热点日报

微软发布Phi-3.5模型：128K上下文首用混合专家

类型：热点整理2026-07-04

微软此次一口气发布了三款 Phi-3 5 系列 AI 模型，其中最引人注目的是该系列首次引入混合专家（MoE）架构的版本——Phi-3 5-MoE。整个系列基于合成数据与经过筛选的公开网站数据构建，上下文窗口统一扩展至 128K，所有模型现已通过 MIT 许可在 Hugging Face 上完全开源

微软此次一口气发布了三款 Phi-3.5 系列 AI 模型，其中最引人注目的是该系列首次引入混合专家（MoE）架构的版本——Phi-3.5-MoE。整个系列基于合成数据与经过筛选的公开网站数据构建，上下文窗口统一扩展至 128K，所有模型现已通过 MIT 许可在 Hugging Face 上完全开源。下面逐一介绍：

微软发布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合专家模型

Phi-3.5-MoE：首款混合专家模型

这是 Phi 家族中首个采用 MoE 架构的模型。其结构为 16 x 3.8B MoE，每次推理仅激活 2 个专家，相当于只调动 66 亿参数参与计算。训练过程使用了 512 块 H100，在 4.9T 的 token 数据上进行打磨。微软团队从零开始设计，旨在榨取更高性能。结果在标准 AI 基准测试中，它直接超越了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash，甚至与当前领先的 GPT-4o-mini 仅差一步之遥。

Phi-3.5-vision：多帧图像理解能力升级

视觉版拥有 42 亿参数，采用 256 块 A100，在 500B token 上完成训练。此次最大的升级是支持多帧图像理解与推理——即能够同时分析多张图片并识别它们之间的关联。实测成绩十分亮眼：MMMU 从 40.2 提升至 43.0，MMBench 从 80.5 提高到 81.9，文档理解基准 TextVQA 从 70.9 上升至 72.0，每项指标均有实质性进步。

Phi-3.5-mini：轻量级却硬刚大模型

尽管仅有 38 亿参数，但该模型表现极为强劲：不仅超越 Llama3.1 8B 和 Mistral 7B，甚至能与拥有 120 亿参数的 Mistral NeMo 12B 一较高下。训练使用 512 块 H100，在 3.4T token 上完成。有效参数虽仅 3.8B，但在多语言任务中完全不逊于参数更多的竞品。此外，它支持 128K 上下文窗口，而主要对手 Gemma-2 系列仅提供 8K——这一差距堪称降维打击。

来源：https://www.1ai.net/18441.html

微软发布 Phi-3 5 系列 AI 模型：上下文窗口 128K，首次引入混合专家模型

延伸阅读

补充最近整理过的热点入口。