辟谣苹果AI基础模型真相自研3B多模型架构并非GPT-4o_AI热点日报

辟谣苹果AI基础模型真相自研3B多模型架构并非GPT-4o

类型：热点整理2026-05-30

苹果自研AppleIntelligence基础模型，包含约30亿参数的端侧模型与更大规模服务器模型，针对用户日常行为微调，通过量化、剪枝等多项优化实现高效推理，在摘要、指令遵循等维度性能超越同类模型。

刚刚落幕的苹果全球开发者大会（WWDC），可谓是吸引了全球目光。

然而，苹果仅在发布会上轻描淡写地提及了一句“powered by GPT-4o”，国内部分不够专业的媒体便断章取义，直接宣称“Apple Intelligence是套壳GPT-4o”。社交媒体上也涌现出不少跟风起哄的吃瓜群众，场面令人哭笑不得。

海外社交平台同样谣言四起。面对这种情况，苹果终于坐不住了，官方紧急发布了一篇技术博客，正式公开了Apple Intelligence背后的基础生成模型——竟然是苹果自主研发的模型！

尽管Siri确实可以直接调用GPT接口，但这仅仅是Apple Intelligence可调用的外部模型之一，并非核心。

根据这篇博客介绍，Apple Intelligence背后的基础模型是苹果自研的一个约30亿参数的端侧语言模型（Apple On-Device），以及一个通过私有云计算并在Apple芯片服务器上运行的更大的基于服务器的语言模型（Apple Server）。这些模型均针对苹果用户的日常行为习惯进行了微调训练。

这无疑是苹果为自己正名的一次重要发声。毕竟在大模型如火如荼发展的一年半时间里，苹果几乎一直“销声匿迹”。这次终于闷声办成了一件大事，自然不能让他人抢了风头。

Apple Intelligence 背后是多个模型

Apple Intelligence 由多个强大的大语言模型（LLM）组成，它们针对用户体验进行了专门设计与微调，能够执行撰写和优化文本摘要、确定通知优先级、为与家人朋友的对话创建有趣的图像，以及简化跨应用操作等任务。

苹果官网目前详细介绍了其中两个模型：一个参数量为3B，可直接在手机等终端设备上运行；另一个是更大的语言模型，虽未明确参数量，但其性能可与GPT-4相媲美。该模型可通过私有云计算获得，并在Apple的服务器上运行。

接下来，我们一起看看这两个模型的技术实现是如何完成的。

模型的训练主要分为以下5步，我们逐一拆解。

数据预处理与模型预训练

基础模型是在Apple的AXLearn框架上训练的，这是苹果在2023年发布的一个开源项目。AXLearn构建在JAX和XLA之上，能够在各种训练硬件和云平台上高效且可扩展地训练模型，包括TPU以及云端和本地的GPU。此外，还结合使用了数据并行、张量并行、序列并行和完全分片数据并行（FSDP），在数据、模型和序列长度等多个维度上实现了扩展训练。

训练数据均来源于授权数据，包括为增强特定功能而精心挑选的数据，以及通过爬虫AppleBot收集的公开数据，并已移除隐私敏感和含有侮辱歧视字眼的内容。

模型后训练（Post-Training）

苹果在官网上提到，他们使用了两个原创算法进行后训练，显著提升了模型的指令执行效果。

(1) 使用教师委员会（teacher committee）的拒绝采样微调算法（rejection sampling fine-tuning algorithm）
(2) 使用镜像下降策略优化（mirror descent policy optimization）和留一优势估计（leave-one-out advantage estimator）的基于人类反馈的强化学习（RLHF）算法

模型优化

(1) 分组查询注意力机制（Grouped Query Attention, GQA）：无论是设备端还是服务器端的模型，都采用了分组查询注意力机制。通过共享的输入和输出词汇嵌入表，以减少内存需求和推理成本。设备端模型的词汇量为49K，而服务器模型的词汇量为100K，包含了额外的语言和技术词汇。

(2) 低比特化量化（Low-bit）：在设备端推理中，采用了低比特化技术，这是实现必要的内存、功耗和性能要求的关键优化手段。为了保持模型质量，开发了一个新框架，使用LoRA适配器结合了混合的2-bit和4-bit配置策略——平均每个权重为3.5bit，以达到与未压缩模型相同的准确性。

(3) Talaria：Talaria是一款交互式模型延迟和功耗分析工具，能够更好地指导每个操作的比特率选择。模型还使用了激活量化和嵌入量化，并开发了一种在神经引擎上实现高效Key-Value（KV）缓存更新的方法。

通过这一系列优化，在iPhone 15 Pro上可以实现每个prompt token约0.6毫秒的首个token延迟，以及每秒生成30个token的速度。这种性能是在未使用token推测技术的情况下实现的，而采用该技术后，token生成速度将进一步提升。

模型微调

模型微调采用的方法是Adapter微调，即将小型神经网络模块插入预训练模型的各层，仅训练这些小网络而不改变预训练模型的参数。具体来说，对注意力矩阵、注意力投影矩阵以及点状前馈网络中的全连接层进行适配，从而调整Transformer架构中解码层的合适部分。

通过仅微调适配器层，基准预训练模型的原始参数保持不变，从而保留了模型的通用知识，同时将适配器层调整为支持特定任务。模型使用16位表示适配器参数，对于约30亿参数的设备端模型，rank 16适配器的参数通常只需几十兆字节。这些适配器模型可以动态加载，暂时缓存于内存中，并进行交换——使基础模型能够在执行任务时动态专门化，同时高效管理内存并保证操作系统的响应速度。

性能表现

说了这么多，那么这两个模型的性能表现到底如何呢？下面给出了6个维度的评估结果。3B的小模型称为Apple On-Device，服务器上运行的大模型称为Apple Server。

人类满意度得分

首先是评估模型的摘要生成能力，根据评分者在五个维度上的得分，摘要被分为“好”、“中”、“差”。如果所有维度都表现优秀（分值越高越好），则结果归类为“好”。如果任何一个维度表现糟糕（分值越低越好），则结果归类为“差”。

可以看到Apple On-Device的摘要生成能力明显强于同类模型Phi-3-mini。

真实世界提示评估

此项评估全面考察模型能力，问题涵盖头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全、总结和写作等主要类别，生成的结果由人类评估。

可以看到3B小模型Apple On-Device性能强于Gemma-7B，而大模型Apple Server性能强于GPT-3.5-Turbo，略逊于GPT-4-Turbo。

输出危害评估

此评估考察了针对有害内容、敏感话题和事实的违规回应比例（越低越好）。

可以看到，Apple On-Device和Apple Server比现有模型都安全得多，这也符合苹果公司一贯谨慎行事的风格。

有用性评估

模型仅仅安全还不够，这项评估考察了当输入内容合法时，人类评估者更偏好哪个模型生成的内容。

可以看到，Apple On-Device和Apple Server生成的内容更受人类青睐。

指令遵循评估 (IFEval)

这项评估测试了模型遵循人类指令的能力，可以看到两个模型的能力均处于领先水平。

写作能力评估

最后一项评估是写作能力评估，可以看到两个模型的能力也丝毫不逊色。