游乐游手机版
首页/AI热点日报/热点详情

辟谣苹果AI基础模型真相自研3B多模型架构并非GPT-4o

类型:热点整理2026-05-30
苹果自研AppleIntelligence基础模型,包含约30亿参数的端侧模型与更大规模服务器模型,针对用户日常行为微调,通过量化、剪枝等多项优化实现高效推理,在摘要、指令遵循等维度性能超越同类模型。

刚刚落幕的苹果全球开发者大会(WWDC),可谓是吸引了全球目光。

然而,苹果仅在发布会上轻描淡写地提及了一句“powered by GPT-4o”,国内部分不够专业的媒体便断章取义,直接宣称“Apple Intelligence是套壳GPT-4o”。社交媒体上也涌现出不少跟风起哄的吃瓜群众,场面令人哭笑不得。

海外社交平台同样谣言四起。面对这种情况,苹果终于坐不住了,官方紧急发布了一篇技术博客,正式公开了Apple Intelligence背后的基础生成模型——竟然是苹果自主研发的模型!

尽管Siri确实可以直接调用GPT接口,但这仅仅是Apple Intelligence可调用的外部模型之一,并非核心。

根据这篇博客介绍,Apple Intelligence背后的基础模型是苹果自研的一个约30亿参数的端侧语言模型(Apple On-Device),以及一个通过私有云计算并在Apple芯片服务器上运行的更大的基于服务器的语言模型(Apple Server)。这些模型均针对苹果用户的日常行为习惯进行了微调训练。

这无疑是苹果为自己正名的一次重要发声。毕竟在大模型如火如荼发展的一年半时间里,苹果几乎一直“销声匿迹”。这次终于闷声办成了一件大事,自然不能让他人抢了风头。

Apple Intelligence 背后是多个模型

Apple Intelligence 由多个强大的大语言模型(LLM)组成,它们针对用户体验进行了专门设计与微调,能够执行撰写和优化文本摘要、确定通知优先级、为与家人朋友的对话创建有趣的图像,以及简化跨应用操作等任务。

苹果官网目前详细介绍了其中两个模型:一个参数量为3B,可直接在手机等终端设备上运行;另一个是更大的语言模型,虽未明确参数量,但其性能可与GPT-4相媲美。该模型可通过私有云计算获得,并在Apple的服务器上运行。

接下来,我们一起看看这两个模型的技术实现是如何完成的。

模型的训练主要分为以下5步,我们逐一拆解。

数据预处理与模型预训练

基础模型是在Apple的AXLearn框架上训练的,这是苹果在2023年发布的一个开源项目。AXLearn构建在JAX和XLA之上,能够在各种训练硬件和云平台上高效且可扩展地训练模型,包括TPU以及云端和本地的GPU。此外,还结合使用了数据并行、张量并行、序列并行和完全分片数据并行(FSDP),在数据、模型和序列长度等多个维度上实现了扩展训练。

训练数据均来源于授权数据,包括为增强特定功能而精心挑选的数据,以及通过爬虫AppleBot收集的公开数据,并已移除隐私敏感和含有侮辱歧视字眼的内容。

模型后训练(Post-Training)

苹果在官网上提到,他们使用了两个原创算法进行后训练,显著提升了模型的指令执行效果。

(1) 使用教师委员会(teacher committee)的拒绝采样微调算法(rejection sampling fine-tuning algorithm)
(2) 使用镜像下降策略优化(mirror descent policy optimization)和留一优势估计(leave-one-out advantage estimator)的基于人类反馈的强化学习(RLHF)算法

模型优化

(1) 分组查询注意力机制(Grouped Query Attention, GQA):无论是设备端还是服务器端的模型,都采用了分组查询注意力机制。通过共享的输入和输出词汇嵌入表,以减少内存需求和推理成本。设备端模型的词汇量为49K,而服务器模型的词汇量为100K,包含了额外的语言和技术词汇。

(2) 低比特化量化(Low-bit):在设备端推理中,采用了低比特化技术,这是实现必要的内存、功耗和性能要求的关键优化手段。为了保持模型质量,开发了一个新框架,使用LoRA适配器结合了混合的2-bit和4-bit配置策略——平均每个权重为3.5bit,以达到与未压缩模型相同的准确性。

(3) Talaria:Talaria是一款交互式模型延迟和功耗分析工具,能够更好地指导每个操作的比特率选择。模型还使用了激活量化和嵌入量化,并开发了一种在神经引擎上实现高效Key-Value(KV)缓存更新的方法。

通过这一系列优化,在iPhone 15 Pro上可以实现每个prompt token约0.6毫秒的首个token延迟,以及每秒生成30个token的速度。这种性能是在未使用token推测技术的情况下实现的,而采用该技术后,token生成速度将进一步提升。

模型微调

模型微调采用的方法是Adapter微调,即将小型神经网络模块插入预训练模型的各层,仅训练这些小网络而不改变预训练模型的参数。具体来说,对注意力矩阵、注意力投影矩阵以及点状前馈网络中的全连接层进行适配,从而调整Transformer架构中解码层的合适部分。

通过仅微调适配器层,基准预训练模型的原始参数保持不变,从而保留了模型的通用知识,同时将适配器层调整为支持特定任务。模型使用16位表示适配器参数,对于约30亿参数的设备端模型,rank 16适配器的参数通常只需几十兆字节。这些适配器模型可以动态加载,暂时缓存于内存中,并进行交换——使基础模型能够在执行任务时动态专门化,同时高效管理内存并保证操作系统的响应速度。

性能表现

说了这么多,那么这两个模型的性能表现到底如何呢?下面给出了6个维度的评估结果。3B的小模型称为Apple On-Device,服务器上运行的大模型称为Apple Server

人类满意度得分

首先是评估模型的摘要生成能力,根据评分者在五个维度上的得分,摘要被分为“好”、“中”、“差”。如果所有维度都表现优秀(分值越高越好),则结果归类为“好”。如果任何一个维度表现糟糕(分值越低越好),则结果归类为“差”。

可以看到Apple On-Device的摘要生成能力明显强于同类模型Phi-3-mini。

真实世界提示评估

此项评估全面考察模型能力,问题涵盖头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全、总结和写作等主要类别,生成的结果由人类评估。

可以看到3B小模型Apple On-Device性能强于Gemma-7B,而大模型Apple Server性能强于GPT-3.5-Turbo,略逊于GPT-4-Turbo。

输出危害评估

此评估考察了针对有害内容、敏感话题和事实的违规回应比例(越低越好)。

可以看到,Apple On-Device和Apple Server比现有模型都安全得多,这也符合苹果公司一贯谨慎行事的风格。

有用性评估

模型仅仅安全还不够,这项评估考察了当输入内容合法时,人类评估者更偏好哪个模型生成的内容。

可以看到,Apple On-Device和Apple Server生成的内容更受人类青睐。

指令遵循评估 (IFEval)

这项评估测试了模型遵循人类指令的能力,可以看到两个模型的能力均处于领先水平。

写作能力评估

最后一项评估是写作能力评估,可以看到两个模型的能力也丝毫不逊色。

Next

值得留意的是,苹果的这些模型在预训练之后,又利用苹果用户的设备行为日志进行了微调训练和adapter训练。这也难怪它在系统级任务上表现如此惊艳。

由于OpenAI根本没有这些系统级的用户数据,所以GPT系列模型再努力进化也很难胜任操作系统级别的任务。从这个角度来看,如果OpenAI始终只是苹果系统里的一个APP,那未来的确堪忧。

来源:https://www.53ai.com/news/finetuning/2024061323184.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。