首页 游戏 软件 资讯 排行榜 专题
首页
AI
iPhone 15 Pro Max微调大模型:苹果新逆向传输方案解析

iPhone 15 Pro Max微调大模型:苹果新逆向传输方案解析

热心网友
18
转载
2025-10-31

最近,苹果公司亲自下场,通过一篇研究论文展示了在智能手机上微调大语言模型的可实现性。该团队提出了一种创新的内存高效型反向传播机制(MeBP),使得在 iPhone 等移动设备上高效处理模型成为可能。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

虽然用 iPhone 本地运行大模型已不算新鲜事,但能否直接在手机上完成模型的精细调优呢?

苹果研究团队的论文详细阐述了一种内存高效型反向传播算法的具体实现。这种名为 MeBP 的方法能在内存占用与计算时间之间实现优于零阶优化器的平衡,同时收敛速度更快、性能更优。他们甚至在 iPhone 15 Pro Max 上实际验证了 MeBP 的有效性。

该论文团队(宋凯仑与 Xinyu Tang)表示将公开发布 MeBP 的实现代码,但目前其提供的 GitHub 链接仍为空,尚未开放访问。

论文标题:Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices 论文地址:https://arxiv.org/abs/2510.03425 仓库地址:https://github.com/apple/ml-mebp

内存高效型反向传播(MeBP)

该研究重点聚焦于使用 LoRA 技术对 LLM 进行轻量级微调。因此,主要的内存瓶颈在于模型参数及中间激活值。研究团队的目标是将微调过程的内存占用控制在现代移动设备可接受的范围内,例如符合 PocketLLM 研究报告所建议的“低于 1GB”标准。

使用 MeBP 在设备上微调 LLM 包含三个核心步骤:

首先是对模型基础权重进行压缩以减少磁盘空间占用;其次是编译包含反向传播与梯度检查点的训练图;最后是实现一个内存高效的运行时来执行编译后的训练图。

接下来将详细说明每个步骤的具体内容。

基础模型权重压缩

在移动设备部署 LLM 时,压缩基础模型的权重以减少磁盘空间占用是一种常规做法。

在该团队的具体实现中,他们对包括嵌入层在内的非 LoRA 参数采用了 4-bit 对称模式的 INT4 量化处理。

梯度检查点编译

为实现 MeBP 中的梯度检查点机制,研究团队首先将 LLM 拆分为多个块,确保对单个块执行反向传播的内存消耗在设备内存限制之内。对于每个产生待检查激活值的块 F,通过对 F 的输出应用自动微分来生成反向图。例如,假设 y = F_i (x, w) 是块 F_i 的前向图,则在标量 s 上执行自动微分:

其中 E 表示最终需要优化的损失函数。随后,可以生成一个具体的反向图,该图通过哈达玛积的方式,结合了由反向图 B_{i+1} 的输出。

也就是说,反向图的输入包括:已检查的激活值、来自前一个检查点的梯度,以及相应的可训练权重;其输出则是这些输入的梯度。

随后,所有块的前向图和反向图被序列化为设备运行时兼容的格式,例如模型中间语言表示或 MLX 导出的函数。

在运行时,这些序列化后的图将被反序列化并进行编译计算。

运行时实现

算法 1 概括了 MeBP 在运行时的具体执行流程。

模型首先使用 InitializeModel 函数进行初始化,之后训练循环中的每个数据点都会调用 Backpropagation 函数。在 InitializeModel 阶段,压缩后的基础模型权重被内存映射。为了最小化内存占用,基础模型权重在训练循环开始前不会被解压缩。相反,它们会在计算需要时被按需延迟解压缩和加载。值得注意的是,对于支持使用量化权重进行计算的设备运行时框架,解压步骤可以被跳过,届时只需按需加载压缩后的权重。

在 Backpropagation 函数中,系统首先执行已编译的前向子图以存储所有必需的检查点;随后,按相反顺序执行已编译的反向子图,利用存储的检查点来计算梯度。在前向传播过程中,这些检查点被内存映射,而不是保留在内存中。

在每次前向和反向传播之前,只有必需的基础模型权重会被解压和加载。如此一来,总内存使用量被限制为:所需基础模型权重的大小,加上每个子图中操作峰值内存使用量的总和。这个总和远小于基础模型权重的完整大小。该函数描述的是单个数据点的梯度计算。对于批量输入,可以使用梯度累积来计算梯度,而不会增加内存占用。

在 MeBP 中,内存中仅保留一份 LoRA 权重及其梯度的副本。

对于参数量从 0.5B 到 4B 的 LLM,LoRA 权重的大小通常在几十 MB 的范围内,这在内存中存储是完全合理的。优化器状态(例如动量)可以像基础模型权重一样,被内存映射并延迟加载。

实验表现如何?

关于 MeBP 的实际表现,还需要通过实践来检验。作为对比基线,他们选择了 MeZO,因为它是目前已知唯一能够应用于移动设备 LLM 微调的优化方法。该团队通过在服务器端进行模拟来评估 MeZO 与 MeBP 的效用,并在移动设备上比较了它们的综合性能表现。

效用比较

在配置方面,该苹果团队使用了 Gemma-3 与 Qwen-2.5,在 WikiText-2 数据集上进行语言建模任务的实验,以此比较一阶优化器与零阶优化器的实际效用。该团队重点关注参数量不超过 4B 的模型,因为移动设备的计算资源有限。该团队的评估指标是验证集上的损失值和下一 token 预测准确度。其他配置详见原论文,下面重点分析实验结果。

如图 1 所示,尽管 ZO 在损失和下一 token 准确度上呈现收敛趋势,但其收敛速度明显慢于 FO。FO 方法在最初的 100 个优化步数内就显著改善了这两项指标,而 ZO 在 1,000 步后才仅表现出轻微的改善。即便在远超 FO 优化步数之后,对于同一模型,ZO 的测试损失仍然高于 FO,测试准确度也低于 FO。

目前 AI 社区已经提出了若干方法,可以改善 ZO 方法的收敛速度。该团队也在 Qwen2.5-0.5B 上使用了这些改进版的 ZO 方法进行实验,结果如下图。

尽管这些优化过的 ZO 方法比“纯” ZO 收敛得更快,但它们的损失和下一 token 准确度仍然逊色于使用 FO 微调的模型。此外,这些方法通常每次迭代需要更多的计算时间,因为它们需要额外的前向传播来更准确地估计梯度。

实验结果表明,在语言建模任务的 LLM 微调上,按“每一步”计算,反向传播的收敛速度明显快于 ZO。这使得它在计算时间方面更适合移动设备部署 —— 前提是每个 FO 优化步骤都能被高效地实现。

性能比较

苹果使用 Swift 在 iOS 中实现了 MeBP,并在配备 8GB RAM 的 iPhone 15 Pro Max 上评估了其性能。对于 MeZO 基线实现,其前向图被拆分为多个子图,并应用了延迟解压来降低基础模型权重的总内存使用。

每个 MeZO 优化步骤涉及两次前向传播。

其他设置详见原论文。

总体而言,与 MeZO 相比,MeBP 在计算每个梯度步的时间上要多出 43% 到 94%。但是,正如前面的效用对比所示,MeZO 所需的优化步数是 10 倍到 100 倍以上,因此在整体训练时间上,MeBP 的收敛速度要快得多。在最坏情况下,MeBP 的内存使用量比 MeZO 高出约 20%,但其总训练内存使用量比以往的移动设备实现大约小 10 倍。所有参与测试的 LLM 均可在 1GB 内存内高效完成微调,使其适合在手机上执行后台训练任务。

此外,该团队还测试了解压开销与序列长度的影响,并分析了每一层的具体性能表现;详见原论文。

来源:https://www.51cto.com/article/828437.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

苹果最贵耳机!拆解发现竟和6年前老款基本没区别
科技数码
苹果最贵耳机!拆解发现竟和6年前老款基本没区别

苹果旗舰耳机AirPods Max 2正式开售:六年后迎来关键的“芯片”革新? 苹果旗下定价最高的头戴式耳机——AirPods Max迎来第二代产品,起售价维持3999元。这款备受期待的迭代新品发售之际,市场反馈却显得颇为复杂。早在发布之初,不少专业媒体与深度评测便指出其升级幅度有限。如今,随着全球

热心网友
04.05
iFixit 拆解苹果 AirPods Max 2 耳机,胶水仍是维修“最大敌人”
科技数码
iFixit 拆解苹果 AirPods Max 2 耳机,胶水仍是维修“最大敌人”

苹果AirPods Max 2深度拆解:熟悉的配方,不变的“维修之墙” 近日,知名维修机构iFixit发布了一段备受关注的视频,他们终于对苹果新款高端头戴耳机AirPods Max 2“动了手”。拆解结果多少有些令人意外:新耳机在核心架构上,几乎就是初代产品的“复刻版”。 附上相关拆解视频如下: i

热心网友
04.04
苹果尘封50年档案曝光:电路板比手机大 库克都没见过
科技数码
苹果尘封50年档案曝光:电路板比手机大 库克都没见过

苹果公司历史档案首次公开:揭秘历代经典产品背后不为人知的研发历程 为庆祝品牌成立50周年,苹果公司近期做出了一项特别举措:首席执行官蒂姆·库克首次对公司外的访问者开放了内部历史档案库,并展示了一批从未对外公布过的珍贵历史文件与实物原型。 此次档案公开本身传递出一个清晰的信号。库克在现场强调的核心观点

热心网友
04.03
怎么连黑色款都没有!iPhone18Pro新配色登场
科技数码
怎么连黑色款都没有!iPhone18Pro新配色登场

iPhone 18 Pro系列前瞻:设计、芯片与影像的确定性升级 进入下半年,科技圈的聚光灯,无疑将再次聚焦于苹果的年度旗舰。最新信息显示,iPhone 18 Pro系列的节奏已然清晰:计划于7月启动量产,并在9月如期亮相。与时间表一同明确的,是新机在配色、外观与核心硬件上将迎来的一系列关键调整。

热心网友
04.03
结束 13 年生涯,消息称苹果健身技术副总裁杰伊 · 布拉尼克 7 月退休
业界动态
结束 13 年生涯,消息称苹果健身技术副总裁杰伊 · 布拉尼克 7 月退休

苹果健身技术副总裁杰伊·布拉尼克将于7月退休,为其13年苹果生涯画上句号 据科技媒体最新报道,苹果公司的健身技术副总裁杰伊·布拉尼克将于今年7月正式退休,结束其在苹果长达十三年的职业旅程。 作为苹果健康业务的核心奠基人之一,杰伊·布拉尼克在2013年加入苹果后,深度塑造了公司多项标志性健康功能。他主

热心网友
04.03

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《洛克王国世界》星光对决轮椅打法 星光对决怎么打
游戏攻略
《洛克王国世界》星光对决轮椅打法 星光对决怎么打

《洛克王国世界》星光对决平民攻略:手残党也能轻松通关的“轮椅流”阵容打法 在《洛克王国世界》中,星光对决玩法以其较高难度让不少玩家感到棘手。许多玩家都在寻找一套无需复杂操作、容错率高的“轮椅式”打法,以实现稳定通关。本文将为你详细拆解一套经过大量实战验证的平民阵容与傻瓜式流程,即使是操作有限的玩家也

热心网友
04.06
王者荣耀新赛季何时开启
游戏攻略
王者荣耀新赛季何时开启

王者荣耀新赛季开启时间:全网玩家热议的焦点 每当新赛季的号角吹响,峡谷必将迎来一场全面的革新。全新的版本机制、平衡性调整、丰厚的赛季奖励以及紧张刺激的段位重置,共同构成了玩家们每个季度最期待的盛宴。因此,新赛季的具体开启时间,自然成为了所有召唤师最为核心的关注点。 王者荣耀新赛季具体什么时候开始?

热心网友
04.06
《洛克王国世界》地图矿产分布一览
游戏攻略
《洛克王国世界》地图矿产分布一览

《洛克王国世界》地图矿产分布一览:老玩家带你精准挖宝 在《洛克王国世界》中实现资源积累与装备打造,矿石采集是至关重要的经济来源和生存技能。幸运的是,游戏内各大地图板块均蕴藏着丰富且种类各异的矿物资源。然而,对于矿石的具体产出地点、外观特征以及刷新规律,许多新手甚至部分资深探险家依然存在疑惑。 为此,

热心网友
04.06
如何直接打开126邮箱登录链接-126邮箱登录链接怎样直接打开
手机教程
如何直接打开126邮箱登录链接-126邮箱登录链接怎样直接打开

在信息高速流转的今天,电子邮箱已成为我们工作与生活中的核心沟通工具。作为国内领先的邮件服务提供商,126邮箱以其卓越的稳定性、丰富的功能与出色的用户体验,赢得了数亿用户的信赖。本文将为您详细介绍如何快速找到并直接打开126邮箱的官方登录链接,实现一键安全登录,助您高效管理邮件,畅享无缝沟通体验。 一

热心网友
04.06
咕咕三国是什么游戏
游戏攻略
咕咕三国是什么游戏

咕咕三国:深度体验真实三国策略世界的沉浸式手游 提到三国题材,你会联想到哪些经典场景?是谋士运筹帷幄的智慧交锋,还是名将沙场征战的铁血豪情?《咕咕三国》这款策略手游正将这段恢弘历史完美融入游戏世界,不仅再现了那段波澜壮阔的岁月,更为玩家提供了一个可以亲身调度兵马、施展战略的互动平台,让每个人都能在指

热心网友
04.06