手机运行Gemma 4模型实测与可行性分析
昨天看到一条消息,说有人在 iPhone 17 Pro 上运行 Google 最新发布的 Gemma 4 模型,推理速度超过了每秒 40 个 token。第一反应是:这可能吗?

要知道,Gemma 4 是 Google 在 4 月 2 号刚发布的开源模型家族中的旗舰款。其参数量最大的 31B 版本在 PC 上表现堪称惊艳,但要在手机上运行?这在以前几乎是天方夜谭。
然而,亲自尝试之后发现,这竟然是真的。
整个过程比想象中简单得多。Google 最新推出了一个名为“Google AI Edge Gallery”的应用,直接在应用商店下载安装即可。

在应用内选择 Gemma 4 的 E2B 或 E4B 版本——这两个是专门为手机和物联网设备优化的变体,前者有效参数为 2.3B,后者为 4.5B。下载完成后直接运行,就这么简单。
测试设备是 iPhone 16 Pro Max。两个版本都下载了,E2B 模型需要约 2.6GB 存储空间,E4B 则需要约 3.6GB。必须承认,用 16 Pro Max 运行 E4B 模型有些勉强。不到半小时,手机就已经热得可以煎鸡蛋了。
整个过程无需 API 密钥,不产生任何费用,没有服务器参与,没有任何额外设置。
E2B 版本能够流畅运行,但 E4B 模型会出现卡顿。这也不难理解,因为 iPhone 16 Pro Max 的内存为 8GB,而 iPhone 17 Pro 则达到了 12GB。这意味着,17 Pro 完全有能力流畅运行 E4B 模型。

在苹果 MLX 机器学习框架的优化下,实测推理速度确实超过了每秒 40 个 token。
这是什么概念?这比大多数云端 API 的首次响应速度还要快。关键是,这是在本地离线运行的,零延迟。
E2B 模型的测试响应时间仅需约 2 秒。

E4B 模型的测试回复所需时间则要长一些。

测试任务是让它编写一段 Python 脚本。从理解上下文、生成代码到检查错误,它都能完成。
客观来说,目前手机端的 Gemma 4 强项在于处理日常任务,而非复杂的逻辑推理。像处理图片、分析音频这类本地化任务,它都能胜任,且表现不错。

医疗场景尤其适合在本地运行——数据完全留在设备内,隐私安全得到极大保障,无需担心病历等敏感信息上传至第三方服务器。
另一个亮点是,它支持安装各种功能模块(Skills)。

但如果想将其作为编码助手(coding agent)来应对复杂任务,效果就比较一般了,时常会遇到卡顿或报错,毕竟本地算力仍然有限。
值得一提的是,Gemma 4 的上下文窗口达到了 128K,是上一代 Gemma 3 的 4 倍。128K 上下文意味着你可以将一整本书丢进去让它总结,可以粘贴一个中型项目的所有代码让它分析,也可以输入几个小时的会议记录让它生成纪要。这种规模在手机端运行,在过去是难以想象的。
除了 Gemma,应用内还提供了其他模型可供下载,包括图像模型、语音模型等。
这才是真正的开端
很多人可能尚未意识到这件事的深层意义。
过去,无论模型多么强大,使用它通常意味着付费——购买 token、寻找云服务、按量计费。而 Google Gemma 4 的这一波操作,相当于将顶级模型直接装进了用户的口袋,随时调用,边际成本几乎为零。
这才是真正具有碘伏性的变化。不花钱买 token 也能完成许多任务——这句话听起来简单,但其背后意味着 AI 正从一种“按需购买的服务”转变为“随取随用的工具”。
可以预见,在未来一到两年内,在手机上运行 AI 模型会变得和如今用手机拍照一样普遍。芯片在进化(NPU 算力每年不止翻倍),模型在进化(效率越来越高),工具链也在进化(MLX、TensorFlow Lite 等愈发成熟)。届时,“你的手机能运行多大的模型”可能会和“你的手机像素是多少”一样,成为消费者选购手机时的重要参考指标。
Google 这次抢先落子。OpenAI、Anthropic 等巨头绝不会坐视不理。手机端 AI 的竞争,其实才刚刚拉开序幕。
热门专题
热门推荐
近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度
在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX
想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一
想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏
当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来





