如何在没有联网的手机上运行Gemma 4？

首页

AI资讯

热心网友

转载

2026-04-22

如何在没有网络的情况下在手机上运行Gemma 4：一份实践指南

译者 | 布加迪

审校 | 重楼

回想一下你使用大多数AI工具的过程：输入指令，等待片刻，结果就回来了。这背后发生了什么？你的指令通常被发送到遥远的云端服务器进行处理，整个过程对你而言是个“黑箱”。但谷歌的Gemma 4正在改变这个游戏规则。如果配置得当，它可以直接在你的手机上本地运行，完全不需要持续的网络连接。

这意味着什么？只需一次下载，所有的计算都在你的设备上完成。你的数据从未离开过手机，隐私得到了最大程度的保护。这一切的核心入口，就是Google AI Edge Gallery这个应用程序。接下来，我们就来深入探讨一下，如何在本地配置后，无需联网就能使用它，以及你究竟能用它来构建些什么。

Gemma 4究竟是什么？

Gemma 4并非单一模型，而是一个包含四款不同成员的系列，每款都针对谷歌的不同硬件需求进行了优化。其中，E2B版本面向资源有限的设备，而E4B版本则专为追求更高吞吐量的场景设计。当然，系列中更庞大的模型表现也相当抢眼。例如，31B密集模型在所有开源模型中排名第三，而26B MoE模型排名第五，其性能甚至超越了许多体量更大的对手。

不过，基准测试的分数只是故事的一部分。Gemma 4这一代AI值得我们关注的理由还有很多。整个系列的定位远不止于简单的聊天机器人。它能够执行复杂的逻辑推理，支持智能体工作流，同时处理文本、视频和音频，并且支持超过140种语言。

对于手机这类移动设备，Gemma 4的两个边缘版本（E2B和E4B）就是为低资源硬件量身打造的。它们能处理视觉、音频和文本数据，支持函数调用，最关键的是，其体积小巧，足以适应移动平台的存储限制。

实现这一切的应用程序

谷歌发布的AI Edge Gallery应用程序，是让这一切成为现实的关键。它能在Android和iOS平台上运行，让你智能手机在完全不依赖云服务的情况下完成所有处理任务。而且，这款应用程序本身是以开源软件的形式运行的。

AI Edge Gallery之所以对我们的场景至关重要，主要归功于以下几项核心功能：

AI聊天（思考模式）：模型会展示完整的推理路径，向你解释它是如何一步步得出答案的。
图像提问：你可以用摄像头扫描任何物体，然后直接向AI提问。
音频转录：将语音转换成文本，甚至翻译成多种语言，整个过程无需联网。
智能体技能：系统可以调用维基百科等资源，在无需人工干预的情况下，自动执行一系列连续任务。
提示实验室：允许用户通过调整温度等参数来测试和优化提示词，从而改进输出结果。

其中，智能体技能功能堪称系统的核心亮点。它标志着消费者首次能够在移动设备上，使用完全离线运行的多步骤智能体AI技术。

为什么这真的很重要？

在本地设备上运行AI，带来的好处远不止是炫酷而已。这项技术为用户带来了三个非常切实的优势：

隐私至上：模型完全在你的设备上运行。你分享的任何内容——无论是提示、回复还是图片——都不会被发送给谷歌或任何其他服务器。
摆脱网络束缚：系统只需在下载模型时需要网络。之后，无论你是在飞机上、地下室还是信号盲区，它都能正常工作，不受地理位置限制。
真正的免费与自主：下载完成后，你可以无限期免费使用软件的全部功能。它不需要任何令牌、积分或订阅，因为其运行不依赖任何后台资源。

此外，许可协议也提供了另一重自由。谷歌使用Apache 2.0许可证发布了Gemma 4，允许企业不受限制地使用、修改和改进模型。

你应该选择哪款模型？

面对多个版本，很多人可能会感到困惑。一个常见的误区是认为模型越大越好，但事实并非总是如此。Gemma 4的四个版本包括Effective 2B (E2B)、Effective 4B (E4B)、26B Mixture of Experts和31B Dense。对于手机用户，建议重点关注E2B和E4B。

简单来说：

Gemma 4 E2B：运行所需内存小于1.5GB。它对简单查询响应迅速，擅长生成简短摘要和回答基础问题。
Gemma 4 E4B：运行约需2.5GB内存。它凭借更强的推理能力和改进的函数调用系统，可以处理更复杂的视觉任务。

那么如何选择？对于需要快速响应和高效执行的基本操作，E2B是更优的选择。而E4B的优势则体现在处理复杂的函数模式和多步骤任务上。一个实用的建议是：先从E2B开始尝试。如果你发现它无法胜任某些需要多步推理的任务，再考虑切换到E4B。

Gemma 4入门指南

上手过程非常简单：

下载应用：前往Google Play商店（Android）或Apple App Store（iOS），搜索并下载“Google AI Edge Gallery”。
探索主界面：打开应用，你会看到主菜单，其中列出了五种功能模式：AI聊天、图像问答、音频转录、智能体技能和提示实验室。
下载模型：导航到“模型管理”部分，选择并下载Gemma 4 E2B或E4B模型。这是整个过程中唯一需要互联网连接的步骤。
离线运行：模型下载完成后，你甚至可以开启飞行模式。从这一刻起，所有功能都将完全离线运行。

任务1：使用AI聊天功能构建数独游戏

让我们来点实际的。我们将利用Google AI Edge Gallery中的Gemma 4，通过AI聊天功能来开发一个完整的数独游戏。

打开应用，选择“AI聊天”，并记得启用“思考模式”。
输入以下指令（不含引号）：“请使用HTML、CSS和Ja vaScript创建一个数独游戏，需要包含计时器、答案检查功能，并确保其对移动设备友好。”
模型会开始进行逻辑推理，并最终生成完整的游戏代码。
完成后，只需复制所有代码，将其粘贴到一个新的文本文件中，并将文件保存为.html格式。最后，用任何网页浏览器打开这个文件，你的游戏就可以运行了。

有个小提示：如果你希望一开始就获得更简洁或更可靠的代码，可以尝试使用Gemma 4 E4B模型。另外，如果生成的某个功能有问题，直接告诉Gemma哪里出了问题，并请求它修复即可。

评测分析：在实际测试中，当提示E2B模型执行此任务时，它在中途停止了。而切换到E4B模型后，它成功输出了结果。模型生成了一个附带详细说明的HTML文件，这对非技术用户很有帮助。不过，它没有直接生成一个可视化的前端界面，这算是个小遗憾。同时，由于是完全离线运行，整个生成过程耗时较长，这也暴露了当前边缘模型在速度上的局限性。

任务 2：使用智能体技能自动处理任务

接下来，让我们试试更高级的“智能体技能”。

点击“智能体技能”，并启用诸如地图、电子邮件和维基百科等技能。
然后，你可以通过一系列请求来测试它，例如：
- “找到离我最近的咖啡店，并在地图上标记出来。”
- “帮我写一封电子邮件发给John，告诉他我会迟到10分钟，并发送这封邮件。”
每收到一个请求，智能体会将其分解为多个子任务，调用相应的工具，并在最终执行前与你确认每一步。

值得注意的是，你可以清晰地追踪智能体在每个步骤中使用了哪些技能，整个过程对你来说是透明的。

评测分析：测试不同技能时，结果有所差异。对于第一个查找咖啡店的请求，地图技能通常能给出位置正确的结果，但它需要我明确询问“离我最近的”，而不是主动检测我的位置，这算是一个不足。对于第二个发送邮件的请求，它正确加载了“发送电子邮件”技能，并显示邮件已发送，但并未提供邮件发往了哪个地址的确认信息，这是一个明显的缺陷。总体而言，响应时间和偶尔的任务失败表明，在移动设备上使用这类智能体AI，仍有相当大的改进空间。

它目前还有哪些不足？

当然，Gemma 4在手机端也并非完美，存在一些当前的局限性：

功耗问题：运行推理任务会显著消耗电量，因为它比普通应用需要更多的计算资源。配备专用NPU（神经网络处理单元）的设备在能效管理上会比仅靠CPU的设备好得多。例如，搭载Gemma 4 4B的Pixel 9 Pro，其耗电速度就比纯CPU推理要慢。
模型限制：更大的Gemma版本（26B和31B）无法在手机上运行，你需要一台大内存的笔记本电脑。而手机可用的E2B和E4B模型，虽然能胜任日常任务，但短期内还无法替代最前沿的云端大模型。
上下文长度：边缘模型拥有128K的上下文窗口，这很不错，但由于手机内存有限，在实际对话中仍需注意控制输入长度，以保证流畅运行。