Ahmad Osman 在本地 AI 这条路上已经走了很久——在自家电脑、工作站或专用硬件上跑模型,这件事他早在今年的 AI Engineer World’s Fair 成为热门议题之前就一直在推。他创办的 Osmantic 正在开发一套开源软件,专门用来部署和运作本地 AI 系统。

本届 AIEWF 释放出的一个明确信号是:开源大语言模型正在成为大厂专有模型的可靠替代方案。本地 AI 系统大多依赖开源模型,因此这一趋势恰好印证了 Osman 一直以来的判断。他告诉 Latent Space:“开源模型与闭面前沿模型之间的差距,正在持续缩小。”
Osman 在一个名为“开源 AI 必须赢”的网站上把话说得更直白:“在不请求许可的前提下,能够研究、构建、修复、部署、审计、适配、教学、保存和运行智能系统——这件事具有生死攸关的重要性。”
在 AIEWF 上,Osman 举办了两场关于本地大模型和工作站智能体的 workshop。两场活动清楚展示了这个领域的进展有多快——从手机和笔记本上跑的模型,到专用 GPU 工作站,再到企业级基础设施,全链条都在加速。
来参加 workshop 的人可不只是硬件爱好者。从正在纠结该买第一台 AI 电脑的学生,到琢磨模型路由、私有基础设施和数据管控的企业高管,各种背景的参与者都有。
下面这篇问答里,Osman 解释了为什么本地 AI 正在吸引更多目光,模型和硬件格局发生了怎样的变化,以及他为什么觉得更多开发者和企业会开始把本地 AI 当作正经基础设施来对待。
让本地 AI 变得可感知
Latent Space: 能概括一下 workshop 的内容吗?参与者都在期待什么?
Ahmad Osman: 这是两场 workshop,但报名人数远超场地容量,有些人不得不被拒。我带去一个提前准备好的网站用来演示本地 AI——本质上就是个硬件竞技场,人们可以在上面对比 DGX Spark、AMD Strix Halo 这类设备。你可以让它们互相跑,或者跟云端前沿模型比,亲眼看看性能、输出质量、速度和延迟。
核心想法就是让本地 AI 变得真实可感。很多人对本地 AI 的印象还停留在 2022 年——那时候模型能力差得远。但自那以后,一切都有了质的飞跃。
现在跟前沿模型比,本地开源模型仍有差距——大概落后四到八个月——但追赶的势头很猛。我们希望人们亲手操作这些系统,而不是光听理论。
演示背后的软件是开源的,GitHub 上能找到。第二场 workshop 则更深入地展示了如何搭建以及整个系统的实际运行。
模型只是系统的一部分
Latent Space: 当人们把本地 AI 简单理解为“在自己机器上跑个模型”时,容易漏掉什么?
Osman: 大家普遍误解了 ChatGPT 或 Claude Code 这类产品。它们背后是围绕模型和智能体的一整套基础设施,远不止一个模型那么简单。
举个例子:我有个朋友买了 RTX 5090 想本地跑 Qwen 3.5。他把 Claude Code 连到本地模型,让它去改 GPU 的 RGB 灯效,结果失败了。他转而用云端的 Claude Code 服务,一下就成功了。
我问:“给本地模型开网络搜索权限了吗?”他没开。模型的训练数据有截止日期,而他需要的软件和文档后来已经更新了。一旦我们给本地系统连上搜索接口,任务就顺利完成了。
这就是关键:你用托管智能体时,用的不止是模型本身——还有搜索、工具、基础设施和其他配套服务。我们做开源部署系统,就是想提供完整的体验:聊天界面、文档导入、智能体、框架、搜索工具,一应俱全。本地 AI 生态之前恰恰缺少这一整层。
从学生到企业,兴趣覆盖超广
Latent Space: 来 workshop 的都是什么人?主要是硬件爱好者,还是想做隐私相关应用的开发者?
Osman: 范围非常广。第二场 workshop 结束时,有个学生问我她上大学前该买什么硬件;一位英特尔的高管则问我们怎么在 Windows 上以特定方式运行软件来提升用户体验。
有人是纯粹爱好者,有人提的问题完全是企业级的。共同点是:他们都想跑自己能掌控的东西——不管是在 MacBook 上跑模型、家里放张 GPU,还是搭建一整套企业级专用集群。
大家问的包括企业模型路由、数据收集、追踪记录、智能体沙箱、延迟问题。也有人问我家里有多少 GPU——答案是 22 张 RTX 3090。这种兴趣的广度让我有些意外,毕竟这是我第一次办 AI 工作坊,幸运的是连续办了两场。
你可能不需要买 GPU
Latent Space: 开发者要试验本地 AI,是不是非得去买 GPU?
Osman: 取决于你想用的模型大小。在 MacBook 上跑一个四比特量化的 Qwen 模型完全没问题。反过来说,一个跟前沿模型差不多大的开源模型,可能需要好几张 RTX Pro 6000。
但更大的趋势是模型效率飞速提升。现在的手机上就能跑一个模型,其性能超过两年前你在云端用的系统,而且还不耗光手机内存。这足以说明模型效率在短短几年里进步有多大。
模型和硬件在同步进化
Latent Space: 进步主要来自软件和模型,还是硬件也有贡献?
Osman: 模型的进步是爆炸性的。架构越来越高效,许多小改进累加在一起。一旦前沿实验室证明某种能力是可行的,开源生态就能反向推导,找到更高效的方法复现。
我们看到数十亿参数的模型就能达到以前需要更大系统才能实现的性能。有些模型在 2020 年发布的 RTX 3090 上就能跑。两年前,同样硬件上的能力水平根本不敢想。这还是个非常新的领域,我们不知道终点在哪——但系统肯定会继续变强。
混合 AI 与主权 AI 的崛起
Latent Space: 你觉得未来会有更多应用结合本地和云端 AI 吗?
Osman: 是的。边缘模型会越来越普及,而且这不仅关乎消费者。企业越来越意识到,他们依赖的模型不一定能一直保持同样的形式可用。提供商可以随时改变质量、定价、访问权限或政策。
这就推动企业转向专用硬件和安全计算。不一定非要放在本地——企业可以用自己控制的专用托管硬件。好处是模型质量不会突然改变,访问不会被随意移除,企业对自己的知识产权、数据、隐私和合规义务都有控制权。
与此同时,开源模型与专有前沿系统的差距仍在缩小。从 Llama 到 Mistral、Qwen、DeepSeek、GLM、Kimi,每一代都在快速逼近。
专业模型或许才是真正的机会
Latent Space: 这对企业来说意味着什么?
Osman: 我很久之前就认为,更小、更专业的模型才是许多业务场景的未来。企业可以先从一个通用模型入手,收集员工使用过程中的轨迹、消息和反馈。随着时间的推移,这些数据可以用来训练一个更专业的模型,专门针对公司的特定工作。
这能提升性能、降低成本,让系统对业务更有用。我同时也觉得,开源模型公司可能会越来越多地通过微调、强化学习或专用商业部署的授权来盈利。随着更多企业不再完全依赖云 API,转而掌控自己的计算资源,这些实验室既有动力持续发布强大的开源模型,又能在企业将其适配到专有场景时获得回报。
整体方向是更大的主权——企业和个人控制自己的模型、计算和数据,同时仍然受益于开源生态的快速进步。
