游乐游手机版
首页/AI热点日报/热点详情

M4 Mac mini轻量级AI服务器值得推荐

类型:热点整理2026-06-28
如果问过去一年,哪款数码产品让我觉得最值、最惊喜,那么答案就是M4 Mac mini——这玩意儿真的有点东西。 我入手的这台是24GB内存加512GB SSD的配置,从闲鱼下单,找店家从澳门代购,然后顺丰寄到北京,总共花了7000块。反过来看,国行官网的价格更高,而且买到的还是“阉割版”——多花钱,

如果问过去一年,哪款数码产品让我觉得最值、最惊喜,那么答案就是M4 Mac mini——这玩意儿真的有点东西。

我入手的这台是24GB内存加512GB SSD的配置,从闲鱼下单,找店家从澳门代购,然后顺丰寄到北京,总共花了7000块。反过来看,国行官网的价格更高,而且买到的还是“阉割版”——多花钱,买缩水货,这逻辑实在让人有些无奈。

机器到手后,第一个装的就是Ollama,然后把Qwen 2.5也拉了下来。动机很简单:一直想拥有一台足够安静、又足够强的轻量级AI服务器,跑本地大模型,然后喂给局域网里的所有设备用——比如手机,随时都能用。

你可能会问:为什么不用现成的产品,非要自己折腾?说实话,从Claude到ChatGPT,这一年用下来,体验确实不错,可总有那么些“不可抗拒因素”让人不爽。懂的都懂。

那为什么不直接用PC跑呢?其实之前一直在用一台PC跑大模型,但那个功耗和噪音……虽然理性上知道电费其实没多少,但心里就是放不下——总觉得机器在满负荷运转,心里不踏实。直到M4版Mac mini出现,才真正把这个设想落地了。

现在只要人在家里,掏出手机就能连上本地大模型。不知道该怎么形容——这种感觉和用别人的服务完全不一样,有种“自己的东西自己掌控”的踏实感。出门在外,其实也可以通过ngrok做个内网穿透连回家里的Mac mini,只不过速度会慢下来,体验就差了那么点意思。

回到今天的主线:在M4 Mac mini上跑大模型这件事。

我打算在春节前做一次系统升级,目标是彻底解决日常使用AI的痛点。习惯了有个AI助手随时讨论之后,真就离不开了——就像现在不让你上网、不让你用手机一样。而用M4 Mac mini作为轻量级服务器跑大模型,算是第一个落地的尝试。

先来做点实际的测试——看看这台24GB统一内存的机器,到底能带动多大尺寸的模型。标准很简单:每秒钟能吐出多少个Token。

测试工具用Ollama,把Verbose打开,就能看到运行速度。模型方面,分别下载了7b和14b两个尺寸,每个尺寸做Q4和Q8两种精度,一共4个模型。32b就别想了,铁定跑不了,连测都省了。

实际数据如下:
在Q4精度下,7b的生成速度大概每秒20个Token左右,非常流畅丝滑。14b则大概在每秒10个Token的水平。直观感受是,10Token/秒基本是能接受的底线,再慢就不行了;到20Token/秒的话,就算流畅。

再看Q8精度:7b速度降到了大概每秒13个Token,14b就更低了。所以综合考虑下来,针对M4芯片加24GB统一内存的配置,选择路径其实很清晰:

如果需要跟AI来回讨论、深聊,那就跑Q4精度、14b的模型。速度虽不算快但能接受,而且答案的完整度和逻辑性明显比7b更好。我试过让它挂着跑半小时以上,机器基本就是温热的水平,温度控制让人比较放心。

如果不需要讨论,只是想快问快答,那我会切换到Q4精度、7b的模型——响应更快,日常够用。

模型选完之后,还不算完——Ollama还需要做一些调整。

默认状态下,如果闲置五分钟,Ollama会自动把模型从内存里释放掉。这就意味着:你突然想聊两句的时候,还得等它重新加载模型——这体验就很不爽了。

所以第一个要改的就是:把OLLAMA_KEEP_ALIVE设为-1。这样一来,模型会一直驻留在内存里,随时待命,随叫随到。

第二个是网络相关的设置——这个是我从Cursor学来的。默认情况下,Ollama只监听localhost,局域网里的其他设备——比如手机——是访问不了的。解决方法是修改监听地址:在终端里输入这行命令:

OLLAMA_HOST="0.0.0.0:11434" ollama serve

0.0.0.0的意思是让Ollama监听所有网络接口,不管请求从哪儿来,都接。11434是默认端口,没必要改。改完之后,手机、平板这类设备就能通过局域网IP地址直接连上Ollama了。

最后一个关键问题:移动端用什么APP去连接Ollama?

桌面端的选择其实很多,比如经典的Open WebUI,还有Obsidian里一大堆AI插件都支持。而在iPhone上,我选的是Enchanted。理由有三:

第一,它设计得特别简洁——就是纯粹的对话界面,文字或语音都行,没有乱七八糟的功能,正好符合我的需求。
第二,iOS原生的丝滑手感,长期用下来,这种体验很关键。
第三,Enchanted原生支持Ollama,填好地址和端口就能直接用。当然,它也正因只支持Ollama,所以没法用LM Studio搭配MLX版、专门为Mac优化过的模型——这算是个小遗憾。

今天的开源大模型已经足够强了,量化版本就能满足日常对话需求。搭配M4 Mac mini,体验非常融洽——终端应用也都是现成的。其实不仅仅是移动端,我现在在桌面端也改用Enchanted了。

所以,如果你手头有M4 Mac mini,完全可以按这套方案试一试,感受一下。尽量把使用门槛降到最低,你才会不知不觉地多用AI,也才能真正从中获得更多收益。

来源:https://www.53ai.com/news/zhinengyingjian/2024122961743.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。