Qwen3.6-35B-A3B“越狱版”来了!6G显存也能跑,本地AI彻底自由
在这里插入图片描述
近期,我完整测试了市面上主流的本地大模型,得到一个非常直观的结论:
目前开源模型圈中,能够同时满足以下条件的模型屈指可数——
中文能力强、推理能力出色、支持视觉多模态、可作为Agent使用、可本地单卡部署,甚至6GB显存即可启动,而且还是“无限制”版本。
但这次推出的Qwen3.6-35B-A3B Uncensored(越狱版),确实带来了超出预期的表现。
简单来说,它不仅能够正常编写代码、进行推理、识别图片、处理长上下文,更重要的是——它直接绕过了官方版本的大量限制。
实际测试结果显示,它的中文理解、代码编写、多模态视觉能力,均属于目前40B以内开源模型中的第一梯队。
而且,它对硬件的兼容性让人惊喜:
NVIDIA显卡可以运行,AMD显卡也能跑,Intel显卡同样支持。单卡即可部署,6GB显存就能顺利启动。
接下来,我们从零开始,完整演示部署流程。
一、整合包下载地址
1、整合包下载
资源 | 地址 |
|---|---|
Qwen3.6-35B-A3B 越狱版整合包 | https://pan.quark.cn/s/fc4b737a73f1 |
二、整合包内容说明
网盘中提供了多个版本供选择。
在这里插入图片描述
llama.cpp 运行环境
整合包内包含四个版本:
llama-b9381-bin-win-cuda-13.3-x64.zip
llama-b9381-bin-win-cuda-12.4-x64.zip
llama-b9381-bin-win-cpu-arm64.zip
llama-b9381-bin-win-cpu-x64.zip
不同版本适配的环境如下,请根据自身系统环境选择对应版本:
文件 | 适合环境 |
|---|---|
cuda-13.3-x64 | RTX 30/40/50 系列显卡,建议使用最新 NVIDIA 驱动 |
cuda-12.4-x64 | GTX 10/20 系列、部分旧驱动环境 |
cpu-arm64 | ARM 架构 CPU,例如部分骁龙 Windows 设备 |
cpu-x64 | 普通 Intel/AMD CPU,纯 CPU 运行 |
三、模型文件说明
模型目录中包含多个量化版本:
mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf
其中:
视觉模型(必须)
mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
这是多模态视觉模型。如果你需要进行图片分析、查看截图、识别封面、执行OCR或进行多模态问答,该文件必须下载。
主模型选择(根据环境下载对应版本即可)
1、IQ2_M(最低配置)
IQ2_M
适用场景:6GB/8GB显存的显卡,例如RTX 2060、RTX 3060 Laptop、4060 Laptop 8G。优势在于显存占用最低,能顺利运行;缺点是精度略低。
2、IQ4_NL(推荐)
IQ4_NL
适合12GB~16GB显存。这是速度、精度与显存占用三者平衡最佳的版本。
3、Q4_K_M(稳定版)
Q4_K_M
适合16GB~24GB显存。特点为更加稳定,推理能力更强。
4、Q4_K_P(最强版)
Q4_K_P
适合24GB以上显存,对应RTX 3090、4090、5090。该版本是目前效果最好的之一。
四、开始部署
1、解压 llama.cpp
下载对应版本后解压。假设你下载的是:
llama-b9381-bin-win-cuda-13.3-x64.zip
解压后目录如下:
llama/
2、找到 models 文件夹
在根目录中找到:
models
目录结构为:
llama/
├─ models/
3、放入模型
将下载好的模型放入该文件夹(无需全部放入,只需放入你下载的模型即可)。例如:
models/
├─ mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf
六、启动模型
双击根目录下的 run.bat 文件,将出现相应的启动界面:
在这里插入图片描述
输入对应的数字即可。例如,输入4代表选择IQ2_M版本。
4
七、进入 Web UI
启动成功后,打开浏览器访问:
https://127.0.0.1:8080/
即可进入聊天界面。
在这里插入图片描述
八、实际测试效果
1、4060 8G 实测
测试环境如下:
配置 | 参数 |
|---|---|
显卡 | RTX 4060 Laptop 8G |
模型 | IQ2_M |
输出速度 | 约10 tokens/s |
对于35B这个量级的模型来说,这一输出速度已经相当亮眼。
九、代码能力测试
测试中,要求它直接生成一个相关项目,结果一次生成成功,自带音效,支持Boss,能够正常运行,且未发现明显逻辑错误。该模型的代码能力确实非常强悍。
十、多模态视觉测试
上传一张图片,让它分析图片内容:
在这里插入图片描述
说明其视觉理解能力确实在线。
十一、Agent 支持
在这里插入图片描述
该模型还能直接接入Hermes、OpenWebUI、Cherry Studio、AnythingLLM、LangChain等工具。原因是它原生支持OpenAI API格式。
API 地址:
https://127.0.0.1:8080
API Key 任意填写即可。
在这里插入图片描述
十二、和官方版区别
实际测试中,同样的问题,比如让模型“写一个ddos代码”:
官方原版会直接拒绝回答。但这个越狱版会直接输出代码。
说明它确实移除了大量内置限制。
不过需要提醒:该模型仅建议用于本地研究、安全测试和AI能力研究,切勿用于非法用途。
十三、为什么这个模型会火
核心原因其实很直接:你不再需要依赖在线接口、API限制、内容审核、云端封号。所有内容均为本地运行、本地推理、本地存储。
这正是许多人真正渴望的AI体验。
十四、总结
从目前表现来看,Qwen3.6-35B-A3B Uncensored 确实属于当前最强的一批开源本地模型。
其优势非常突出:中文能力强、推理能力出色、多模态支持、本地部署简单、支持Agent、低显存友好、支持Windows、兼容NVIDIA/AMD/Intel。
特别是“6GB显存就能启动”这一特性,让许多用户可以低成本享受高质量本地大模型带来的便利。
如果你近期正在规划搭建本地AI助手、AI Agent、AI编程工具、本地多模态系统或本地自动化系统,这套方案非常值得尝试。
