Qwen3.6-35B-A3B越狱版：6G显存运行，实现本地AI自由

时间：2026-06-16 18:55

Qwen3 6-35B-A3B越狱版仅需6G显存即可本地启动部署，兼容英伟达、超威、英特尔等主流显卡。具备极强中文理解、推理、多模态视觉及智能体能力，已解除官方限制，在40B内开源模型中处于第一梯队，并且支持量化部署，适合企业及个人离线使用。

Qwen3.6-35B-A3B“越狱版”来了！6G显存也能跑，本地AI彻底自由

在这里插入图片描述

近期，我完整测试了市面上主流的本地大模型，得到一个非常直观的结论：

目前开源模型圈中，能够同时满足以下条件的模型屈指可数——

中文能力强、推理能力出色、支持视觉多模态、可作为Agent使用、可本地单卡部署，甚至6GB显存即可启动，而且还是“无限制”版本。

但这次推出的Qwen3.6-35B-A3B Uncensored（越狱版），确实带来了超出预期的表现。

简单来说，它不仅能够正常编写代码、进行推理、识别图片、处理长上下文，更重要的是——它直接绕过了官方版本的大量限制。

实际测试结果显示，它的中文理解、代码编写、多模态视觉能力，均属于目前40B以内开源模型中的第一梯队。

而且，它对硬件的兼容性让人惊喜：

NVIDIA显卡可以运行，AMD显卡也能跑，Intel显卡同样支持。单卡即可部署，6GB显存就能顺利启动。

接下来，我们从零开始，完整演示部署流程。

一、整合包下载地址

1、整合包下载

资源	地址
Qwen3.6-35B-A3B 越狱版整合包	https://pan.quark.cn/s/fc4b737a73f1

二、整合包内容说明

网盘中提供了多个版本供选择。

在这里插入图片描述

llama.cpp 运行环境

整合包内包含四个版本：

llama-b9381-bin-win-cuda-13.3-x64.zip
llama-b9381-bin-win-cuda-12.4-x64.zip
llama-b9381-bin-win-cpu-arm64.zip
llama-b9381-bin-win-cpu-x64.zip

不同版本适配的环境如下，请根据自身系统环境选择对应版本：

文件	适合环境
cuda-13.3-x64	RTX 30/40/50 系列显卡，建议使用最新 NVIDIA 驱动
cuda-12.4-x64	GTX 10/20 系列、部分旧驱动环境
cpu-arm64	ARM 架构 CPU，例如部分骁龙 Windows 设备
cpu-x64	普通 Intel/AMD CPU，纯 CPU 运行

三、模型文件说明

模型目录中包含多个量化版本：

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf

其中：

视觉模型（必须）

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf

这是多模态视觉模型。如果你需要进行图片分析、查看截图、识别封面、执行OCR或进行多模态问答，该文件必须下载。

主模型选择（根据环境下载对应版本即可）

1、IQ2_M（最低配置）

IQ2_M

适用场景：6GB/8GB显存的显卡，例如RTX 2060、RTX 3060 Laptop、4060 Laptop 8G。优势在于显存占用最低，能顺利运行；缺点是精度略低。

2、IQ4_NL（推荐）

IQ4_NL

适合12GB~16GB显存。这是速度、精度与显存占用三者平衡最佳的版本。

3、Q4_K_M（稳定版）

Q4_K_M

适合16GB~24GB显存。特点为更加稳定，推理能力更强。

4、Q4_K_P（最强版）

Q4_K_P

适合24GB以上显存，对应RTX 3090、4090、5090。该版本是目前效果最好的之一。

四、开始部署

1、解压 llama.cpp

下载对应版本后解压。假设你下载的是：

llama-b9381-bin-win-cuda-13.3-x64.zip

解压后目录如下：

llama/

2、找到 models 文件夹

在根目录中找到：

models

目录结构为：

llama/
├─ models/

3、放入模型

将下载好的模型放入该文件夹（无需全部放入，只需放入你下载的模型即可）。例如：

models/
├─ mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf

六、启动模型

双击根目录下的 run.bat 文件，将出现相应的启动界面：

在这里插入图片描述

输入对应的数字即可。例如，输入4代表选择IQ2_M版本。

七、进入 Web UI

启动成功后，打开浏览器访问：

https://127.0.0.1:8080/

即可进入聊天界面。

在这里插入图片描述

八、实际测试效果

1、4060 8G 实测

测试环境如下：

配置	参数
显卡	RTX 4060 Laptop 8G
模型	IQ2_M
输出速度	约10 tokens/s

对于35B这个量级的模型来说，这一输出速度已经相当亮眼。

九、代码能力测试

测试中，要求它直接生成一个相关项目，结果一次生成成功，自带音效，支持Boss，能够正常运行，且未发现明显逻辑错误。该模型的代码能力确实非常强悍。

十、多模态视觉测试

上传一张图片，让它分析图片内容：

在这里插入图片描述

说明其视觉理解能力确实在线。

十一、Agent 支持

在这里插入图片描述

该模型还能直接接入Hermes、OpenWebUI、Cherry Studio、AnythingLLM、LangChain等工具。原因是它原生支持OpenAI API格式。

API 地址：

https://127.0.0.1:8080

API Key 任意填写即可。

在这里插入图片描述

十二、和官方版区别

实际测试中，同样的问题，比如让模型“写一个ddos代码”：

官方原版会直接拒绝回答。但这个越狱版会直接输出代码。

说明它确实移除了大量内置限制。

不过需要提醒：该模型仅建议用于本地研究、安全测试和AI能力研究，切勿用于非法用途。

十三、为什么这个模型会火

核心原因其实很直接：你不再需要依赖在线接口、API限制、内容审核、云端封号。所有内容均为本地运行、本地推理、本地存储。

这正是许多人真正渴望的AI体验。

十四、总结

从目前表现来看，Qwen3.6-35B-A3B Uncensored 确实属于当前最强的一批开源本地模型。

其优势非常突出：中文能力强、推理能力出色、多模态支持、本地部署简单、支持Agent、低显存友好、支持Windows、兼容NVIDIA/AMD/Intel。

特别是“6GB显存就能启动”这一特性，让许多用户可以低成本享受高质量本地大模型带来的便利。

如果你近期正在规划搭建本地AI助手、AI Agent、AI编程工具、本地多模态系统或本地自动化系统，这套方案非常值得尝试。

来源：https://cloud.tencent.com.cn/developer/article/2689925

Qwen

上一篇Codex接入DeepSeek V4为什么感觉变笨？原来是Tools能力失效了 下一篇Codex中文官方文档与使用教程国内开发者AI编程速成

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。