如果你没有独立的显卡、缺乏深度学习环境配置经验,或是不想耗费大量时间在依赖安装上,AutoDL 无疑是一个极具性价比的选择。A10、A100、V100 等主流 GPU 实例均可即租即用,从选定镜像到成功启动 WebUI,通常只需三分钟左右。核心优势在于省心:无需自购显卡,也不必为驱动与框架的版本兼容问题而烦恼。
开通 AutoDL 账号并创建 GPU 实例
首先访问 autodl.com,使用手机号完成注册并通过实名认证。进入控制台后,点击【创建实例】。GPU 型号方面,强烈推荐 A10(24G 显存) 或 A100(40G 显存)。实际上,运行 Grok-1 的量化版本,A10 已经足够。系统盘选择 100GB,数据盘选择 200GB —— 因为模型权重与缓存文件合起来占用空间不小。镜像建议选用 Ubuntu 22.04 LTS,无需选择预装各种框架的镜像,避免后续版本冲突带来不必要的麻烦。
有一个细节不能忽略:AutoDL 默认关闭了 SSH 密码登录,务必手动勾选【启用密码登录】并设置一个强密码,否则后续无法连接终端。
配置基础环境与依赖
实例启动后,点击【远程连接】,用密码登录。接下来依次安装基础环境:
sudo apt update && sudo apt install -y python3-pip git curl wget && sudo pip3 install --upgrade pip
随后处理 NVIDIA 驱动与 CUDA 工具包。AutoDL 实例已经预装了驱动,但 CUDA Toolkit 需要手动安装。先运行 nvidia-smi 查看驱动支持的最高 CUDA 版本。例如,若显示 “CUDA Version: 12.4”,则安装对应版本:
curl -fsSL https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run | sudo bash -s -- --silent --no-opengl-libs
这一步值得认真对待。CUDA 版本选择错误或直接跳过,后续在 vLLM 或 transformers 中很可能会遇到 “CUDA initialization failed” 的错误。
拉取 Grok 最新推理代码与量化模型
有以下几种方式,可根据实际需求选择:
方法一:使用 XAI 官方提供的 gritlm 推理服务。 该方案轻量且兼容性好。直接克隆仓库并安装依赖:
git clone https://github.com/xai-org/gritlm.git && cd gritlmpip install -e .
方法二:加载 HuggingFace 上的 Grok-1-7B-IQ2_XS 量化模型。 该版本显存占用最低,对 A10 非常友好。下载后放到本地目录:
mkdir /root/models && cd /root/modelswget https://huggingface.co/xai-org/grok-1-7b-iq2_xs/resolve/main/model.safetensors
方法三:如果需要运行完整的 Grok-1-7B 非量化版本, 则必须使用 A100 实例。同时,需先向 XAI 正式申请模型访问权限,获得授权后使用 hf_transfer 下载。未授权则会返回 403 错误。
启动本地 WebUI 服务
第一步,安装 Text Generation WebUI 的核心依赖。该工具目前非常成熟,能够直接支持多种模型:
cd /root && git clone https://github.com/oobabooga/text-generation-webui.git && cd text-generation-webuipip install -r requirements.txt
第二步,启用 Grok 专用的加载器插件。若使用默认加载器,可能会出现兼容性问题:
cd extensions && git clone https://github.com/oobabooga/text-generation-webui-extensions.git && cd ..cp -r extensions/text-generation-webui-extensions/grok_loader ./extensions/
第三步,启动服务并绑定公网端口。以下参数是关键:
python server.py --model xai-org/grok-1-7b-iq2_xs --load-in-4bit --listen --port 7860 --share
执行完成后,终端会输出类似 “Running on public URL: https://xxx.gradio.live” 的链接。直接点击该链接,在浏览器的文本框中输入提示词,即可实时获取 Grok-1 的响应。
