本次查询:INT4
中文解释:4位整数量化
常见场景:大模型在移动端 / IoT 设备 / 云推理服务中部署时 / 通过 INT4 量化实现缩小模型体积 / 加速推理
一句话解释
INT4 是一种模型量化技术,将原本需要 32 位浮点数存储的神经网络参数,压缩成仅用 4 位整数表示,使模型体积缩小约 8 倍,同时保持可接受的精度。
它通过牺牲少量精度换取极致的推理速度和内存节省,让大模型能在低算力设备上运行。
为什么会被关注
大语言模型动辄几百 GB 的参数量和显存需求,限制了它们在个人电脑、手机、智能家居等终端设备上的使用。INT4 量化可以将 7B 参数的模型压缩到 4GB 以下,让普通消费者也能本地运行。
业界对生成式 AI 的移动化需求爆发,同时云服务商希望降低每 Token 计算成本。INT4 能实现 2-4 倍的推理加速,且无需改变模型结构,成为部署优化的首选方案。
核心逻辑
INT4 量化的核心思路是“位宽缩减+重映射”。神经网络权重通常是 FP32(32 位浮点),每个数占 4 字节;INT4 只用 4 位(0.5 字节)表示,但取值范围极窄(16 种状态)。
量化过程先统计原始权重的数值范围(如最小/最大值),然后通过缩放因子(Scale)和零点(Zero Point)将浮点数线性映射到 0-15 的整数。推理时再反向还原成近似浮点值,实现对矩阵乘法的近似计算。
与传统 INT8 相比,INT4 的压缩率提升一倍,但对量化校准技术的要求更高。通常需要结合分组量化(Group-wise Quantization)或梯度缩放策略,或用敏感度划分不同层的量化位宽,来减少精度损失。
常见场景
在 PC 上本地运行 Llama 2、CodeLlama 等模型时,GGML/llama.cpp 框架支持通过 INT4 量化让 7B 模型仅需约 4GB 内存,可在 8GB 内存笔记本上流畅对话。
手机端 AI 助手:高通等芯片厂商推出的 AI Engine 支持 INT4 加速,让语音识别、图像生成等模型直接在手机上运行,无需联网。
云推理降本:服务商对部署的模型(如 GPT-like 模型)应用 INT4 量化,单 GPU 可同时服务更多用户,降低每请求的推理成本。
嵌入式 IoT 设备:如智能摄像头中的目标检测模型,INT4 量化可将体积压缩至数百 KB,适应微控制器的存储和算力限制。
容易混淆的点
INT4 不是训练时的精度,而是推理时的压缩。模型仍以 FP16/BF16 训练,之后对权重做后训练量化(PTQ)或量化感知训练(QAT),推理时采用 INT4 计算。
INT4 和 4bit 精度不是等同概念。有些框架(如 bitsandbytes)使用 NF4(4 位正态浮点)或 FP4(4 位浮点),它们属于非线性量化,与标准的 INT4 线性量化在数值分布和精度表现上不同。
INT4 量化不是无损压缩。对低比特量化敏感的任务(如数学推理、代码生成)可能产生 3%-8% 的准确度下降,需要配合混合量化(部分层保留 INT8/FP16)来平衡。
