AWQ（激活感知权重量化）_AI热词解释_游乐网

AWQ（激活感知权重量化）

类型：模型优化技术2026-06-01

AWQ是一种针对大语言模型的低比特量化技术，通过分析激活值分布，对敏感通道保留更高精度，从而在极小精度损失下实现4-bit甚至3-bit量化，大幅降低显存占用和推理延迟。

本次查询：AWQ

中文解释：激活感知权重量化

常见场景：大模型部署与推理加速

AWQ（Activation-aware Weight Quantization）是一种基于激活值分布感知的权重量化方法。它能在保持大模型推理精度的前提下，将模型参数从16位浮点数压缩到4或3位整型，从而显著降低显存占用和计算开销。

随着LLM参数规模持续膨胀，在消费级GPU上部署变得极具挑战。AWQ通过识别激活值中的异常通道并优先保护重要权重，实现了低比特量化且精度损失极小，这让70B模型也能在24GB显存的显卡上流畅推理，极大地推动了LLM的本地化应用。

AWQ的核心思想是：并非所有权重对模型输出同等重要。它利用小批量校准数据统计每个通道的激活值幅度，发现少数通道的激活值异常大，这些通道对应的权重对精度影响更大。量化时对这些敏感通道采用更高精度或倍数缩放因子，其余通道则用低比特量化。

相比传统均匀量化，AWQ通过这种感知激活的差异化处理，在仅增加极少计算开销的情况下显著保留模型性能。该方法无需反向传播或梯度更新，量化速度比GPTQ更快，且部署时无需额外数据校准。

AWQ广泛应用于需要在本地设备上运行大模型的场景，例如在RTX 4090上部署Llama 2 70B，或在笔记本电脑上运行7B模型进行离线对话。主流推理框架如vLLM、TGI、llama.cpp均已支持AWQ量化格式。

此外，云端服务在追求低延迟推理时也会采用AWQ，通过4-bit量化将显存需求降低4倍，从而在相同硬件上容纳更多用户并发请求，同时保持与FP16相近的回答质量。

很多用户会混淆AWQ与GPTQ。GPTQ基于二阶梯度（Hessian矩阵）进行逐层优化，量化精度更高但速度较慢；AWQ则利用激活值分布，不需要反向传播，量化速度更快，且在低比特（如3-bit）下优势更明显。

另外，AWQ与NormalFloat（NF4）不同：NF4假设权重服从对称分布，用数学变换映射到4-bit；AWQ则直接根据激活异常调整缩放因子，对非对称分布更鲁棒。量化后模型格式也互不兼容，部署时需选择对应的推理后端。

来源：AI 热词解释频道整理

AWQ 模型量化大模型推理 INT4 LLM