输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
AWQ是一种针对大语言模型的低比特量化技术,通过分析激活值分布,对敏感通道保留更高精度,从而在极小精度损失下实现4-bit甚至3-bit量化,大幅降低显存占用和推理延迟。
近期常被查询的 AI 概念。