输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
GPTQ是一种针对大型语言模型的高效后训练量化技术,通过将模型权重从16位浮点数(FP16)压缩为4位或8位整数,显著减少显存占用和推理延迟,同时保持模型性能损失极小。它利用二阶信息(海森矩阵)进行量化补偿,是目前大模型部署中最主流的量化方案之一。
近期常被查询的 AI 概念。