10月5日最新动态显示,华为瑞士苏黎世研发中心推出了一项突破性开源量化技术,这项创新能在保持大语言模型输出质量的前提下,显著降低显存占用需求。
这项名为SINQ(Sinkhorn归一化量化)的前沿技术已在GitHub和Hugging Face平台开源,使用Apache 2.0许可协议,企业及研究机构可自由使用、修改并进行商业应用部署。

SINQ技术的最大亮点在于:无需耗时校准、部署便捷且能无缝融入现有模型工作流程。其实验数据显示,根据不同模型结构和位宽设置,可将显存占用降低60%-70%之多。
效果对比尤为惊人:原本需要配备60GB以上显存的模型任务,现在仅需约20GB显存即可流畅运行。这意味着过去必须依赖A100或H100等企业级GPU的场景,现在使用更具性价比的家用级RTX 4090显卡就能胜任。
目前该技术已在Qwen3系列、LLaMA和DeepSeek等多个主流模型架构上完成验证测试,在WikiText2、C4等基准测试中表现出优异的困惑度降低效果,同时有效控制了结果反转率。
特别值得一提的是,SINQ不仅支持NF4等非均匀量化方案,还能与AWQ等校准方法协同使用,使量化后的模型表现更接近全精度版本的输出质量。
在运行效率方面,实测数据显示:SINQ的量化速度较HQQ提升约2倍,相比AWQ更是快了30倍有余,这对量化时效性要求严格的研究场景和实际生产环境来说极具吸引力。

