2月10日,腾讯混元宣布正式推出一款面向消费级硬件场景的“极小”模型HY-1.8B-2Bit,其等效参数量仅为0.3B,内存占用低至600MB。
据介绍,该模型通过对腾讯混元此前的小尺寸语言模型——HY-1.8B-Instruct进行2比特量化感知训练(QAT)产出。对比原始精度模型,新模型的等效参数量降低了6倍,在继承原模型全思考能力的同时,于真实端侧设备上对比原始精度模型的生成速度提升了2到3倍,能够显著提升使用体验。此次腾讯混元推出的HY-1.8B-2Bit模型,可在边缘设备上实现无压力部署。这也是业内首个实现2bit产业化量级的端侧模型实践。
随着大语言模型日益普及,如何将模型在手机、耳机或智能家居等设备上有效应用,成为行业面临的实际挑战。尤其在许多应用场景中,对模型的离线部署能力、隐私保护性等都提出了更高要求,这就需要更多能够在端侧运行、既小巧又强大的模型来支撑。
腾讯混元表示,端侧部署的展开,本质上是一条追求“小而精,快而准”的艰难探索之路。我们既需要模型足够聪明,以应对千变万化的现实需求,又必须将其约束在极其有限的硬件资源内进行部署和快速推理,这就像是在为模型进行一场“减脂增肌、减重提质”的精益工程。
