腾讯混元发布0.3B端侧模型，内存仅占600MB

首页

热心网友

转载

2026-02-10

2月10日，IT之家发布消息，腾讯混元今日正式发布一款面向消费级硬件场景的“极小”模型HY-1.8B-2Bit。该模型基于首个产业级2Bit端侧量化方案打造，其等效参数量仅为0.3B，内存占用低至600MB，体积比许多常见的手机应用还要小巧。

据介绍，该模型是通过对腾讯混元此前推出的小尺寸语言模型——HY-1.8B-Instruct进行2比特量化感知训练而产出的。相比原始精度模型，其等效参数量降低了6倍，并且在完全继承原模型全思考能力的同时，在真实端侧设备上的生成速度比原始精度模型提升了2到3倍，可大幅提升实际使用体验。

腾讯混元此次推出HY-1.8B-2Bit模型，可以在边缘设备上无压力部署。这也是首个实现2bit产业级量化的端侧模型实践。

比特是计算机存储的最小单位，1比特能表示2种状态，2比特能表示4种状态，依此类推。一般模型的精度可用2比特、4比特、8比特、32比特等方式表示，数值越大模型的精度越高，所占用的内存也越大。

虽然2比特量化的精度损失较大，但通过QAT（量化感知训练）和先进的量化策略，已经能让2比特模型接近全精度模型的性能。在模型能力方面，对比4比特PTQ（训练后量化）模型版本，HY-1.8B-2Bit在数学、代码、科学等指标上表现相当，实现了“小而强”的设计目标。

此外，HY-1.8B-2Bit模型还沿用了Hunyuan-1.8B-Instruct的全思考能力，用户可以灵活使用。模型为简单的查询提供了简洁的思维链，为复杂的任务则提供了详尽的长思维链，用户可以根据其应用的复杂性和资源限制，灵活地选择这两种推理模式。

技术上，量化作为大模型部署上线不可或缺的一环，肩负着降低部署成本与保精度的使命。大部分情况下，对于int4、int8、fp8的压缩精度要求，采用PTQ量化策略即可实现几乎无损。但随着原始模型大小的缩小、压缩bit数的进一步降低，PTQ带来的量化损失是巨大的。因此，对于原始模型大小只有1.8B，量化bit数只有2bit的HY-1.8B-2Bit，混元团队采用了量化感知训练策略，这显著提升了量化后模型的性能。

腾讯混元还通过数据优化、弹性拉伸量化以及训练策略创新三个方法，来最大限度的提升HY-1.8B-2Bit的全科能力。

部署方面，腾讯混元提供了HY-1.8B-2Bit的gguf-int2格式的模型权重与bf16伪量化权重。对比原始精度模型，HY-1.8B-2Bit实际模型大小直降6倍，仅有300MB，能够灵活用于端侧设备上。该模型也已针对Arm等计算平台完成适配，并可部署于启用Arm SME2技术的移动设备上，同时实现高效运行。

在MacBook M4芯片上，固定线程数为2的情况下测试了不同上下文窗口大小下的首字时延和生成速度。模型选定fp16、Q4、HY-1.8B-2Bit三种gguf格式作为对比。在1024输入长度内，HY-1.8B-2Bit的首字时延能够保持3至8倍的加速；在生成速度上，在常用上下文窗口下对比原始模型精度，HY-1.8B-2Bit能够实现至少2倍的稳定加速。

在天玑9500上也进行了同样测试，对比HY-1.8B-Q4格式，首字时延能够加速1.5至2倍，生成速度加速约1.5倍。

为了在边缘设备上实现大语言模型的灵活部署，HY-1.8B-2Bit采用了极低比特量化技术，在保持与INT4-PTQ方法相当模型性能的同时，实现了在端侧设备上的高效稳定推理。

当前，HY-1.8B-2Bit的能力仍受限于监督微调的训练流程，以及基础模型本身的性能与抗压缩能力。针对这一问题，混元团队未来将重点转向强化学习与模型蒸馏等技术路径，以期进一步缩小低比特量化模型与全精度模型之间的能力差距，从而为边缘设备上的大语言模型部署开拓更广阔的应用前景。

来源:https://tech.ifeng.com/c/8qczg6r9PJk

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：大晓机器人完成天使轮融资，布局具身智能科技赛道下一篇：豆包春晚互动玩法公开：送机器人等十万份科技大礼

相关攻略

亚马逊 2 月 26 日发布新一代 Alexa 生成式AI 服务，使用 Claude 模型

亚马逊按下“重启键”：下一代Alexa能否重夺AI语音王座？科技圈又有新动静了。就在今天，亚马逊发出了人工智能主题活动的邀请函，时间定在2月26日。多方信源，包括路透社的报道均指向一个焦点：亚马逊计划在此次活动上，正式推出其下一代、基于生成式人工智能的Alexa服务。话说回来，自2014年面世以

热心网友

04.28

派欧算力云 AI 云端一体化解决方案: 模型 API、Serverless、GPU 租赁

派欧算力云产品介绍人工智能的浪潮正席卷各行各业，企业和开发者们面临一个共同的挑战：如何快速、经济且高效地获取AI算力，将创意迅速转化为市场产品？面对这一需求，一站式AI云服务平台——派欧算力云，提供了颇具吸引力的答案。本文将带你深入剖析派欧算力云的核心功能、独特优势以及应用路径，看它如何为企业的A

热心网友

04.27

京东开源图像模型JoyAI-Image-Edit，从平面修图升级为三维空间重塑

京东开源图像模型JoyAI-Image-Edit，从平面修图升级为三维空间重塑 4月7日，京东探索研究院正式宣布，开源自研的JoyAI-Image-Edit图像模型。这不仅是又一个开源工具，更标志着图像生成编辑技术的一次关键转向：从二维平面迈入了三维空间。简单来说，这个模型被设计为业内首个将“空间

热心网友

04.15

Anthropic启动Project Glasswing计划，向业界提供 Claude Mythos模型1亿美元调用额度

Anthropic启动Project Glasswing计划，集结科技巨头共筑软件安全防线近日，人工智能公司Anthropic启动了一项名为“Project Glasswing”的新计划。这项计划的核心目标，是借助其尚未公开发布的Claude Mythos Preview模型，来加强全球关键软件基

热心网友

04.15

断层碾压Seedance 2.0：神秘“欢乐马”空降榜首，视频AI变天了

就在 OpenAI 都停了 Sora，所有人以为 Seedance 2 0 要一统天下的时候，没想到不知哪里冒出来一匹马。周二晚间，在知名 AI 评测分析平台 Artificial Analysis 上，一个代号为「HappyHorse-1 0」的神秘视频生成模型空降榜首，引发了 AI 社区热议。

热心网友

04.15

热门推荐

web3.0

数字货币基本面分析指南：评估价值与潜力的关键指标

分析数字货币基本面需从项目愿景、技术架构、经济模型及团队背景等多维度入手。核心在于评估其解决实际问题的能力、技术实现的可靠性以及代币经济的可持续性。这要求投资者深入研究白皮书、代码进展、社区生态和治理机制，而非仅关注价格波动。基本面分析是理解项目长期价值、识别潜在风险的关键方法。

热心网友

05.17

web3.0

虚拟币基本面分析指南：如何评估加密货币价值

虚拟币基本面分析需关注项目技术架构、代币经济模型、团队背景与社区生态。技术层面评估共识机制、可扩展性与安全性；经济模型分析代币分配、通胀机制与实际效用；团队与社区则考察开发能力、治理透明度及用户活跃度。综合这些维度，可更客观判断项目的长期价值与风险。

热心网友

05.17

web3.0

什么是代币？代币在区块链中的核心作用与用途详解

Tokens：数字世界的“多功能凭证” 简单来说，Tokens是一种基于现有区块链技术发行的数字凭证。你可以把它想象成数字世界里的“积分”或者“股票”，它代表着某种权利、价值或功能。 2025年虚拟货币主流交易所：币安：欧易：火币： Tokens到底是什么？从技术层面看，Tokens并非独立

热心网友

05.17

web3.0

加密货币投资指南：基本面分析入门与实战技巧

加密货币基本面分析着眼于评估数字资产的长期价值，而非短期价格波动。它主要考察项目愿景、技术架构、代币经济模型、团队背景及社区生态等核心要素。通过分析这些内在因素，投资者可以更理性地判断一个项目是否具备可持续的竞争力与发展潜力，从而做出更明智的投资决策。

热心网友

05.17

Anthropic封杀Claude用户事件解读公司数据安全如何保障

周一清晨，一家拥有110名员工的农业科技公司，全体员工突然发现自己的Claude账户无法登录。这并非个别现象，而是全员遭遇。从Slack运维频道出现第一张截图开始，短短十分钟内，整个公司都在询问同一个问题：我的Claude出什么问题了？答案很快揭晓——问题不在用户，而是Anthropic对所有账号

热心网友

05.17