首页 游戏 软件 资讯 排行榜 专题
首页
AI
腾讯混元发布0.3B端侧模型,内存仅占600MB

腾讯混元发布0.3B端侧模型,内存仅占600MB

热心网友
65
转载
2026-02-10

2月10日,IT之家发布消息,腾讯混元今日正式发布一款面向消费级硬件场景的“极小”模型HY-1.8B-2Bit。该模型基于首个产业级2Bit端侧量化方案打造,其等效参数量仅为0.3B,内存占用低至600MB,体积比许多常见的手机应用还要小巧。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

据介绍,该模型是通过对腾讯混元此前推出的小尺寸语言模型——HY-1.8B-Instruct进行2比特量化感知训练而产出的。相比原始精度模型,其等效参数量降低了6倍,并且在完全继承原模型全思考能力的同时,在真实端侧设备上的生成速度比原始精度模型提升了2到3倍,可大幅提升实际使用体验。

腾讯混元此次推出HY-1.8B-2Bit模型,可以在边缘设备上无压力部署。这也是首个实现2bit产业级量化的端侧模型实践。

比特是计算机存储的最小单位,1比特能表示2种状态,2比特能表示4种状态,依此类推。一般模型的精度可用2比特、4比特、8比特、32比特等方式表示,数值越大模型的精度越高,所占用的内存也越大。

虽然2比特量化的精度损失较大,但通过QAT(量化感知训练)和先进的量化策略,已经能让2比特模型接近全精度模型的性能。在模型能力方面,对比4比特PTQ(训练后量化)模型版本,HY-1.8B-2Bit在数学、代码、科学等指标上表现相当,实现了“小而强”的设计目标。

此外,HY-1.8B-2Bit模型还沿用了Hunyuan-1.8B-Instruct的全思考能力,用户可以灵活使用。模型为简单的查询提供了简洁的思维链,为复杂的任务则提供了详尽的长思维链,用户可以根据其应用的复杂性和资源限制,灵活地选择这两种推理模式。

技术上,量化作为大模型部署上线不可或缺的一环,肩负着降低部署成本与保精度的使命。大部分情况下,对于int4、int8、fp8的压缩精度要求,采用PTQ量化策略即可实现几乎无损。但随着原始模型大小的缩小、压缩bit数的进一步降低,PTQ带来的量化损失是巨大的。因此,对于原始模型大小只有1.8B,量化bit数只有2bit的HY-1.8B-2Bit,混元团队采用了量化感知训练策略,这显著提升了量化后模型的性能。

腾讯混元还通过数据优化、弹性拉伸量化以及训练策略创新三个方法,来最大限度的提升HY-1.8B-2Bit的全科能力。

部署方面,腾讯混元提供了HY-1.8B-2Bit的gguf-int2格式的模型权重与bf16伪量化权重。对比原始精度模型,HY-1.8B-2Bit实际模型大小直降6倍,仅有300MB,能够灵活用于端侧设备上。该模型也已针对Arm等计算平台完成适配,并可部署于启用Arm SME2技术的移动设备上,同时实现高效运行。

在MacBook M4芯片上,固定线程数为2的情况下测试了不同上下文窗口大小下的首字时延和生成速度。模型选定fp16、Q4、HY-1.8B-2Bit三种gguf格式作为对比。在1024输入长度内,HY-1.8B-2Bit的首字时延能够保持3至8倍的加速;在生成速度上,在常用上下文窗口下对比原始模型精度,HY-1.8B-2Bit能够实现至少2倍的稳定加速。

在天玑9500上也进行了同样测试,对比HY-1.8B-Q4格式,首字时延能够加速1.5至2倍,生成速度加速约1.5倍。

为了在边缘设备上实现大语言模型的灵活部署,HY-1.8B-2Bit采用了极低比特量化技术,在保持与INT4-PTQ方法相当模型性能的同时,实现了在端侧设备上的高效稳定推理。

当前,HY-1.8B-2Bit的能力仍受限于监督微调的训练流程,以及基础模型本身的性能与抗压缩能力。针对这一问题,混元团队未来将重点转向强化学习与模型蒸馏等技术路径,以期进一步缩小低比特量化模型与全精度模型之间的能力差距,从而为边缘设备上的大语言模型部署开拓更广阔的应用前景。

来源:https://tech.ifeng.com/c/8qczg6r9PJk
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

古尔曼披露:苹果Apple Intelligence在中国意外上线后下线
礼仪与书信
古尔曼披露:苹果Apple Intelligence在中国意外上线后下线

3月31日,苹果于今日凌晨开始分批推送国行Apple Intelligence Beta版,需升级至iOS 26 4及以上系统方可体验。彭博社记者马克·古尔曼今日发文称Apple Intellig

热心网友
03.31
当DeepSeek崩溃10小时,梁文锋称是为V4冲击波做准备
AI
当DeepSeek崩溃10小时,梁文锋称是为V4冲击波做准备

DeepSeek网页和App在连崩10多个小时后终于恢复了。这件事给梁文锋提了个醒,网上都说4月份就要发布DeepSeek-V4了,到时候DeepSeek面临的压力会比现在大得多。怎样让服务器在峰值

热心网友
03.30
杨植麟等共话AI大模型趋势:未来12个月将走向何方?
AI
杨植麟等共话AI大模型趋势:未来12个月将走向何方?

财联社3月29日讯2026年,一只“红色小龙虾”在科技圈引发广泛关注。OpenClaw的爆火,不仅是一次技术产品的出圈,也在中关村论坛期间掀起了关于AI开源生态与智能体未来的深层讨论,杨植麟、张鹏、

热心网友
03.30
苹果认清现实:错失大模型AI机遇后,重回硬件赛道
AI
苹果认清现实:错失大模型AI机遇后,重回硬件赛道

库克手持iPhone 17 Pro 北京时间3月30日,据彭博社报道,苹果准备开放Siri等AI战略大调整表明,该公司正在重新致力于其核心商业模式:销售硬件和服务,依靠硬件搭建起类似于App Sto

热心网友
03.30

最新APP

史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28

热门推荐

OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布
网络安全
OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布

PChome 3月31日消息,OPPO官微官宣,OPPOx哈苏影像新品联合发布会将于4月21日晚19:00在成都举办,Find X9s Pro、Find X9 Ultra等新品将至。据了解,OPPO

热心网友
03.31
2026最新小红书官网登录入口与PC端访问地址
电脑教程
2026最新小红书官网登录入口与PC端访问地址

小红书网页版登录入口为https: www xiaohongshu com explore,支持扫码、手机号验证码及微信三种登录方式,首页默认瀑布流展示热门笔记,具备多维度内容检

热心网友
03.31
举证难与盗声困境:AI模仿维权路径指南
科技数码
举证难与盗声困境:AI模仿维权路径指南

两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵

热心网友
03.31
数字智能赋能正能量:网络媒体论坛探讨三个治理方向
科技数码
数字智能赋能正能量:网络媒体论坛探讨三个治理方向

来源:央广网3月28日至29日,以“发挥主流媒体引领力 激发多元主体创造力——共创繁荣网络内容生态”为主题的2026中国网络媒体论坛在河南郑州举行。网络媒体因技术而诞生,凭创新而繁荣。面对新一轮科技

热心网友
03.31
AI驱动CRM升级:企业级智能解决方案重塑付费模式
科技数码
AI驱动CRM升级:企业级智能解决方案重塑付费模式

当大语言模型与AgenticAI(智能体)从试验场进入企业级生产环境,SaaS行业的底层价值逻辑正面临系统性重估。这一轮变革的核心,正指向“AI CRM 2 0”的全面到来——它不再是传统CRM的功

热心网友
03.31