游乐游手机版
首页/AI热点日报/热点详情

腾讯正式开源Hunyuan-Large大模型 389B总参数成为业界最大基于Transformer的MoE模型

类型:热点整理2026-06-28
腾讯近期重磅开源了Hunyuan-Large大模型,这是一枚真正的“核弹”——总参数量高达3890亿(389B),激活参数达520亿(52B)。官方直接宣称:这是目前业界已开源且基于Transformer架构的最大规模MoE模型。 开源动作相当干脆:Hugging Face上一次性发布了三个版本——

腾讯近期重磅开源了Hunyuan-Large大模型,这是一枚真正的“核弹”——总参数量高达3890亿(389B),激活参数达520亿(52B)。官方直接宣称:这是目前业界已开源且基于Transformer架构的最大规模MoE模型。

腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型

开源动作相当干脆:Hugging Face上一次性发布了三个版本——预训练版(Hunyuan-A52B-Pretrain)、指令微调版(Hunyuan-A52B-Instruct)以及FP8量化版(Hunyuan-A52B-Instruct-FP8)。与此同时,配套的技术报告和训练推理操作手册也一并公开,模型能力、训练细节、推理操作全部透明化呈现。

具体技术优势上,有几个亮点值得展开说明:

  • 高质量合成数据:利用合成数据开展增强训练,模型能够学到更丰富的特征表示,轻松应对长上下文输入,泛化能力自然更强。
  • KV缓存压缩:通过分组查询注意力(GQA)与跨层注意力(CLA)两项技术,有效降低推理过程中的显存占用和计算开销,显著提升吞吐量。
  • 专家特定学习率缩放:为每个专家子模型分别匹配不同的学习率,确保每个模块都能真正学到有效知识,避免被平均水平“拖后腿”。
  • 长上下文处理能力:预训练模型支持256K文本序列,Instruct模型支持128K,为长文档、长对话等场景提供了更扎实的技术基础。
  • 广泛基准测试:在多语言、多任务场景下完成了全面实验,效果表现与安全性均已得到验证。

相关资源一并附上:

  • 技术论文:https://arxiv.org/pdf/2411.02265
  • Github仓库:https://github.com/Tencent/Tencent-Hunyuan-Large
  • Huggingface模型页:https://huggingface.co/tencent/Tencent-Hunyuan-Large
  • 腾讯云产品页:https://cloud.tencent.com/product/hunyuan
来源:https://www.1ai.net/22622.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。