腾讯近期重磅开源了Hunyuan-Large大模型,这是一枚真正的“核弹”——总参数量高达3890亿(389B),激活参数达520亿(52B)。官方直接宣称:这是目前业界已开源且基于Transformer架构的最大规模MoE模型。

开源动作相当干脆:Hugging Face上一次性发布了三个版本——预训练版(Hunyuan-A52B-Pretrain)、指令微调版(Hunyuan-A52B-Instruct)以及FP8量化版(Hunyuan-A52B-Instruct-FP8)。与此同时,配套的技术报告和训练推理操作手册也一并公开,模型能力、训练细节、推理操作全部透明化呈现。
具体技术优势上,有几个亮点值得展开说明:
- 高质量合成数据:利用合成数据开展增强训练,模型能够学到更丰富的特征表示,轻松应对长上下文输入,泛化能力自然更强。
- KV缓存压缩:通过分组查询注意力(GQA)与跨层注意力(CLA)两项技术,有效降低推理过程中的显存占用和计算开销,显著提升吞吐量。
- 专家特定学习率缩放:为每个专家子模型分别匹配不同的学习率,确保每个模块都能真正学到有效知识,避免被平均水平“拖后腿”。
- 长上下文处理能力:预训练模型支持256K文本序列,Instruct模型支持128K,为长文档、长对话等场景提供了更扎实的技术基础。
- 广泛基准测试:在多语言、多任务场景下完成了全面实验,效果表现与安全性均已得到验证。
相关资源一并附上:
- 技术论文:https://arxiv.org/pdf/2411.02265
- Github仓库:https://github.com/Tencent/Tencent-Hunyuan-Large
- Huggingface模型页:https://huggingface.co/tencent/Tencent-Hunyuan-Large
- 腾讯云产品页:https://cloud.tencent.com/product/hunyuan
