10月9日最新消息,蚂蚁集团正式推出具有万亿参数的通用语言大模型Ling-1T。作为蚂蚁百灵大模型Ling 2.0系列的首款旗舰产品,Ling-1T不仅是该团队研发的最大规模模型,同时也代表了其当前最强大的非推理型大模型实力。
权威测评数据显示,在受控输出条件下,Ling-1T在多项复杂推理基准测试中取得了业界领先表现。特别值得一提的是,该模型在代码生成、软件开发、数学竞赛解题、专业数学推导和逻辑推理等高难度测试项目中均位居开源模型前列,多项核心指标刷新纪录。
性能亮点
以美国数学邀请赛AIME 25为例,Ling-1T仅需平均4000+ Token就能实现70.42%的准确率,优于Gemini-2.5-Pro(5000+ Token,70.10%准确率)。这一结果充分展示了Ling-1T在推理精度和效率上的双重优势。
核心技术
蚂蚁百灵团队透露,Ling-1T沿用了Ling 2.0架构,基于超过20T tokens的高质量预训练数据进行训练。模型支持128K上下文窗口,并创新性地采用了"中训练+后训练"的演进式思维链(Evo-CoT)技术,显著提升了模型的思考效率和推理准确性。
泛化能力
研发过程中团队发现,模型规模的扩大与推理能力的提升往往会带来跨领域的意外惊喜。譬如在BFCL V3智能体工具调用任务中,Ling-1T在仅进行少量指令微调的情况下就实现了约70%的调用准确率。该模型能够将复杂的逻辑问题转化为可视化组件,生成多端兼容的前端代码,或创作符合特定风格的营销文案。
当前局限
- 仍采用GQA注意力架构
- 超长上下文处理成本较高
- 智能体交互能力有待提升
- 部分场景下存在角色混淆现象
开放资源
开发者可以访问以下渠道体验Ling-1T:
- HuggingFace仓库
- ModelScope模型平台
- GitHub开源项目
- 国内用户专属聊天体验入口
- 面向海外开发者的ZenMux平台
