人大与蚂蚁合作推出原生MoE扩散语言模型,即将开源
今年9月12日,蚂蚁集团携手中国人民大学在外滩大会上重磅推出全球首个原生MoE架构的扩散语言模型LLaDA-MoE,引发业界广泛关注。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这款创新型模型采用非自回归的掩码扩散机制,开创性地在原生训练的MoE架构上实现了与Qwen2.5相媲美的语言智能水平,在上下文理解、指令执行、代码编写和数学推理等方面都有出色表现。
实验数据显示,LLaDA-MoE在代码生成、数学运算、智能体等任务上的表现均优于LLaDA1.0/1.5和Dream-7B等同类扩散语言模型,其性能甚至接近或超越了Qwen2.5-3B-Instruct这样的自回归模型。特别值得注意的是,该模型在仅激活1.4B参数的条件下,就能达到相当于3B参数稠密模型的性能。
蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员蓝振忠表示:"LLaDA-MoE的成功验证了工业级大规模训练的可行性和稳定性,标志着我们在扩散语言模型的研究道路上又向前迈进了一大步。"
中国人民大学高瓴人工智能学院李崇轩副教授从理论层面进行了分析:"当前主流大模型普遍采用的自回归生成方式仅能实现单向建模,这种生成token的方式限制了模型对双向依赖关系的捕捉能力。"
蚂蚁集团透露,研究人员克服了诸多技术难关。团队耗时3个月重构训练代码,依托自研ATorch分布式框架的EP并行技术,基于Ling2.0基础模型的训练数据,在负载均衡、噪声采样等关键问题上取得突破,最终完成了包含7B总参数量(激活1.4B)的MoE架构的20T数据训练。
在蚂蚁的统一评估标准下,LLaDA-MoE在HumanEval等17项基准测试中平均提升8.4%,领先上一代产品13.2%,与Qwen2.5-3B-Instruct表现相当。这些数据有力证明了"MoE放大器效应"在扩散语言模型中的适用性,为未来10B至100B规模的稀疏模型研发指明方向。
蓝振忠同时宣布,蚂蚁计划近期向全球开源完整的模型权重和专为dLLM优化的推理框架,这将显著提升运行效率。所有技术文档和代码将在GitHub及Hugging Face平台同步发布。他强调:"自回归并非唯一出路,我们相信扩散模型同样能成为实现AGI的重要路径。"
相关攻略
当AI眼镜学会“跑腿”:语音解锁单车,无感支付停车费 近来,智能穿戴领域的一个新动向值得关注:阿里旗下的千问AI眼镜,正式接入了蚂蚁集团的GPASS平台。这可不是一次简单的功能叠加,它意味着,诸如共享单车骑行、停车缴费这一系列高频的“AI办事”功能,开始从手机屏幕转移到了你的眼前。 简单说,借助GP
要闻提示1 OpenAI 与美国防部合作惹众怒:ChatGPT 卸载量大增 295%,一星评价暴涨 775%2 比亚迪车在以色列扛住了一枚导弹!车身完好没起火,乘客仅轻伤3 马云与阿里、蚂蚁核心管理
3月3日,市场调研机构Quest Mobile发布《2025年AI应用层发展核心报告》。数据显示,截止到2025年12月,移动端AI应用月活跃用户规模达到7 22亿。具体到12月的应用榜单上看,豆
来源:科技日报科技日报记者 刘霞一条胖乎乎的毛毛虫,居然能通过敲击节拍的方式,和蚂蚁“聊天”?甚至还说服蚂蚁把自己带回巢穴、当宝贝一样供养起来?这可不是童话故事,而是科学家刚刚发现的有趣真相。有些蝴
大年廿六,广东某县城的乡村。老赵拨了个视频电话给女儿小赵,他一上来就和女儿抱怨:“我不知道是胃还是肝,又疼起来了。”今年小赵没回老家,和妈妈留在深圳过年。老赵一个人待在乡下。老赵平时爱喝酒,胃不舒服
热门专题
最新APP
热门推荐
苹果折叠屏手机 iPhone Fold 最新渲染图曝光:摄像头凸起优化,设计更显精致 有关苹果公司首款折叠屏 iPhone 的传闻持续受到关注。4月5日,知名爆料者 Majin Bu 在社交平台X上再度分享了一组据称是 iPhone Fold 的高清渲染图,从多角度揭示了这款备受期待设备可能的外观设
通用性首选:官府无垢队阵容深度解析 在当前版本中,若要挑选一套兼具强度与广泛适用性的阵容,以官府流派【长孙无垢】为核心的搭配方案无疑是热门之选。这套经典组合通常由长孙无垢(官府)、李一桐、李善德、李光弼,以及关羽或平安组成。其核心战斗逻辑清晰且高效:一方面,依靠长孙无垢与李光弼的技能联动,通过对目标
洛克王国全精灵隐藏进化条件完整攻略大全 在《洛克王国》丰富多彩的冒险世界中,除了常规的等级进化,众多精灵还埋藏着独特的“隐藏进化”路径。这些特殊的进化条件,往往是解锁精灵终极形态、完成图鉴收集的关键所在。与普通进化方式不同,隐藏进化需要触发特定的环境、时间、道具或任务条件,充满了探索与解密的乐趣。你
燕云十六声石震关卡怎么过?高效通关技巧与实战攻略详解 掌握核心机制:石震关卡难点全解析 石震关卡的核心挑战在于敌人配置:不仅数量密集,且拥有高额血量和攻击力。这些敌人并非随机分布,而是依据特定区域、巡逻路线及攻击逻辑进行部署。提前掌握不同敌人的攻击前摇、技能范围与仇恨机制,是制定有效战术的前提,真正
英雄联盟手游安妮符文终极指南:爆发流核心配置与实战策略 在英雄联盟手游的对局中,黑暗之女安妮以其强大的瞬间爆发与控制能力,始终是中单位置的热门选择。虽然操作看似简单易懂,但想要真正掌握这位火焰法师的精髓,打出毁天灭地的效果,一套科学高效的符文搭配是不可或缺的基石。正确的符文选择,能让她从温顺的火苗化





