人大与蚂蚁合作推出原生MoE扩散语言模型,即将开源
今年9月12日,蚂蚁集团携手中国人民大学在外滩大会上重磅推出全球首个原生MoE架构的扩散语言模型LLaDA-MoE,引发业界广泛关注。
这款创新型模型采用非自回归的掩码扩散机制,开创性地在原生训练的MoE架构上实现了与Qwen2.5相媲美的语言智能水平,在上下文理解、指令执行、代码编写和数学推理等方面都有出色表现。
实验数据显示,LLaDA-MoE在代码生成、数学运算、智能体等任务上的表现均优于LLaDA1.0/1.5和Dream-7B等同类扩散语言模型,其性能甚至接近或超越了Qwen2.5-3B-Instruct这样的自回归模型。特别值得注意的是,该模型在仅激活1.4B参数的条件下,就能达到相当于3B参数稠密模型的性能。
蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员蓝振忠表示:"LLaDA-MoE的成功验证了工业级大规模训练的可行性和稳定性,标志着我们在扩散语言模型的研究道路上又向前迈进了一大步。"
中国人民大学高瓴人工智能学院李崇轩副教授从理论层面进行了分析:"当前主流大模型普遍采用的自回归生成方式仅能实现单向建模,这种生成token的方式限制了模型对双向依赖关系的捕捉能力。"
蚂蚁集团透露,研究人员克服了诸多技术难关。团队耗时3个月重构训练代码,依托自研ATorch分布式框架的EP并行技术,基于Ling2.0基础模型的训练数据,在负载均衡、噪声采样等关键问题上取得突破,最终完成了包含7B总参数量(激活1.4B)的MoE架构的20T数据训练。
在蚂蚁的统一评估标准下,LLaDA-MoE在HumanEval等17项基准测试中平均提升8.4%,领先上一代产品13.2%,与Qwen2.5-3B-Instruct表现相当。这些数据有力证明了"MoE放大器效应"在扩散语言模型中的适用性,为未来10B至100B规模的稀疏模型研发指明方向。
蓝振忠同时宣布,蚂蚁计划近期向全球开源完整的模型权重和专为dLLM优化的推理框架,这将显著提升运行效率。所有技术文档和代码将在GitHub及Hugging Face平台同步发布。他强调:"自回归并非唯一出路,我们相信扩散模型同样能成为实现AGI的重要路径。"
相关攻略
蚂蚁百灵开源Ring-2 6-1T模型,核心为可调节的“按需思考”机制,提供high与xhigh两档推理强度。high模式高效处理多轮对话等任务,xhigh模式专攻数学竞赛等高难度挑战。模型采用异步强化学习与“棒冰算法”提升训练效率,战略聚焦于提升真实环境下的计算效率与实用性。
蚂蚁灵波开源具身大模型LingBot-VLA,旨在提升机器人跨本体与跨任务泛化能力,降低落地成本。在GM-100真机评测中,其平均成功率提升至17 3%,刷新纪录;仿真测试成功率亦提高9 92%。该模型基于超两万小时真机数据预训练,仅需少量演示即可迁移任务,并配套开源工具链,推动具身智能规模化应用。
艾瑞咨询报告指出,金融智能体是金融机构数智化转型的关键。蚂蚁数科凭借业务理解与AI工程能力,被列为综合领导者。其“四车间”架构与金融大模型解决了决策可解释性问题,在AI应用、风控等场景表现突出。公司探索按效付费的RaaS模式,与机构风险共担,已助力银行提升效率与客户满意度。预计到。
第五届ATEC科技精英赛在香港收官,赛事以“无遥操”为核心,要求机器人在户外复杂地形中完全自主完成吊桥穿越、垃圾分拣等任务。来自全球的13支队伍参赛,浙江大学凭借全自主智能表现夺冠。比赛旨在推动机器人从实验室走向真实应用,通过真实场景挑战测试机器人的感知、决策与执行能力,促。
当AI眼镜学会“跑腿”:语音解锁单车,无感支付停车费 近来,智能穿戴领域的一个新动向值得关注:阿里旗下的千问AI眼镜,正式接入了蚂蚁集团的GPASS平台。这可不是一次简单的功能叠加,它意味着,诸如共享单车骑行、停车缴费这一系列高频的“AI办事”功能,开始从手机屏幕转移到了你的眼前。 简单说,借助GP
热门专题
热门推荐
在追求极致效率的现代软件开发中,一款名为Cursor的AI代码编辑器正引领着开发范式的变革。它被定义为“面向未来的IDE”,其核心理念清晰而有力:将人工智能深度无缝地集成到编码工作流的每一个步骤,为开发者创造一种前所未有的“AI结对编程”体验。 Cursor sh应用场景 那么,这款AI驱动的编辑器
在众多AI图像生成工具中,WHEE凭借其精准的产品定位与持续的功能迭代,正成为越来越多设计师和内容创作者的首选工具。它专注于打造高品质的AI视觉素材生成器,核心使命就是帮助用户快速、高效地获得可直接使用的优质图片素材。 那么,这款AI绘图工具究竟有哪些核心优势?下面我们从其关键特性与功能设计进行深入
在AI绘画工具不断涌现的当下,一款名为NightCafe Creator的应用以其全面的AI艺术生成能力脱颖而出。它不仅是一个简单的图片处理工具,更是一个融合了多种前沿人工智能技术的创意平台,帮助用户轻松实现从构思到成品的艺术创作。 NightCafe Creator是什么? NightCafe C
近期加密货币市场受到宏观经济不确定性及流动性紧缩影响,比特币(BTC)、以太坊(ETH)以及多种山寨币出现明显下行走势,市场情绪趋于谨慎。 比特币近期走势分析 比特币的价格近期表现如何?简单来说,它跌破了几个市场公认的关键支撑位,而且伴随交易量的放大。这种放量下跌的信号,往往意味着多空分歧加剧。无论
蔡司宣布将于6月2日发布一款新镜头,并称其为镜头技术的重大突破,标志着全新纪元的开启。官方仅公布了产品剪影,但措辞暗示其可能带来根本性的技术升级,例如全新光学结构、先进镀膜或对焦系统改进。具体细节需待发布日揭晓。





