智源发布Emu3.5多模态模型:AI迈向物理世界的新征程
在北京举办的“悟界·Emu系列技术交流会”上,智源研究院正式推出Emu3.5多模态世界大模型。这款由智源院长王仲远与多模态大模型负责人王鑫龙联合发布的成果,标志着人工智能从语言认知向多模态世界建模的跨越式发展。该模型通过单一自回归Transformer架构实现端到端原生多模态训练,在10万亿token级数据上完成预训练,视频数据训练时长从15年激增到790年,参数规模从80亿扩展至340亿,为多模态大模型的规模化发展开辟新路径。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在技术创新方面,智源首创的“离散扩散自适应”技术将图像推理效率提升20倍,使自回归模型首次达到闭源扩散模型的生成速度。模型采用“预测下一状态”的核心训练目标,通过海量多模态数据自学习物理世界的运行规律,形成对时空连续性和因果关系的内部表征。这种非硬编码的知识获取方式,让Emu3.5具备长时程环境交互能力,与单纯内容生成模型形成本质区别。
作为新一代世界模型,Emu3.5构建了完整的预测系统,在理解、预测、规划三个维度形成闭环。其独特能力体现在:可解析高层意图并生成多步骤行动方案,如规划“宇宙飞船制造流程”或“咖啡拉花步骤”;在统一框架内实现物理动态模拟与因果关系推演;通过涌现的因果推理能力支持具身交互,为机器人操控提供认知基础。这些特性使模型既能生成行动指南,又具备基础物理直觉,可在多场景中实现可控探索。
在功能表现上,Emu3.5展现出跨模态时序一致性优势。其多模态叙事能力可围绕任意主题创建沉浸式故事体验,具身操作模块支持跨场景动作规划与复杂交互。在图文编辑领域,模型通过自然语言指令实现精准时空变换,文图生成质量超越多数闭源模型。基准测试显示,该模型在多维度评估中均达到行业领先水平。
研发路径上,智源研究院延续其创新定位,聚焦高校与企业未涉足的AI前沿领域。作为国内最早开展大模型研究的机构,团队曾成功孵化悟道系列模型,培养众多行业领军人才。近两年转向多模态与物理世界AI研发,基于对技术演进趋势的判断,主张通过原生多模态架构统一感知与生成能力。2024年发布的Emu3已验证自回归架构的可行性,此次Emu3.5进一步证明模型性能可随数据、算力、参数规模同步提升。
王仲远在发布会上强调,Emu3.5开创了多模态Scaling的新范式,为构建通用世界模型提供可量化的实践路径。模型通过模拟人类自然学习方式,在“下一状态预测”框架下实现世界建模能力的泛化。目前,智源已启动学术合作计划,将向科研机构开放Emu3.5体验版,同时通过最新渠道启动产业界邀请测试,推动多模态世界模型的技术生态建设。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





