对标Genie 3,蚂蚁研开源世界模型LingBot-World,视频10分钟无损生成
1月29日,蚂蚁灵波科技继先前发布空间感知基座模型后,再次以开源世界模型LingBot-World刷新行业预期。该模型在视频质量、动态表现、长时一致性以及交互能力等核心指标上均与Google最新的Genie 3媲美,旨在为具身智能、自动驾驶及游戏开发等领域,提供一个高保真、高动态、可实时操控的“数字演训场”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
(图示:LingBot-World在适用场景、生成时长、动态程度、分辨率等方面均达到了业界顶尖水平)
针对视频生成中常见的“长时漂移”问题(即生成时间过长可能出现物体变形、细节坍陷、主体消失或场景结构破坏等现象),LingBot-World凭借多阶段训练以及并行化加速,实现了近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供了有力支撑。
在交互性能方面,LingBot-World可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。用户可以通过键盘或鼠标实时操控角色与相机视角,画面随指令即时反馈。此外,用户还能通过文本指令触发环境变化与世界事件,例如调整天气、改变画面风格或生成特定事件,并在保持场景几何关系相对一致的前提下完成动态演变。
(图示:一致性压力测试:镜头最长移开60秒后返回,目标物体仍存在且结构一致)
(图示:高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致)
(图示:镜头长时间移开后返回,房屋仍存在且结构一致)
模型具备强大的Zero-shot泛化能力,仅需输入一张真实照片(如城市街景)或游戏截图,即可生成可交互的视频流,无需针对单一场景进行额外训练或数据采集,从而降低了在不同场景中的部署与使用成本。
为解决世界模型训练中高质量交互数据匮乏的难题,LingBot-World采用了混合采集策略:一方面通过清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供了精确对齐的训练信号。
具身智能的规模化落地面临一个核心挑战——复杂长程任务的真机训练数据极度稀缺。LingBot-World凭借长时序一致性(即记忆能力)、实时交互响应,以及对“动作-环境变化”因果关系的深刻理解,能够在数字世界中“想像”物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。同时,LingBot-World支持场景多样化生成(如光照、摆放位置变化等),也有助于提升具身智能算法在真实场景中的泛化能力。
随着“灵波”系列连续发布三款具身领域大模型,蚂蚁的AGI战略实现了从数字世界到物理感知的关键延伸。这标志着其“基础模型-通用应用-实体交互”的全栈路径已然清晰。蚂蚁正通过InclusionAI社区将模型全部开源,与行业共建,探索AGI的边界。一个旨在深度融合开源开放并服务于真实场景的AGI生态,正在加速成形。
目前,LingBot-World模型权重及推理代码已面向社区开放。
相关攻略
当我们在谈论人工智能时,一个越来越频繁出现的词是“AI智能体”。它听起来有些未来感,但事实上,它早已渗透到我们生活的诸多角落,从手机里的语音助手,到工厂里协同作业的机器人。那么,究竟什么是AI智能体?它如何工作,又将把我们带向何方?今天,我们就来深入&浅出地聊聊这个话题。 AI智能体定义 简单来说,
OpenMontage是全球首个开源智能体驱动视频制作系统。它通过AI编程助手协调从概念到成片的全部流程,整合了12条生产流水线与400多项技能。系统支持零成本启动,能处理动画解说、真实影像剪辑、多语言本地化等广泛任务,并具备工程化质量控制和全链路决策审计等核心优势。
思科启动重组计划,将裁员约4000人以聚焦人工智能等高增长领域。公司战略重心从传统业务转向AI基础设施,已获得大量相关订单。同时,思科最新财报显示净利润显著增长,为转型提供支持。此举被视为应对AI竞争的关键调整,旨在优化资源并抢占未来市场核心位置。
日本味之素公司从味精生产商转型为AI关键材料供应商,其生产的ABF膜是高端AI芯片封装必需绝缘材料,全球市占率超95%。随着AI芯片需求爆发,ABF供需缺口持续扩大。因该材料成本占比极低,味之素拥有强大定价权,该业务已成为公司利润的核心增长点。
GPT-5 5在全球首个地狱级编程基准ProgramBench上实现零突破。该基准要求仅根据可执行文件和功能描述从零重建程序,此前所有AI模型通过率为零。GPT-5 5在最高推理模式下成功完成模拟“数字雨”的cmatrix任务,并通过全部行为测试,表现显著优于竞争对手,且在不同推理级别采用了C与Python两种实现策略。这一突破显示其推理能。
热门专题
热门推荐
本文介绍了2026年主流的USDT交易软件,重点分析了币安、欧易和火币三大平台的特点与优势。内容涵盖平台安全性、交易功能、用户体验及费用结构,旨在为不同需求的用户提供选择参考。文中强调选择平台时应综合考虑资产安全、操作便捷性和交易成本,并提醒注意风险管理与合规操作。
本文介绍了USDT交易的基本概念与主流平台选择。USDT作为稳定币,其交易主要通过加密货币交易所进行。选择平台时需综合考虑安全性、流动性、手续费和用户体验。文中列举了当前市场认可度较高的几类交易平台,并提醒用户注意资产安全与合规操作,建议根据自身需求谨慎选择。
哥本哈根大学计算机科学系于2026年3月发布了一项具有里程碑意义的研究(论文编号arXiv:2603 12935v1),揭示了当前主流AI推荐系统可能潜藏的社会偏见风险。这项研究同时指出,一种高效且低成本的解决方案——提示工程,或许能成为破解这一难题的关键。 当您使用求职平台或新闻资讯应用时,背后的
照片模糊了、雨滴遮挡了画面、夜晚拍摄噪点过多……这些常见的图像质量问题,往往让人束手无策。传统的解决方案,就像请来一群专科医生:去模糊、去噪点、去雨滴,各有各的专长,但每个“医生”都需要海量的“临床经验”——动辄数百万张训练图片,才能达到可用的修复水平。 然而,一项由香港科技大学、哈尔滨工业大学深圳
这项由英属哥伦比亚大学(UBC)与Vector人工智能研究院联合主导的前沿研究,于2026年3月以预印本论文(arXiv:2603 12634v1)形式发布。研究团队创新性地提出了“预算感知价值树搜索”(Budget-Aware Value Tree Search,简称BA VT)框架,旨在攻克一个





