科学家打造AI通用大脑:未来愿景与实践
来源:光明日报
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
【前沿科技观察】
本报北京2月9日讯(记者晋浩天)
你可能已经用过智能助手聊天,也见识过人工智能生成的精美图像,看过机器人跳舞……但你是否想过,驱动“聊天”“画画”“运动”的,究竟是三套独立的系统,还是同一个“智能大脑”的三种功能?近日,由北京智源人工智能研究院主导的一项重要科研突破在国际学术期刊《自然》发表,为实现真正“看得清、想得通、做得稳”的通用人工智能指明了新方向。这也是我国科研机构主导的大模型原创成果首次在《自然》正刊发表。
论文主要作者、北京智源人工智能研究院理事长、北京大学教授黄铁军指出,这项研究的核心思想非常简洁:以统一架构,让AI学会“接龙”。“无论是阅读文字、欣赏图片,还是观看视频、生成动作,在我们新开发的智源Emu模型的‘眼’里,都被转换成一‘数字积木’。模型的任务,就像我们玩歌词接龙游戏那样,始终预测‘下一块积木’应该如何出现。”
“这一思路有迹可循。早在2018年,美国OpenAI公司便基于‘预测下一词’的路线训练GPT模型,并于近日推出ChatGPT,实现了语言大模型重大突破。”黄铁军团队推测,“预测下一词”的架构或许不仅适用于语言,也能拓展至多种模态,将图像、文本和视频数据在同一架构下统一训练,从而开发出“一脑多能”的多模态大模型。
团队成员介绍,此前全球范围内出现的此类模型,大多采用“专用工具组合”方式:理解语言与图片、生成图片与视频,均由各自独立的模型或工具各司其职。这类分工模式虽目的明确,但协同成本也随之增加。能否训练一个“通才”,采用统一架构处理各类数据、掌握多种技能?研究团队的Emu3模型给出了肯定答案。
Emu3正是这样一个“通才”型AI:当你给它一段文字描述时,它可以生成细节丰富、结构合理的图像;当你给它一张照片及相关问题时,它又能结合视觉信息与常识,进行精准的图像问答与理解;更进一步,它还能生成连续的视频片段——只需给出一个开头,模型便能一帧一帧地输出后续画面,甚至还能像连环画那样,为每段画面配上文字描述。
在升级版Emu3.5中,研究团队通过引入大规模长时序视频训练,使模型从“预测下一个词元”拓展到“预测下一个状态”,开始学习世界随著时间演化的统计规律,为迈向更完整的“世界模型”探索了可行路径。
黄铁军表示,这意味着,多模态模型分离的“理解”和“生成”两类能力,首次在同一种简单而统一的建模范式下被系统性打通。
这把“统一建模”的钥匙,其潜力并不止于多模态内容生成。它可以延伸到物理世界,为机器人操作提供可行的动作序列设想,还可以解读脑信号等各种复杂数据。黄铁军介绍,“预测下一个”这一看似朴素的思想,本身蕴含着构建通用智能的基因。《自然》编辑评价,智源Emu3这一成果对构建可扩展、统一的多模态智能系统具有重要意义。
黄铁军表示,这项成果证实了生成式人工智能技术路线的普适性:人类已经掌握了让不同智能在同一体系内涌现的方式,正稳步走上通用人工智能持续演进的道路。
相关攻略
3月27日,“人形机器人AI软硬件生态融合工作组工作推进会暨首届具身智脑技术生态大会”上海大零号湾科创大厦举行。作为本次大会的核心亮点,灵境智源集中发布四项自主研发的具身智脑核心技术成果,覆
位于剑川路930号的4层小楼里入驻的是上海人工智能研究院,记者每次走访它都会有惊喜。两年前,他们孵化的一家机器人企业一年被资本“追投”7轮,如今他们又培养出两家在具身智能赛道熠熠闪光的明星企业——灵
北京商报讯(记者 陶凤 王天逸)2月11日,曦望Sunrise宣布,近期完成了与北京智源人工智能研究院众智 FlagOS 体系中 FlagTree 统一编译器及 FlagGems 算子库的适配与优化
来源:光明日报【瞧!我们的前沿科技】本报北京2月9日电(记者晋浩天)你也许用过智能助手聊天,也见过人工智能(AI)生成精美图像,看过机器人跳舞……但你是否想过,驱动“聊天”“画画”“运动”的,究竟是
本报讯(记者雷嘉)近日,北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》,预计2月12日纸质版正式刊发,这是我国科研机构主导的大
热门专题
热门推荐
猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆
据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels
本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2
Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向
3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长





