阮翀首秀详解40B视觉语言动作模型，赋能自动驾驶闭环落地

时间：2026-04-26 14:58

阮翀首秀详解40B视觉语言动作模型，赋能自动驾驶闭环落地阮翀加盟元戎启行后的首次公开亮相，就带来了一份重磅“见面礼”——一套由其主导研发、参数规模达400亿的视觉语言动作模型。这套模型的设计思路非常清晰，采用了模块化的架构，可以清晰地划分为视觉理解、语言交互与动作执行三大核心组件。这种设计带来的直

阮翀首秀详解40B视觉语言动作模型，赋能自动驾驶闭环落地

阮翀加盟元戎启行后的首次公开亮相，就带来了一份重磅“见面礼”——一套由其主导研发、参数规模达400亿的视觉语言动作模型。这套模型的设计思路非常清晰，采用了模块化的架构，可以清晰地划分为视觉理解、语言交互与动作执行三大核心组件。这种设计带来的直接好处，就是显著提升了整个自动驾驶系统的研发效率。

阮翀首秀详解40B视觉语言动作模型，赋能自动驾驶闭环落地

那么，这套基座模型具体是如何加速技术迭代的呢？阮翀用一个实际的研发场景为我们拆解了其中的逻辑。整个过程可以归纳为三个关键步骤：首先，通过端到端的训练过程，模型的能力短板会被直接暴露出来，研发团队因此能够快速、精准地定位到数据覆盖的盲区。其次，依托云端构建的高保真虚拟驾驶环境，可以对采集到的数据质量进行系统性评估，这一步能大幅压缩后续的模型优化周期。最后，这套方案还支持对AI的驾驶行为进行毫秒级的实时监测与动态纠偏，从而实现了策略输出与物理执行的紧密耦合。可以说，这是一个从发现问题、评估问题到解决问题的完整闭环。

在随后的圆桌交流环节，阮翀进一步就物理人工智能的发展路径分享了他的见解。他指出，构建感知、决策、执行的完整闭环，是推动人工智能真正融入物理世界、与实体环境交互的核心前提。当话题转向如火如荼的大语言模型时，他坦言，虽然完全认可大模型在技术演进中的重要价值，但团队现阶段的工作重心，更聚焦于探索AI在具身智能与真实场景落地中的那些深层技术路径。毕竟，让AI“想明白”和“做得好”，是两件同样重要却挑战各异的事情。

来源：https://ai.zol.com.cn/1170/11707511.html

自动驾驶

上一篇零跑Lafa5 Ultra亮相北京车展：5秒破百、智驾升 下一篇“浪浪山小妖怪”如何戳中时代情绪打动观众？专访导演於水

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

娱乐 · 2026-07-01

一部被取消神剧背后如何捧出奥斯卡影后

提到1994年，ABC电视台曾推出过一部青春剧《我的所谓生活》（My So-Called Life），尽管仅播出一季便遭砍剧，但它没有豪门恩怨，也没有狗血反转，却让当时年仅15岁的克莱尔·丹尼斯一夜之间成为好莱坞最耀眼的新星。没错，这部经典美剧就是《我的所谓生活》。制作人马歇尔·赫斯科维茨与艾德·茨