Meta押注神经网络计算机突破智能体与世界模型局限

首页

热心网友

转载

2026-05-19

想象一下传统计算机的运作模式：我们通过键盘输入指令，用鼠标点击图标，底层的操作系统则在后台默默调度处理器与内存资源。这一切看似理所当然，但一项颠覆性的技术探索正在悄然兴起——Meta AI联合阿卜杜拉国王科技大学（KAUST）的研究团队，将前沿的视频生成模型改造为一种全新的神经网络计算系统。

这标志着什么？人工智能不再仅仅是预测未来画面的工具，也不再只是操作现有软件的助手。模型本身正在演化为一个集计算、存储和输入输出功能于一体的完整计算机系统，开启了神经网络计算机的新纪元。

机器的新物种：神经网络计算机

首先需要明确几个关键概念。传统数字计算机的核心在于分工协作：中央处理器（CPU）负责运算，内存（RAM）负责临时存储，硬盘负责长期存储。程序员编写精确的指令代码，机器则严格按指令改变内部状态。

近年来兴起的AI智能体，则学习像人类一样操作外部软件系统来完成任务。它们虽然智能，但仍依赖现有的计算机和操作系统作为运行平台。另一种被称为“世界模型”的技术，擅长观察环境规律并预测后续画面变化，但它只专注于推演，并不保留真正的程序运行状态。

而这项突破性研究提出的“神经网络计算机”（Neural Computer, NC），旨在打破这种软硬件分离的传统架构。

其核心思想是利用一套庞大的数学权重（即神经网络参数），统一实现计算、存储和输入输出功能。具体而言，当用户敲击键盘或移动鼠标时，模型会“吸收”当前的屏幕像素和用户操作动作，并在内部更新一个“隐式状态”。这个状态既充当系统的工作内存，也包含了当前任务的上下文信息。随后，模型直接根据更新后的状态，“渲染”出下一帧的屏幕画面。

研究团队的终极目标是打造“完全神经网络计算机”（Completely Neural Computer, CNC）。这将是一个成熟的通用计算载体，具备稳定的程序执行能力，支持明确的编程改造，并且学到的技能可以长期复用。

作为迈向这一宏伟目标的第一步，研究人员选择了性能强大的Wan2.1视频生成模型作为基础，开发了针对命令行界面和图形用户界面的早期原型系统。

这个原型展示了一个极具潜力的演进方向：未来的用户可能不再需要面对冰冷的硬件组件，而是与一个能在内部融合多种功能的新型计算载体进行交互。

将这种新型机器与现有系统生态对比，差异非常明显：常规电脑依赖明确的程序指令；AI智能体围绕具体任务运作；世界模型聚焦环境动态预测；而神经网络计算机则是围绕“运行时状态”构建的，它将安装的能力和运行状态都固化在了模型内部。

命令行界面的像素级精准测试

为了验证技术可行性，研究团队选取了当前最先进的视频生成模型作为底层平台，并集成了专门的动作模块，分别在命令行界面和图形界面进行了全面测试。

他们构建了专属的训练数据集：一个包含真实世界复杂终端记录的“通用数据集”，和一个基于固定脚本生成的“纯净数据集”。视频模型的任务是根据输入的文字提示和初始屏幕画面，在内部持续更新状态，并预测、生成后续的终端操作视频。

那么，这种纯粹通过视觉生成和演进的“计算机”可靠吗？测试结果给出了肯定答案。

即使在常规的13像素字体大小下，模型生成的终端画面依然保持了极高的清晰度，能够精准还原代码高亮、光标移动、复杂进度条以及文本排版对齐。提供的文字描述越详细（例如明确说明画面中包含的颜色和文本内容），模型还原的精准度就越高。

字符级别的渲染效果同样令人印象深刻。经过数万步的训练，模型可以逐行生成完全吻合的文本内容。这种对文本结构和空间关系的精准把握，使得生成的界面兼具视觉逼真度和实际可读性。

当然，原生算术能力仍是当前架构的明显短板。面对基础数学计算，几大主流视频模型的直接生成准确率大多徘徊在个位数。但有趣的是，如果稍微调整提示词，将正确答案“隐式”地提供给系统，准确率便能立刻飙升至83%。这揭示了一个关键点：当前阶段的模型更像是一个极高保真度的“渲染器”，其内在的逻辑运算能力仍需系统级辅助或更巧妙的引导策略。

图形用户界面的精准操控挑战

相比命令行，带有窗口、按钮和图标的图形用户界面挑战更大。它要求模型具备极高精度的光标追踪能力和即时的点击反馈理解能力。

研究人员对比了三种不同质量的数据源进行训练。结果非常明确：仅使用110小时的“目标导向”数据（即包含明确操作意图的数据），其训练效果就彻底超越了上千小时的“随意操作”数据。这说明，明确的动作意图和可预测的状态切换是神经网络学习图形界面操作逻辑的核心要素。

光标控制是图形界面的灵魂。实验发现，如果单纯让模型学习光标的坐标位置，其预测准确率甚至不到10%。即使加入复杂的特征转换，准确率也勉强突破13%。然而，当研究人员直接将光标的“视觉遮罩”（即标注了光标位置的参考画面）作为额外信息输入模型后，精准度奇迹般地达到了98.7%。这证明了“显式的视觉监督”至关重要，它让模型真正将光标视为一个需要被理解和追踪的视觉实体。

那么，模型是如何接收键盘和鼠标动作指令的呢？研究设计了四种不同深度的信息注入方式。数据印证了“深度注入”的绝对优势——将动作信息更深层地融合到模型内部，能在画面一致性和动作响应上取得最佳表现。无论是原始的按键流，还是打包好的抽象动作指令，深层注入都起到了决定性作用。

迈向完全神经计算机的未来

必须清醒认识到，现阶段的神经计算机仍然只是一个初级原型。它出色地证明了神经网络可以处理输入输出的精准对齐，实现短周期任务控制，并能够渲染和执行基本的工作流程。

然而，距离稳定地复用旧程序、进行复杂的符号计算以及长期运行不出错，还有很长的路要走。

尽管如此，它与现有系统生态的本质区别恰恰预示了其巨大的发展潜力。当今的计算机依赖严格且脆弱的代码指令，稍有偏差就可能导致系统崩溃。而神经计算机基于海量的、多维的数值表示，天生对噪音和不确定性具备极强的鲁棒性，并且能够自然地处理视觉、语言、声音等多模态信息。

可以预见，一旦跨越了通用编程和状态持久化这两大核心门槛，我们与机器交互的方式将被彻底重塑。用户输入的操作轨迹、屏幕截图，甚至随口说出的语音指令，都可能直接转化为重塑计算机内部结构的“可执行代码”。未来的计算设备或许不再需要层层复杂的软硬件外壳，那个不断学习、持续演化的AI大脑本身，就是一台专属于你的、具有生命力的智能计算机。

来源:https://www.51cto.com/article/840801.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：00后如何用AI两天赚20万小红书爆款副业案例拆解下一篇：阿里新模型登顶权威评测榜单继HappyHorse后再创佳绩