Meta AI与KAUST合作研发神经计算机AI化身可运行硬件系统

首页

热心网友

转载

2026-05-14

这项研究来自Meta AI与沙特阿卜杜拉国王科技大学（KAUST）的联合团队，论文于2026年4月发布，编号为arXiv:2604.06425v1。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

Meta AI与KAUST联手造

研究概要：当AI不再只是工具，而是变成电脑本身

我们日常使用的电脑，其核心在于操作系统、运行程序和内存管理。而AI模型，通常只是运行在这台电脑上的一个应用程序，就像手机里的微信，它依赖底层的硬件和系统才能工作。

那么，如果反过来思考呢？能不能让AI模型自己就成为那台“电脑”？让它自己管理运算、充当内存、处理输入输出，彻底摆脱对底层操作系统的依赖？

这正是“神经计算机”（Neural Computer，简称NC）的核心构想。其更宏大的终极目标，则是“完全神经计算机”（Completely Neural Computer，简称CNC）——一台完全由神经网络构成的、通用的、可编程的计算机。

为了验证这一构想的可行性，研究团队没有停留在理论层面，而是实际构建了两个原型系统：一个模拟命令行界面，另一个模拟图形桌面界面。他们利用视频生成模型，让AI通过“生成下一帧屏幕画面”的方式，来模拟一台真实运行中的计算机。

一、为什么要造一台“神经计算机”？现有的电脑不够用吗？

现代计算机的冯·诺依曼架构已沿用数十年：处理器、内存、输入输出设备各司其职，由操作系统统一调度，执行人类编写的明确代码。

AI的出现带来了改变。例如，“AI智能体”可以操控电脑完成填表、搜索等任务，但它们本质上仍是电脑的“操控者”，真正的运算和状态管理依然由操作系统和硬件完成。

另一类“世界模型”AI，则能学习环境动态并进行预测，已应用于游戏、机器人控制等领域，表现不俗。

神经计算机的灵感，正是从这两条路径交汇而来：既然AI能理解环境、响应用户，为何不让它直接“成为”那个环境本身？将运算、记忆和输入输出全部整合进一个学习出来的系统，而非分散在不同硬件模块中。

研究团队用一个简洁的公式概括其核心逻辑：给定当前屏幕画面和用户操作，神经计算机更新内部状态，并生成下一帧画面。这个“内部状态”集运算载体、记忆容器和输入输出桥梁于一体，全部封装在一个神经网络之内。

与传统电脑、AI智能体及世界模型相比，神经计算机的定位是全新的。它旨在让学习出来的模型本身成为运行的机器，从根本上重新定义“计算机”的概念。

二、两个原型：一个模拟终端，一个模拟桌面

研究团队基于开源的Wan2.1视频生成模型，构建了两个神经计算机原型，并引入了专门的条件控制与动作处理模块。

第一个原型名为NCCLIGen，专注于模拟命令行界面。你可以将其理解为一个纯文本世界：用户输入命令，系统执行后输出结果。NCCLIGen的任务是，根据一段文字描述（指示接下来做什么）和第一帧屏幕截图，生成后续的屏幕变化视频，模拟真实终端的运行。

其训练数据来源有二：一是来自asciinema网站的公开录屏数据（CLIGen-General），约82万段视频，总时长1100小时，涵盖安装软件、过滤日志、使用Python等真实场景；二是团队使用vhs脚本工具在隔离Docker容器中生成的确定性录屏（CLIGen-Clean），约12.8万段，内容更规整，并包含约5万段专门用于测试数学运算的Python REPL操作。

第二个原型名为NCGUIWorld，专注于模拟图形桌面界面。与终端不同，桌面界面需要追踪鼠标轨迹、响应点击和键盘输入，并实时更新窗口状态。其训练数据分为三类：约1000小时的“慢速随机操作”、约400小时的“快速随机操作”，以及约110小时由Claude AI执行任务的目标导向操作录屏。所有数据均在运行XFCE4桌面系统的Ubuntu容器中采集，分辨率固定为1024×768，以15帧每秒录制，并同步记录鼠标和键盘事件。

三、命令行实验：神经计算机学会了什么？又还差什么？

训练完成后，团队从六个维度评估了NCCLIGen的能力，结果揭示了一幅充满潜力与挑战的图景。

视觉保真度：终端界面要求文字清晰可读。测试显示，在13像素字体（常见大小）下，图像重建质量的PSNR（峰值信噪比）达40.77分贝，SSIM（结构相似度）高达0.989，生成的画面与真实终端几乎难以区分。仅在6像素极小字体下才会出现明显模糊。这表明，神经计算机的视觉引擎足以应对正常终端内容。

训练进程特点：在CLIGen（Clean）数据上训练时，PSNR和SSIM指标在大约2.5万步后便趋于稳定，后续训练收益甚微。这说明结构化界面的视觉规律可被模型快速掌握，后期的瓶颈更多在于数据质量与节奏。

提示词精细度的影响：团队测试了三种详细程度不同的文字提示：高度概括的语义描述、包含关键命令和输出的普通描述、以及逐字逐色逐格的详细描述。对应的PSNR得分分别为21.90、23.63和26.89分贝。描述越具体，生成的画面越准确。道理很直观：终端界面由字符位置决定，提示词越精确，模型越清楚该在何处放置何种字符。

字符级准确率：使用OCR工具评估生成画面中的文字正确率。从训练初始的字符准确率0.03，到训练6万步后达到0.54，整行完全匹配率也从0.01提升至0.31。这意味着，生成的屏幕上超过一半的字符与真实终端一致，约三分之一的行完全正确。这不仅仅是“看起来像”，而是内容上的真实匹配。

符号运算的局限：这是测试中最具警示性的环节。团队准备了1000道基础数学题进行测试。Wan2.1基础模型正确率为0%，NCCLIGen为4%，Google的Veo3.1为2%，只有OpenAI的Sora2达到了71%。对于人类轻而易举的加减乘除，视频模型几乎束手无策。Sora2的优异表现可能源于其更强的基础模型、额外的强化学习训练或系统层面的提示策略，而非真正“学会了算数”。

重新提示的效果：既然模型本身不擅长计算，能否通过优化提示来弥补？答案是肯定的，且效果显著：在不改动模型权重、不引入强化学习的情况下，仅在提示词中加入正确答案（如“28减23，答案是5”），NCCLIGen的数学题正确率便从4%跃升至83%。这一结果说明，当前的神经计算机更像一个“高保真渲染器”——你告诉它结果，它负责将结果可视化——而非一个内部执行运算的计算引擎。重新提示的本质，是将真正的运算外包给了提示者。

四、桌面界面实验：鼠标、点击与深度融合的学问

NCGUIWorld的研究重点在于如何让神经计算机准确响应用户的鼠标和键盘操作，并在生成的画面中体现正确的界面变化。

数据质量优于数据数量：比较三种数据来源的表现发现，随机快速操作数据（约400小时）的FVD（Frechet Video Distance，越低越好）得分为48.17，随机慢速操作数据（约1000小时）降至20.37，而仅有约110小时的Claude AI目标导向操作数据，FVD进一步降至14.72，SSIM高达0.885。更小的高质量数据集反而优于更大的随机数据集，原因在于目标导向的操作具有清晰的动作语义和规律性的状态转换，模型更容易从中学习稳定的“操作-反应”映射关系。

鼠标控制的精度突破：最直觉的方法是将鼠标坐标直接输入模型，但仅靠坐标信号，模型的鼠标定位准确率只有8.7%；加入傅里叶特征编码后提升至13.5%，仍远未达标。关键突破在于“可视化光标监督”：团队将每帧画面中的鼠标箭头用SVG格式精确渲染为参考图像流，并在训练时对鼠标所在区域施加像素级监督——只要求这一小片区域画对，其余画面由模型自由发挥。这一方法将鼠标定位准确率推至98.7%。这好比考试划重点：无需全书背诵，但考点必须精通。

动作信号注入位置的影响：团队设计了四种将用户操作信息融入神经网络的方式，由浅入深依次为：在输入层调整图像编码（外部融合）、将动作与图像拼接为序列处理（上下文融合）、在网络每一层外设修正模块（残差融合）、在网络每一层内部增加专门注意力机制（内部融合）。四种方式在“动作发生后15帧内的SSIM”表现分别为0.746、0.813、0.857和0.863。融合越深，动作后的画面越准确。原因在于，用户操作引发的界面变化往往是局部且精细的，需要动作信息渗透到网络核心，而非仅在外围调整。

动作表示方式的影响相对次要：团队比较了原始事件流编码与类API语义编码。在相同的内部融合方式下，语义编码仅在SSIM上高出0.016，在FVD上低2.1。差距存在但不显著，表明在当前阶段，“将动作信号注入哪一层”比“如何表示动作”更为关键。团队最终采用更简洁、更符合系统操作语义的语义编码作为默认选项。

五、神经计算机的终极形态：完全神经计算机需要跨过哪些门槛？

从当前原型到真正通用的神经计算机，前路尚远。研究团队明确提出了“完全神经计算机”需满足的四个条件，并逐一分析了现状与目标间的差距。

图灵完备性：一台真正的计算机应能在原则上表达任意计算。理论上，循环神经网络、神经图灵机等架构在极限情况下具备图灵完备性，但具体的、精度有限的模型实例无法达到，因其“记忆”有限。现有思路是不断扩大模型的上下文窗口或参数量。对于神经计算机，关键的工程证据在于：随着有效记忆和上下文的增长，模型是否能承载更长、更复杂的执行流程，而非每次都走捷径或遗忘先前状态。

通用可编程性：一台真正的电脑应支持“安装”新能力并随时调用。对于神经计算机，这意味着用户的一系列输入能在模型内部留下持久的“例程”，供后续复用。通过组合式神经程序的思路或许能实现这一点，但目前仍是前沿探索，尚无成熟方案。

行为一致性：这是易被忽视却至关重要的属性。一台可靠的电脑，其程序行为不会因普通使用而悄然改变；只有显式的更新操作才会改变系统行为，且这种改变可追踪、可回滚。对于神经计算机，这需要在架构和训练机制上区分“执行”与“更新”：执行已有能力不应修改能力本身，而修改行为的操作必须通过明确的编程接口进行，并留下可审查的痕迹。这类似于LSTM中的门控机制思路。

发挥神经架构与编程语言优势：传统电脑使用人类专家定义的明确编程语言。神经计算机的“编程语言”是从数据中学来的——用户的自然语言指令、操作示范、交互痕迹均可成为“程序”。这种方式更灵活、更贴近人类表达，也更容易积累数据。此外，神经计算机的内部表示是连续的数值张量，可直接支持概率推理、表示学习、密集记忆检索等传统符号系统难以处理的任务，无需频繁转换数据格式。

基于这四个条件，团队提出了一个更实用的“近期可观测指标”框架：先检验三件具体的事——安装新能力后能否在后续场景中复用；相同版本的模型对相同输入是否输出一致；行为变化时能否追溯到明确的更新操作。这三个指标将抽象的理论要求转化为了可测量的工程目标。

六、神经计算机不是智能体，也不是世界模型——它想成为“那台机器本身”

研究团队在论文中花了大量篇幅厘清神经计算机与相邻概念的区别，这并非文字游戏，而是关乎其根本定位。

与AI智能体的区别在于：AI智能体站在电脑“外部”操控电脑，真正执行代码、管理进程、维护状态的仍是底层操作系统。神经计算机的目标是消除这层分离，让学习出来的模型直接承担那些原本属于操作系统的角色。

与世界模型的区别在于：世界模型是对环境动态的预测器，主要服务于规划和想象。互动式计算机界面确实是世界模型可模拟的一种环境，因此神经计算机的实现借用了其技术。但神经计算机的目标不止于预测——它要成为被预测的执行基底本身，要能承载可重用的能力、支持显式的编程更新，这是纯粹的预测模型所不具备的诉求。

可以这样理解：传统电脑是直接被人类使用的工具；在智能体时代，AI夹在人与电脑之间；世界模型扮演平行的预测层；而神经计算机的愿景，是将这些分散的角色统一进一个持久的、学习出来的运行时（Runtime），使其本身成为新型计算基础设施。

团队还提及了Jürgen Schmidhuber在2018年提出的“ONE”概念——一个单一的神经基底能逐渐吸收和复用各种学到的技能。完全神经计算机可被视为ONE在系统工程层面的具体实现路径：不是一个又一个孤立的专用模型，而是一台能安装、执行、管理各种能力的持久神经机器。

七、视频模型只是权宜之计，未来需要新架构

研究团队坦诚指出，目前使用视频生成模型实现神经计算机原型，是一种实用主义选择，而非最终答案。

视频模型的优势在于：它天然就是一个将“当前输入”映射到“下一帧输出”的系统，这与神经计算机的“更新状态-渲染输出”循环在形式上完全吻合。现有高质量视频模型（如Wan2.1）已具备强大的视觉能力，可作为原型骨干直接复用。

但视频模型的局限也很明显。最突出的是符号计算能力薄弱：对于加减乘除这类任务，大多数视频模型几乎完全失败。这并非通过扩大规模就能解决，而是架构层面的根本挑战——视频模型的核心归纳偏置是空间-时间连续性，而精确符号运算需要的是离散、组合、可验证的计算逻辑。

团队提出了一个大胆假设：未来的完全神经计算机，可能需要一种“机器原生”的神经架构，专门为离散操作、组合结构和可验证计算而设计，而非在为生物感知优化的架构上强行添加符号能力。卷积网络为视觉感知优化，Transformer受注意力机制启发——这些设计都借鉴了生物认知。但传统电脑的可靠性源于明确定义的计算原语的组合。神经计算机或许需要在神经系统中构造出类似的基础运算单元，而非让符号能力作为高维连续表示的“涌现”副产品。

这一假设目前仍是猜想，但它指向了一个具体的研究方向：与其让视频模型费力地“学会算数”，不如从架构设计出发，为神经计算机打造一套真正适合精确计算的“器官”。

说到底，这项研究在做什么，又意味着什么？

归根结底，Meta AI和KAUST的这项研究，是将一个科幻般的想法转化为可测量、可评估的工程问题。他们并未声称已造出完全神经计算机，而是诚实地展示了当前能做什么、还缺什么。

当前能实现的是：在受控条件下生成高保真的终端画面，学会基本的命令行操作规律，通过精确的光标监督实现98.7%的鼠标定位准确率，以及在提示充分时渲染出正确的数学计算结果。

尚存的差距是：真正的符号运算能力、跨任务的能力复用、行为的长期一致性，以及可审查、可回滚的更新机制。这些并非细微的技术瑕疵，而是通向“可用神经计算机”必须跨越的本质性障碍。

对普通人而言，这项研究的短期直接影响可能微乎其微——我们仍在用传统电脑和手机，AI助手也仍是“帮手”而非“基础设施”。但它提出并初步探索的问题，正在重塑我们对“计算机是什么”的理解。如果未来某一天，人与计算机的交互不再需要点菜单、记命令，而是自然地说出需求，一个神经运行时就能理解、记忆、执行并反馈——那么，支撑那一天的基础研究，或许正从这类工作中开始积累。