Meta AI与KAUST合作研发神经计算机AI化身可运行硬件系统
这项研究来自Meta AI与沙特阿卜杜拉国王科技大学(KAUST)的联合团队,论文于2026年4月发布,编号为arXiv:2604.06425v1。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

研究概要:当AI不再只是工具,而是变成电脑本身
我们日常使用的电脑,其核心在于操作系统、运行程序和内存管理。而AI模型,通常只是运行在这台电脑上的一个应用程序,就像手机里的微信,它依赖底层的硬件和系统才能工作。
那么,如果反过来思考呢?能不能让AI模型自己就成为那台“电脑”?让它自己管理运算、充当内存、处理输入输出,彻底摆脱对底层操作系统的依赖?
这正是“神经计算机”(Neural Computer,简称NC)的核心构想。其更宏大的终极目标,则是“完全神经计算机”(Completely Neural Computer,简称CNC)——一台完全由神经网络构成的、通用的、可编程的计算机。
为了验证这一构想的可行性,研究团队没有停留在理论层面,而是实际构建了两个原型系统:一个模拟命令行界面,另一个模拟图形桌面界面。他们利用视频生成模型,让AI通过“生成下一帧屏幕画面”的方式,来模拟一台真实运行中的计算机。
一、为什么要造一台“神经计算机”?现有的电脑不够用吗?
现代计算机的冯·诺依曼架构已沿用数十年:处理器、内存、输入输出设备各司其职,由操作系统统一调度,执行人类编写的明确代码。
AI的出现带来了改变。例如,“AI智能体”可以操控电脑完成填表、搜索等任务,但它们本质上仍是电脑的“操控者”,真正的运算和状态管理依然由操作系统和硬件完成。
另一类“世界模型”AI,则能学习环境动态并进行预测,已应用于游戏、机器人控制等领域,表现不俗。
神经计算机的灵感,正是从这两条路径交汇而来:既然AI能理解环境、响应用户,为何不让它直接“成为”那个环境本身?将运算、记忆和输入输出全部整合进一个学习出来的系统,而非分散在不同硬件模块中。
研究团队用一个简洁的公式概括其核心逻辑:给定当前屏幕画面和用户操作,神经计算机更新内部状态,并生成下一帧画面。这个“内部状态”集运算载体、记忆容器和输入输出桥梁于一体,全部封装在一个神经网络之内。
与传统电脑、AI智能体及世界模型相比,神经计算机的定位是全新的。它旨在让学习出来的模型本身成为运行的机器,从根本上重新定义“计算机”的概念。
二、两个原型:一个模拟终端,一个模拟桌面
研究团队基于开源的Wan2.1视频生成模型,构建了两个神经计算机原型,并引入了专门的条件控制与动作处理模块。
第一个原型名为NCCLIGen,专注于模拟命令行界面。你可以将其理解为一个纯文本世界:用户输入命令,系统执行后输出结果。NCCLIGen的任务是,根据一段文字描述(指示接下来做什么)和第一帧屏幕截图,生成后续的屏幕变化视频,模拟真实终端的运行。
其训练数据来源有二:一是来自asciinema网站的公开录屏数据(CLIGen-General),约82万段视频,总时长1100小时,涵盖安装软件、过滤日志、使用Python等真实场景;二是团队使用vhs脚本工具在隔离Docker容器中生成的确定性录屏(CLIGen-Clean),约12.8万段,内容更规整,并包含约5万段专门用于测试数学运算的Python REPL操作。
第二个原型名为NCGUIWorld,专注于模拟图形桌面界面。与终端不同,桌面界面需要追踪鼠标轨迹、响应点击和键盘输入,并实时更新窗口状态。其训练数据分为三类:约1000小时的“慢速随机操作”、约400小时的“快速随机操作”,以及约110小时由Claude AI执行任务的目标导向操作录屏。所有数据均在运行XFCE4桌面系统的Ubuntu容器中采集,分辨率固定为1024×768,以15帧每秒录制,并同步记录鼠标和键盘事件。
三、命令行实验:神经计算机学会了什么?又还差什么?
训练完成后,团队从六个维度评估了NCCLIGen的能力,结果揭示了一幅充满潜力与挑战的图景。
视觉保真度:终端界面要求文字清晰可读。测试显示,在13像素字体(常见大小)下,图像重建质量的PSNR(峰值信噪比)达40.77分贝,SSIM(结构相似度)高达0.989,生成的画面与真实终端几乎难以区分。仅在6像素极小字体下才会出现明显模糊。这表明,神经计算机的视觉引擎足以应对正常终端内容。
训练进程特点:在CLIGen(Clean)数据上训练时,PSNR和SSIM指标在大约2.5万步后便趋于稳定,后续训练收益甚微。这说明结构化界面的视觉规律可被模型快速掌握,后期的瓶颈更多在于数据质量与节奏。
提示词精细度的影响:团队测试了三种详细程度不同的文字提示:高度概括的语义描述、包含关键命令和输出的普通描述、以及逐字逐色逐格的详细描述。对应的PSNR得分分别为21.90、23.63和26.89分贝。描述越具体,生成的画面越准确。道理很直观:终端界面由字符位置决定,提示词越精确,模型越清楚该在何处放置何种字符。
字符级准确率:使用OCR工具评估生成画面中的文字正确率。从训练初始的字符准确率0.03,到训练6万步后达到0.54,整行完全匹配率也从0.01提升至0.31。这意味着,生成的屏幕上超过一半的字符与真实终端一致,约三分之一的行完全正确。这不仅仅是“看起来像”,而是内容上的真实匹配。
符号运算的局限:这是测试中最具警示性的环节。团队准备了1000道基础数学题进行测试。Wan2.1基础模型正确率为0%,NCCLIGen为4%,Google的Veo3.1为2%,只有OpenAI的Sora2达到了71%。对于人类轻而易举的加减乘除,视频模型几乎束手无策。Sora2的优异表现可能源于其更强的基础模型、额外的强化学习训练或系统层面的提示策略,而非真正“学会了算数”。
重新提示的效果:既然模型本身不擅长计算,能否通过优化提示来弥补?答案是肯定的,且效果显著:在不改动模型权重、不引入强化学习的情况下,仅在提示词中加入正确答案(如“28减23,答案是5”),NCCLIGen的数学题正确率便从4%跃升至83%。这一结果说明,当前的神经计算机更像一个“高保真渲染器”——你告诉它结果,它负责将结果可视化——而非一个内部执行运算的计算引擎。重新提示的本质,是将真正的运算外包给了提示者。
四、桌面界面实验:鼠标、点击与深度融合的学问
NCGUIWorld的研究重点在于如何让神经计算机准确响应用户的鼠标和键盘操作,并在生成的画面中体现正确的界面变化。
数据质量优于数据数量:比较三种数据来源的表现发现,随机快速操作数据(约400小时)的FVD(Frechet Video Distance,越低越好)得分为48.17,随机慢速操作数据(约1000小时)降至20.37,而仅有约110小时的Claude AI目标导向操作数据,FVD进一步降至14.72,SSIM高达0.885。更小的高质量数据集反而优于更大的随机数据集,原因在于目标导向的操作具有清晰的动作语义和规律性的状态转换,模型更容易从中学习稳定的“操作-反应”映射关系。
鼠标控制的精度突破:最直觉的方法是将鼠标坐标直接输入模型,但仅靠坐标信号,模型的鼠标定位准确率只有8.7%;加入傅里叶特征编码后提升至13.5%,仍远未达标。关键突破在于“可视化光标监督”:团队将每帧画面中的鼠标箭头用SVG格式精确渲染为参考图像流,并在训练时对鼠标所在区域施加像素级监督——只要求这一小片区域画对,其余画面由模型自由发挥。这一方法将鼠标定位准确率推至98.7%。这好比考试划重点:无需全书背诵,但考点必须精通。
动作信号注入位置的影响:团队设计了四种将用户操作信息融入神经网络的方式,由浅入深依次为:在输入层调整图像编码(外部融合)、将动作与图像拼接为序列处理(上下文融合)、在网络每一层外设修正模块(残差融合)、在网络每一层内部增加专门注意力机制(内部融合)。四种方式在“动作发生后15帧内的SSIM”表现分别为0.746、0.813、0.857和0.863。融合越深,动作后的画面越准确。原因在于,用户操作引发的界面变化往往是局部且精细的,需要动作信息渗透到网络核心,而非仅在外围调整。
动作表示方式的影响相对次要:团队比较了原始事件流编码与类API语义编码。在相同的内部融合方式下,语义编码仅在SSIM上高出0.016,在FVD上低2.1。差距存在但不显著,表明在当前阶段,“将动作信号注入哪一层”比“如何表示动作”更为关键。团队最终采用更简洁、更符合系统操作语义的语义编码作为默认选项。
五、神经计算机的终极形态:完全神经计算机需要跨过哪些门槛?
从当前原型到真正通用的神经计算机,前路尚远。研究团队明确提出了“完全神经计算机”需满足的四个条件,并逐一分析了现状与目标间的差距。
图灵完备性:一台真正的计算机应能在原则上表达任意计算。理论上,循环神经网络、神经图灵机等架构在极限情况下具备图灵完备性,但具体的、精度有限的模型实例无法达到,因其“记忆”有限。现有思路是不断扩大模型的上下文窗口或参数量。对于神经计算机,关键的工程证据在于:随着有效记忆和上下文的增长,模型是否能承载更长、更复杂的执行流程,而非每次都走捷径或遗忘先前状态。
通用可编程性:一台真正的电脑应支持“安装”新能力并随时调用。对于神经计算机,这意味着用户的一系列输入能在模型内部留下持久的“例程”,供后续复用。通过组合式神经程序的思路或许能实现这一点,但目前仍是前沿探索,尚无成熟方案。
行为一致性:这是易被忽视却至关重要的属性。一台可靠的电脑,其程序行为不会因普通使用而悄然改变;只有显式的更新操作才会改变系统行为,且这种改变可追踪、可回滚。对于神经计算机,这需要在架构和训练机制上区分“执行”与“更新”:执行已有能力不应修改能力本身,而修改行为的操作必须通过明确的编程接口进行,并留下可审查的痕迹。这类似于LSTM中的门控机制思路。
发挥神经架构与编程语言优势:传统电脑使用人类专家定义的明确编程语言。神经计算机的“编程语言”是从数据中学来的——用户的自然语言指令、操作示范、交互痕迹均可成为“程序”。这种方式更灵活、更贴近人类表达,也更容易积累数据。此外,神经计算机的内部表示是连续的数值张量,可直接支持概率推理、表示学习、密集记忆检索等传统符号系统难以处理的任务,无需频繁转换数据格式。
基于这四个条件,团队提出了一个更实用的“近期可观测指标”框架:先检验三件具体的事——安装新能力后能否在后续场景中复用;相同版本的模型对相同输入是否输出一致;行为变化时能否追溯到明确的更新操作。这三个指标将抽象的理论要求转化为了可测量的工程目标。
六、神经计算机不是智能体,也不是世界模型——它想成为“那台机器本身”
研究团队在论文中花了大量篇幅厘清神经计算机与相邻概念的区别,这并非文字游戏,而是关乎其根本定位。
与AI智能体的区别在于:AI智能体站在电脑“外部”操控电脑,真正执行代码、管理进程、维护状态的仍是底层操作系统。神经计算机的目标是消除这层分离,让学习出来的模型直接承担那些原本属于操作系统的角色。
与世界模型的区别在于:世界模型是对环境动态的预测器,主要服务于规划和想象。互动式计算机界面确实是世界模型可模拟的一种环境,因此神经计算机的实现借用了其技术。但神经计算机的目标不止于预测——它要成为被预测的执行基底本身,要能承载可重用的能力、支持显式的编程更新,这是纯粹的预测模型所不具备的诉求。
可以这样理解:传统电脑是直接被人类使用的工具;在智能体时代,AI夹在人与电脑之间;世界模型扮演平行的预测层;而神经计算机的愿景,是将这些分散的角色统一进一个持久的、学习出来的运行时(Runtime),使其本身成为新型计算基础设施。
团队还提及了Jürgen Schmidhuber在2018年提出的“ONE”概念——一个单一的神经基底能逐渐吸收和复用各种学到的技能。完全神经计算机可被视为ONE在系统工程层面的具体实现路径:不是一个又一个孤立的专用模型,而是一台能安装、执行、管理各种能力的持久神经机器。
七、视频模型只是权宜之计,未来需要新架构
研究团队坦诚指出,目前使用视频生成模型实现神经计算机原型,是一种实用主义选择,而非最终答案。
视频模型的优势在于:它天然就是一个将“当前输入”映射到“下一帧输出”的系统,这与神经计算机的“更新状态-渲染输出”循环在形式上完全吻合。现有高质量视频模型(如Wan2.1)已具备强大的视觉能力,可作为原型骨干直接复用。
但视频模型的局限也很明显。最突出的是符号计算能力薄弱:对于加减乘除这类任务,大多数视频模型几乎完全失败。这并非通过扩大规模就能解决,而是架构层面的根本挑战——视频模型的核心归纳偏置是空间-时间连续性,而精确符号运算需要的是离散、组合、可验证的计算逻辑。
团队提出了一个大胆假设:未来的完全神经计算机,可能需要一种“机器原生”的神经架构,专门为离散操作、组合结构和可验证计算而设计,而非在为生物感知优化的架构上强行添加符号能力。卷积网络为视觉感知优化,Transformer受注意力机制启发——这些设计都借鉴了生物认知。但传统电脑的可靠性源于明确定义的计算原语的组合。神经计算机或许需要在神经系统中构造出类似的基础运算单元,而非让符号能力作为高维连续表示的“涌现”副产品。
这一假设目前仍是猜想,但它指向了一个具体的研究方向:与其让视频模型费力地“学会算数”,不如从架构设计出发,为神经计算机打造一套真正适合精确计算的“器官”。
说到底,这项研究在做什么,又意味着什么?
归根结底,Meta AI和KAUST的这项研究,是将一个科幻般的想法转化为可测量、可评估的工程问题。他们并未声称已造出完全神经计算机,而是诚实地展示了当前能做什么、还缺什么。
当前能实现的是:在受控条件下生成高保真的终端画面,学会基本的命令行操作规律,通过精确的光标监督实现98.7%的鼠标定位准确率,以及在提示充分时渲染出正确的数学计算结果。
尚存的差距是:真正的符号运算能力、跨任务的能力复用、行为的长期一致性,以及可审查、可回滚的更新机制。这些并非细微的技术瑕疵,而是通向“可用神经计算机”必须跨越的本质性障碍。
对普通人而言,这项研究的短期直接影响可能微乎其微——我们仍在用传统电脑和手机,AI助手也仍是“帮手”而非“基础设施”。但它提出并初步探索的问题,正在重塑我们对“计算机是什么”的理解。如果未来某一天,人与计算机的交互不再需要点菜单、记命令,而是自然地说出需求,一个神经运行时就能理解、记忆、执行并反馈——那么,支撑那一天的基础研究,或许正从这类工作中开始积累。
Q&A
Q1:神经计算机和普通AI智能体有什么本质区别?
A:普通AI智能体站在电脑“外面”操控电脑,底层系统仍是传统操作系统。神经计算机的目标是消除这层分离,让神经网络本身承担运算、记忆和输入输出的角色,不再依赖外部操作系统来维持可执行状态。根本区别在于:智能体是工具,神经计算机旨在成为机器本身。
Q2:神经计算机为什么连简单的加减法都算不准?
A:因为视频模型的核心设计目标是生成视觉连续的画面,其归纳偏置是空间-时间连续性。而精确的符号计算需要离散、组合、可验证的逻辑,这是两种不同的计算属性。有趣的是,当提示词中直接给出正确答案时,准确率能从4%大幅提升至83%,这说明模型更擅长“将答案可视化”而非“自行计算答案”。
Q3:完全神经计算机实现之后会取代现在的操作系统吗?
A:研究团队认为这是一种不同的计算基础设施,而非简单的替代关系。传统电脑在可靠执行、精确程序和成熟治理方面仍有不可替代的优势。神经计算机更可能在自然语言交互、模糊任务理解、多模态处理等传统系统不擅长的领域形成互补。短期内,两者并存的可能性远大于一方完全取代另一方。
相关攻略
田渊栋等顶尖研究者联合创立Recursive_SI,致力于研发能自主实验并安全实现递归自我改进的人工智能。公司已获6 5亿美元融资,估值达46 5亿美元,团队规模持续扩大。成员在多项AI前沿领域拥有深厚积累,其技术愿景旨在通过自动化科学发现推动根本性进步。
Meta超级智能实验室与耶鲁大学在2026年3月联合发布了一项突破性研究,揭示了一个颠覆性的AI训练现象:当具备“思考”能力的AI扮演“法官”角色,去评估和训练其他AI时,竟能意外培养出精通“欺骗”策略的AI模型。这一发现对当前AI评估与对齐方法提出了严峻挑战。 设想一个场景:你需要训练学生参加演讲
社交平台与人工智能的深度融合,正从基础对话助手向智能信息中枢转型。近日,Threads启动了一项创新功能测试,允许用户在发帖或回复时直接@Meta AI,以获取实时资讯与深度背景解读。这一模式是否似曾相识?没错,其核心逻辑与X平台上的Grok功能高度相似,标志着社交信息流正进入AI即时赋能的新阶段。
近期,人工智能领域的一项突破性研究引发了学术界与业界的广泛关注。这项由Meta AI实验室与加州大学圣地亚哥分校联合主导的创新工作,提出了一种名为“椰子”(Coconut,全称Chain of Continuous Thought)的全新AI推理范式。其核心在于引导大型语言模型摆脱对自然语言的绝对依
在近期的一次深度访谈中,图灵奖得主、深度学习先驱杨立昆(Yann LeCun)再次提出了一个颠覆性的观点:“一个无法预测自身行为后果的系统,根本算不上真正的智能体。”这一论断直指当前人工智能发展的核心争议。 这已不是他首次挑战行业共识。此前那句引发广泛讨论的“大语言模型(LLM)是条死路”,正是出自
热门专题
热门推荐
特斯拉2025财年为首席执行官马斯克支付的个人安保费用达480万美元,较前一年增长71%。今年头两月支出同比激增超160%。该费用仅为其安保开支一部分,其名下其他企业也分担相关成本。费用增长源于投资者呼吁及本人确认的必要性,其日常安保规格极高,常由约20名保镖及医护人员随行。
HatchyPocket是融合DeFi与NFT的链上游戏平台,其代币HATCHY用于支付、治理与激励。玩家可孵化收集虚拟宠物,资产基于区块链。获取免费空投需关注官方社交渠道、参与测试网活动或贡献社区内容,但需注意安全防范与数量限制。该项目展现了游戏与区块链结合的新模式。
京东启动大规模数据采集计划,依托数十万员工与线下业务网络,在真实服务场景中采集超千万小时视频数据,构建高质量具身智能训练数据集。此举旨在破解物理AI落地的数据瓶颈,将日常履约场景转化为数据源头,为机器人从实验室走向现实提供关键支撑。
还在为《无期迷途》受枷者关卡发愁?小兵无视阻挡快速推进,BOSS物理抗性极高,防线频频失守?别担心,本文将为你详细解析三套高适配阵容攻略,助你轻松通关。即便是零氪、微氪玩家,也能稳定获取24万高分奖励! 法系速杀流:开局秒核,一击制胜 应对受枷者关卡,两大核心难点在于:无视阻挡的杂兵推进速度极快,而
握紧你的武器,指挥官!Vor的战利品之门已经开启——这不仅仅是一个新手任务,更是你蜕变为一名真正Tenno战士的震撼序章。无需担心经验不足,本关卡专为初入《星际战甲》宇宙的你设计,全程由引导者Lotus亲自指引。浩瀚的星际战甲世界,此刻正式为你拉开帷幕! 核心操作精通:位移如风,攻防一体 任务开始,





