Meta押注神经网络计算机突破智能体与世界模型局限
想象一下传统计算机的运作模式:我们通过键盘输入指令,用鼠标点击图标,底层的操作系统则在后台默默调度处理器与内存资源。这一切看似理所当然,但一项颠覆性的技术探索正在悄然兴起——Meta AI联合阿卜杜拉国王科技大学(KAUST)的研究团队,将前沿的视频生成模型改造为一种全新的神经网络计算系统。

这标志着什么?人工智能不再仅仅是预测未来画面的工具,也不再只是操作现有软件的助手。模型本身正在演化为一个集计算、存储和输入输出功能于一体的完整计算机系统,开启了神经网络计算机的新纪元。
机器的新物种:神经网络计算机
首先需要明确几个关键概念。传统数字计算机的核心在于分工协作:中央处理器(CPU)负责运算,内存(RAM)负责临时存储,硬盘负责长期存储。程序员编写精确的指令代码,机器则严格按指令改变内部状态。
近年来兴起的AI智能体,则学习像人类一样操作外部软件系统来完成任务。它们虽然智能,但仍依赖现有的计算机和操作系统作为运行平台。另一种被称为“世界模型”的技术,擅长观察环境规律并预测后续画面变化,但它只专注于推演,并不保留真正的程序运行状态。
而这项突破性研究提出的“神经网络计算机”(Neural Computer, NC),旨在打破这种软硬件分离的传统架构。

其核心思想是利用一套庞大的数学权重(即神经网络参数),统一实现计算、存储和输入输出功能。具体而言,当用户敲击键盘或移动鼠标时,模型会“吸收”当前的屏幕像素和用户操作动作,并在内部更新一个“隐式状态”。这个状态既充当系统的工作内存,也包含了当前任务的上下文信息。随后,模型直接根据更新后的状态,“渲染”出下一帧的屏幕画面。
研究团队的终极目标是打造“完全神经网络计算机”(Completely Neural Computer, CNC)。这将是一个成熟的通用计算载体,具备稳定的程序执行能力,支持明确的编程改造,并且学到的技能可以长期复用。
作为迈向这一宏伟目标的第一步,研究人员选择了性能强大的Wan2.1视频生成模型作为基础,开发了针对命令行界面和图形用户界面的早期原型系统。

这个原型展示了一个极具潜力的演进方向:未来的用户可能不再需要面对冰冷的硬件组件,而是与一个能在内部融合多种功能的新型计算载体进行交互。

将这种新型机器与现有系统生态对比,差异非常明显:常规电脑依赖明确的程序指令;AI智能体围绕具体任务运作;世界模型聚焦环境动态预测;而神经网络计算机则是围绕“运行时状态”构建的,它将安装的能力和运行状态都固化在了模型内部。

命令行界面的像素级精准测试
为了验证技术可行性,研究团队选取了当前最先进的视频生成模型作为底层平台,并集成了专门的动作模块,分别在命令行界面和图形界面进行了全面测试。
他们构建了专属的训练数据集:一个包含真实世界复杂终端记录的“通用数据集”,和一个基于固定脚本生成的“纯净数据集”。视频模型的任务是根据输入的文字提示和初始屏幕画面,在内部持续更新状态,并预测、生成后续的终端操作视频。

那么,这种纯粹通过视觉生成和演进的“计算机”可靠吗?测试结果给出了肯定答案。
即使在常规的13像素字体大小下,模型生成的终端画面依然保持了极高的清晰度,能够精准还原代码高亮、光标移动、复杂进度条以及文本排版对齐。提供的文字描述越详细(例如明确说明画面中包含的颜色和文本内容),模型还原的精准度就越高。



字符级别的渲染效果同样令人印象深刻。经过数万步的训练,模型可以逐行生成完全吻合的文本内容。这种对文本结构和空间关系的精准把握,使得生成的界面兼具视觉逼真度和实际可读性。

当然,原生算术能力仍是当前架构的明显短板。面对基础数学计算,几大主流视频模型的直接生成准确率大多徘徊在个位数。但有趣的是,如果稍微调整提示词,将正确答案“隐式”地提供给系统,准确率便能立刻飙升至83%。这揭示了一个关键点:当前阶段的模型更像是一个极高保真度的“渲染器”,其内在的逻辑运算能力仍需系统级辅助或更巧妙的引导策略。



图形用户界面的精准操控挑战
相比命令行,带有窗口、按钮和图标的图形用户界面挑战更大。它要求模型具备极高精度的光标追踪能力和即时的点击反馈理解能力。
研究人员对比了三种不同质量的数据源进行训练。结果非常明确:仅使用110小时的“目标导向”数据(即包含明确操作意图的数据),其训练效果就彻底超越了上千小时的“随意操作”数据。这说明,明确的动作意图和可预测的状态切换是神经网络学习图形界面操作逻辑的核心要素。


光标控制是图形界面的灵魂。实验发现,如果单纯让模型学习光标的坐标位置,其预测准确率甚至不到10%。即使加入复杂的特征转换,准确率也勉强突破13%。然而,当研究人员直接将光标的“视觉遮罩”(即标注了光标位置的参考画面)作为额外信息输入模型后,精准度奇迹般地达到了98.7%。这证明了“显式的视觉监督”至关重要,它让模型真正将光标视为一个需要被理解和追踪的视觉实体。

那么,模型是如何接收键盘和鼠标动作指令的呢?研究设计了四种不同深度的信息注入方式。数据印证了“深度注入”的绝对优势——将动作信息更深层地融合到模型内部,能在画面一致性和动作响应上取得最佳表现。无论是原始的按键流,还是打包好的抽象动作指令,深层注入都起到了决定性作用。



迈向完全神经计算机的未来
必须清醒认识到,现阶段的神经计算机仍然只是一个初级原型。它出色地证明了神经网络可以处理输入输出的精准对齐,实现短周期任务控制,并能够渲染和执行基本的工作流程。
然而,距离稳定地复用旧程序、进行复杂的符号计算以及长期运行不出错,还有很长的路要走。
尽管如此,它与现有系统生态的本质区别恰恰预示了其巨大的发展潜力。当今的计算机依赖严格且脆弱的代码指令,稍有偏差就可能导致系统崩溃。而神经计算机基于海量的、多维的数值表示,天生对噪音和不确定性具备极强的鲁棒性,并且能够自然地处理视觉、语言、声音等多模态信息。
可以预见,一旦跨越了通用编程和状态持久化这两大核心门槛,我们与机器交互的方式将被彻底重塑。用户输入的操作轨迹、屏幕截图,甚至随口说出的语音指令,都可能直接转化为重塑计算机内部结构的“可执行代码”。未来的计算设备或许不再需要层层复杂的软硬件外壳,那个不断学习、持续演化的AI大脑本身,就是一台专属于你的、具有生命力的智能计算机。
相关攻略
日本上市公司Metaplanet的董事会,刚刚通过了一项足以震动市场的决议:公司计划通过增发新股,筹集高达1803亿日元(约合12亿美元)的资金。而其中近8 35亿美元,将被明确指定用于一件事——持续购买比特币(BTC)。 根据周三发布的官方公告,这次发行将新增最多5 55亿股新股。这意味着,公司的
比特币市场震荡不休,但有一类投资者的步伐却异常坚定。就在八月底,全球两家知名的“比特币财库”企业——Strategy与Metaplanet,再次联手扫货,合计投入约3 67亿美元,将3,184枚BTC收入囊中。这一举动,不仅将其总持仓推高至惊人的651,448枚,市值约726亿美元,更向市场传递了一
Meta再度启动大规模组织架构调整。公司官方宣布,将进行新一轮人员优化,预计裁员规模约为8000人,占员工总数的10%。与此同时,约6000个已开放但尚未填补的职位将被直接冻结。这一系列举措的核心目标十分明确:为公司在人工智能领域的战略性投入释放资源,并系统性提升整体运营效率与组织敏捷性。 当地时间
元宇宙的梦想,依然代价高昂。就在Meta全力押注人工智能赛道的同时,其曾被视作未来核心的元宇宙业务,财务表现依然面临巨大压力。 根据公司最新季度财报,负责虚拟现实(VR)、增强现实(AR)及智能硬件的“现实实验室”部门,第一季度营收为4 02亿美元,低于市场预期的4 888亿美元。尽管当季40 3亿
科技巨头Meta再次展开战略性收购,这次的目标直指人形机器人核心人工智能技术。据最新消息,Meta已完成对机器人AI初创公司Assisted Robot Intelligence(ARI)的全资收购。在特斯拉、谷歌、亚马逊等科技企业早已深度布局的机器人赛道中,Meta此次入局绝非简单跟风,而是瞄准了
热门专题
热门推荐
今年三月,谷歌DeepMind高级科学家Alexander Lerchner发表了一篇重磅论文,其核心结论清晰而深刻:基于算法的符号操作在结构上注定无法产生真正的意识——无论未来模型规模如何庞大、架构如何精巧,甚至是否为其配备仿生身体,这一根本性限制或许都无法被跨越。 仔细审视这一论断,它并非一个关
研究针对AI助手难以执行复杂屏幕操作的问题,构建了CUActSpot评测基准,通过代码渲染自动生成含精确坐标的多样化训练数据,并训练了一个40亿参数模型。实验表明,提升训练数据多样性比单纯扩大数据规模更能有效增强模型通用操作能力,并展现出跨任务泛化潜力。
《迷你世界》于2026年5月15日发布全新激活码,玩家可凭兑换码领取酷炫角色装扮、迷你币及稀有道具,请及时复制有效激活码前往游戏内使用。
《我的世界》于2026年5月17日发布免费兑换码EMMMyxhjVHMApsb2,可兑换游戏道具与装饰。兑换码常有时间或次数限制,请尽快使用。更多兑换码可查看官方汇总页面。





