脑机接口领域近期似乎进入了相对平静的阶段,但一项最新的突破打破了这一沉寂。
提到脑机接口,大多数人第一时间想到的可能是马斯克的Neuralink。不过,这里需要先明确:脑机接口实际上存在两条技术路径——侵入式与非侵入式。简单来说,侵入式需要开颅手术植入电极,而非侵入式则完全无需手术。
侵入式路线最典型的代表就是Neuralink。它直接将微电极阵列插入大脑皮层,能够获取极高的信号质量,解码准确率已超过90%。到2025至2026年,已有数位瘫痪患者成功植入设备,实现用意念操控电脑。今年3月,国内也有侵入式脑机接口产品获得上市批准。但代价显而易见——手术本身即为门槛,能接受的人群非常有限。
非侵入式路线则温和许多,仅需通过头皮外部的传感器采集大脑活动,无需开刀。安全性高,理论上可大规模推广。然而,问题在于信号穿过颅骨和脑脊液后衰减严重,空间分辨率远不如皮层内的电极。由于采集到的信号存在“先天不足”,解码能力一直较弱,目前仍基本处于难以实用的状态。
但这一次,Meta实现了非侵入式脑–文本解码器研究的重大突破:Brain2Qwerty v2。
顺便一提,Meta去年发布的Brain2Qwerty v1版本,当时就登上了Nature Neuroscience。

论文链接(v1):https://www.nature.com/articles/s41593-026-02303-2
Brain2Qwerty v2是目前性能最高的端到端流程,能够从原始脑信号中实时解码句子。它已超越字符级解码层面,可以直接解码单词和语义,从而极大提升整体沟通的准确性。
v1在2025年发布时,核心能力是从MEG脑磁信号中逐字解码打字内容,最佳成绩的字符错误率(CER)约32%。
v2则改变了解码的粒度。它不再一个字一个字地拼凑,而是一步到位输出完整句子。根据Meta公布的数据,9名被试的平均单词准确率达到61%,表现最好的被试达到了78%,其中超过一半的句子解码偏差控制在一个单词以内。
论文链接(v2):https://ai.meta.com/research/publications/accurate-decoding-of-natural-sentences-from-non-invasive-brain-recordings/
技术架构
Meta研究团队此次发布的Brain2Qwerty v2,是目前性能最高的端到端非侵入式脑信号解码系统。它能够从连续的脑活动中实时解码完整句子,准确率已接近此前只有依赖开颅植入脑机接口才能达到的水平。
为加速神经科学研究,团队已将Brain2Qwerty v1和v2的全部训练代码开源。同时,合作方——西班牙巴斯克认知、大脑与语言中心(BCBL)——也同步开放了v1的数据集。
开源链接:https://github.com/facebookresearch/brain2qwerty
数据集链接:https://huggingface.co/datasets/bcbl190626/SpanishBCBL
博客链接:https://ai.meta.com/blog/brain2qwerty-brain-ai-human-communication/
可以确定的是,这项研究有望真正改善数百万因脑损伤而失去交流能力患者的生活。此前,立体定向脑电图(Stereo-EEG,SEEG)和皮层脑电图(ECoG)等侵入式技术已证明,通过神经假体采集脑信号并结合AI解码,能恢复患者语言交流能力。然而,这类方案需要脑部手术,难以大规模推广。相比之下,非侵入式方案恰恰有望填补这一空白。
在Brain2Qwerty v2的训练中,研究团队收集了9名志愿者约22,000句话的输入数据。每位参与者佩戴脑磁图(MEG)设备,在主动键盘输入过程中连续记录了大约10小时的脑活动。
与传统依赖人工设计神经事件检测流程的方法不同,Brain2Qwerty v2采用端到端深度学习框架,直接从原始脑信号中学习并完成文本解码。
Brain2Qwerty v1的核心思路是:根据在BCBL采集的MEG脑活动模式预测键盘敲击(keystrokes)。但这一方法存在关键限制——它依赖每一次按键的精确时间,因而无法实现实时解码。Brain2Qwerty v2突破了这一限制,可以直接从连续的脑活动信号中生成完整句子。
新模型由三个层级模块构成,协同提升对“字母—单词—句子”的解码能力:
- MEG信号首先输入Conformer模块(用于字符级检测)
- 随后进入Aligner(用于构建词级嵌入)
- 最后由大语言模型(LLM)重建完整句子
整条流水线分为Brain Encoder和NeuroLLM两块。
Brain Encoder:负责将原始MEG波形压缩为字符级神经特征序列。底层用BrainModule做空间通道融合(Fourier编码传感器坐标 → learnable映射到270个虚拟通道 → per-subject affine补偿个体差异),中层用4层扩张卷积(hidden 1,500)提取特征并做4倍时间下采样,顶层用4层Conformer(dim 1,024,4 heads)建模长程时序依赖。整体以CTC loss做字符级监督,在下采样后和Conformer后各挂一个CTC head联合训练,确保浅层也能获得有效梯度。
研究团队还专门将大语言模型针对神经数据进行了微调,使模型能够利用语言的语义上下文,在噪声较大的脑信号与连贯自然语言之间建立联系,从而显著提升解码质量。
NeuroLLM:在Encoder输出之上接入Qwen3-4B(LoRA rank 128),将神经特征转化为自然语言句子。连接方式是:用CTC输出中的空格位置将Conformer特征切分为词级片段,各自mean-pool后过MLP得到「神经词嵌入」;训练时用SigLIP对比损失(Hard DTW对齐 + sigmoid BCE)将其拉向LLM词嵌入空间。推理时LLM同时接收CTC解码文本和MEG嵌入两路输入(训练中对两路各做10%随机置零,增强鲁棒性),beam search(beam 16)生成最终句子。
此外,研究人员还引入了AI Agent,对整个解码流程进行自动探索和优化;最终采用的训练配置,则是由工程师人工筛选和确认的。
超参数搜索由3个独立的AI coding agent(Cursor + Claude Opus 4.6驱动)并发执行。每个agent分配一个git worktree,可以读写代码和提交SLURM训练任务。每agent跑10轮,每轮正好50个训练job,总计1,500次实验。agent之间严格隔离,只能看到自己分支的结果。工程师从三个agent的最终配置中手动选择最优的一个。
最终结果显示,Brain2Qwerty v2已经能够从高度噪声的脑信号中恢复出语义连贯的完整句子。
模型平均单词准确率达到61%,相比此前其他非侵入式脑信号解码方法约8%的单词准确率,实现了大幅提升。对于表现最佳的一位参与者,单词准确率更是达到了78%;其中超过一半的句子在解码时仅出现1个单词或更少的错误。
仍有挑战
在真正应用到临床之前,这个方案还面临两个主要挑战:
1. 解码精度仍不足以支持日常使用:当前模型依然存在不少单词级或字符级错误,很难直接用于实际沟通场景。
研究团队还发现,模型的解码准确率会随着训练数据规模增加而呈近似对数线性(log-linear)增长。换句话说,目前与侵入式脑机接口之间的性能差距,未来或许仅仅通过持续扩大训练数据规模就能进一步缩小,而不需要依赖新的模型架构。
2. 设备限制比较大:本研究使用的MEG系统体积庞大、成本高昂,普通患者很难接触到。
当前实验用的MEG设备,体积能占满一整间屋子,依赖SQUID和液氦冷却,运行环境还得做磁屏蔽。这套系统造价几百万美元,离床旁使用都还有距离,更别谈日常佩戴了。新一代基于OPM的便携MEG正在研发中,有望把尺寸压缩到头盔级别,不过目前还处在早期阶段。
团队表示,希望通过开放研究的方式,加快人类对神经系统疾病的识别、诊断与治疗,让神经科学的发展速度不再受限于各自封闭的研究体系。
