47年前的6MHz电脑跑AI!纯汇编语言:3.5分钟达成100%准确率
最近,技术圈里发生了一件堪称“考古”与“前沿”碰撞的趣事。前Windows核心开发者Da ve Plummer,在一台诞生于47年前的PDP-11/44计算机上,成功运行并训练了一个Transformer模型。这台老古董的配置在今天看来近乎原始:主频仅6MHz,内存只有64KB。然而,就是在这样的硬件上,AI训练任务完成了。
这台PDP-11运行的模型被命名为ATTN-11,由开发者Damien Boureille使用PDP-11的汇编语言亲手编写。它实现了一个极为精简的单层、单头Transformer结构,参数总量仅有1216个。

模型的任务听起来很简单:输入一串数字,让它学会输出这串数字的反序结果。但千万别小看这个任务——模型必须从零开始,自主发现并掌握序列反转的内在规则。Plummer指出,这个过程恰恰捕捉了ChatGPT等现代大语言模型的工作本质:从数据中学习抽象的结构和模式。
为了在如此苛刻的硬件限制下运行,ATTN-11进行了极致的优化。前向传播的计算精度被裁剪至8位定点数,每一个CPU时钟周期都经过了精打细算,确保没有一丝一毫的浪费。
最终,在借助一块缓存板扩展能力后,Plummer让模型在大约350个训练步骤后达到了100%的准确率。从开始到完全学会,整个过程只用了大约3.5分钟。

Plummer在演示视频中生动地描述了训练过程:“一开始,模型表现得非常‘愚蠢’,损失值很高。但就在某个时刻,权重开始收敛,注意力机制突然‘发现’了那个反转的映射关系。机器仿佛跨过了一条从盲目猜测到真正认知的无形界线。”
这引出了一个核心观点:现代人工智能的本质,或许并非某种不可言说的神秘力量。它更像是“机器通过反复调整成千上万个加权连接的强度,使得下一次给出的答案比上一次的错误稍微少一点”。说到底,是一种基于数据和反馈的、持续不断的自我修正。
实验的最后,Plummer指出了一个更具现实意义的启示。当算力日益成为整个行业发展的瓶颈时,那些能够回归初心、重新专注于对计算效率和算法进行极致优化的公司,很可能在未来的AI竞争中赢得更大的优势。毕竟,历史有时会以意想不到的方式给出指引。

