你听说过吗?一颗2006年的Intel奔腾4 641单核处理器,居然硬生生跑起了Meta的Llama 3.2 3B大模型——虽然回答一个问题要等将近33分钟。这事儿要是搁二十年前,估计连Intel自家的工程师都得愣住。
测试平台堪称古董级别:奔腾4 641,Cedar Mill核心,3.2GHz主频,2MB二级缓存,支持超线程;搭配华硕P5WDH Deluxe主板和四条2GB DDR2-800内存,总共凑出8GB。这套配置在当年算得上高端,但放到今天,连入门级办公机都够呛。
有意思的是,团队一开始试了好几款主流本地AI模型,全都因为CPU不支持A VX2指令集而直接罢工。最后才发现,Llama 3.2有个No-A VX模式可以绕过这个限制,而且30亿参数的3B版本刚好能完整塞进那8GB内存里——再大一点就爆了。
实测中,输入问题“What's a Pentium 4?”后,CPU立刻拉满,但生成速度只有令人窒息的每秒0.21个Token。整个回答耗时约33分钟,足够泡杯茶、看完一集短剧,再回来等结果。
速度确实慢到让人崩溃,但关键在于:奔腾4真的跑通了现代大模型推理。当年设计NetBurst架构的工程师们,做梦恐怕也想不到二十年后会有这么一出。
这个测试的意义不在于实用性,而在于验证了一个极限边界:只要在No-A VX模式和足够内存的条件下,20年前的单核处理器也能完成LLM推理。换句话说,AI的门槛,比我们想象中要低得多。

