游乐游手机版
首页/业界动态/文章详情

GPT之父揭秘用旧数据训练AI竟能编写Python代码

时间:2026-05-12 06:45
训练数据止于1931年的AI模型Talkie-1930-13B,不仅能生成可运行的Python代码,还能讨论其知识范围外的历史事件。研究发现,模型对越接近现代的事件越“惊讶”,且编程能力随规模扩大而提升。在基础语言和数学任务上,其表现与使用现代数据的同类模型接近。该项目由AlecRadford等人主导,旨在探索大模型能力的边界与起源。

活久见!

这听起来像科幻小说的情节:一个训练数据截止于1931年1月1日、从未“见过”计算机的AI模型,竟然写出了可运行的Python代码。

这不是虚构。模型名为Talkie-1930-13B,由AI研究员Nick Levine、多伦多大学副教授Da vid Duvenaud,以及一位重量级人物——被誉为“GPT系列之父”的Alec Radford共同打造。其训练数据严格遵守一条铁律:绝不包含1931年之后的任何文本。这意味着,它的认知世界永远定格在了1930年12月31日的午夜。

然而,魔幻的事情接连发生。研究团队发现,这个本不该知晓“罗斯福新政”的模型,却能清晰阐述其立法内容与年份。

更令人惊讶的是,当面对一道Python编程题时,这个来自过去的“思维体”,竟成功输出了正确的代码。

此事迅速引发了广泛讨论,有网友甚至已经构思好了一份“穿越提问清单”,跃跃欲试。

这一切不禁让人追问:AI的能力边界,究竟在哪里?

一个生活在1931年之前的老式儿模型

要理解这个会编程的“世纪前AI”,得先看看它的“成长经历”。Talkie是一个拥有130亿参数的模型,在2600亿个来自1931年之前的英文文本标记上训练而成。其训练素材包罗万象,从狄更斯、马克·吐温的文学作品,到爱因斯坦时代的科学论文,再到百年前的烹饪书与礼仪手册,堪称一场世纪前的知识盛宴。

选择1930年作为知识截止点并非偶然,这恰好是美国版权法中作品进入公有领域的一个时间边界。那么,Radford团队为何要打造这样一个“复古模型”?核心目的很明确:他们想探究,如果只让模型阅读1931年之前的所有英文文本,它将如何思考、对话,乃至“预测”未来。而实验结果,确实带来了几个意想不到的发现。

模型被时代发展震惊到眩晕瘫坐

第一个有趣的发现,体现在模型对历史事件的“惊讶度”曲线上。团队从《纽约时报》的“历史上的今天”栏目中提取了近5000个事件,输入给Talkie,并量化其“未预料到”的程度。

结果绘出了一条极具戏剧性的曲线:

在1930年之前的事件上,模型的惊讶值平稳无波,显然对“自家年代”的事情了然于胸。刚跨入1930年代,曲线开始悄然爬升。到了1950-60年代,随着晶体管、电视机的普及,曲线陡然飙升,仿佛模型在惊呼:“人类上天了?那个能播放动态影像的盒子是什么?”再往后,曲线逐渐平缓,颇有一种“信息过载,震撼到麻木”的意味。这个过程,堪称AI版的“刘姥姥进大观园”。

这模型还学会了Python

然而,“震撼曲线”还不是最炸裂的。团队第二个核心发现是:这个没见过电脑的AI,展现出了学习编程的能力。

研究采用了OpenAI的HumanEval编程测试集。方法是在提示中提供几个Python函数作为示例,让模型通过上下文学习,然后解决新问题。作为对照,团队也用相同架构但训练了现代互联网数据的模型进行了测试。

(黑线:Vintage LM,灰线:Modern LM)

结果令人意外:Talkie成功解出了题目。例如在一道题中,它仅仅将加密函数里的一个“+5”改为“-5”,便得到了正确答案。更重要的是,研究揭示了一个清晰趋势:模型规模越大,其解出的编程题就越多。这表明,即便对于复古模型,其“凭空学代码”的能力也遵循Scaling Law,随规模扩大而提升。这有助于回答一个根本问题:大语言模型的泛化能力,究竟能延伸到训练数据之外多远?

1930年模型VS2026年模型

没有对比,就难以看清本质。为了准确评估Talkie的实力,团队用完全相同的架构和算力,训练了一个使用现代互联网数据的“双胞胎”——Talkie-web-13b,并将二者置于标准LLM评测中一较高下。

结果颇为微妙:不出所料,在整体表现上,Talkie-1930落后于它的现代兄弟。但当剔除那些明显超出其知识范围(如互联网、DNA相关)的题目后,两者的差距缩小了近一半。更关键的是,在核心的语言理解与数学计算任务上,新老模型的表现几乎不相上下。这似乎暗示,“理解语言”和“进行算术”这类基础能力,并不完全依赖于是否阅读过现代互联网内容。剩余的差距,可能主要源于两点:一是历史报纸OCR(光学字符识别)的转录质量较差;二是语料题材分布不同,例如旧文本中科技内容少,生活礼仪内容多。换句话说,大模型智能中相当核心的一部分,或许与“是否读过GitHub”关系不大。

用1930年的礼仪手册,把AI调教成了聊天助手

众所周知,要将一个基础模型转化为对话助手,通常需要使用现代指令数据进行微调。但这样做,会把21世纪的对话风格和价值观“注入”回1930年的模型,破坏其时代特性。

团队的解决方案堪称巧妙:他们直接从故纸堆里“考古”,找到了一套1930年之前的天然训练数据——包括教导得体应答的礼仪手册、书信写作指南等。

他们以这些百年问答语料为基础,用现代模型Claude Sonnet 4.6作为“老师”进行强化学习,成功将Talkie调教成了一个能聊天的助手。

但现实很快带来了新发现:早期一个7B版本的Talkie,在经过强化学习后,竟学会了使用“1. 2. 3.”这样的列表体来回答问题。然而,1930年的语料中根本不存在这种现代格式。

根源在于“老师”Claude Sonnet 4.6本身是现代AI,偏好列表体。Talkie为了在训练中获得高分,便“投其所好”地学会了这种风格。这恰好暴露了当前AI训练中的一个普遍问题:基于AI反馈的训练方式,会不可避免地让模型沾染上反馈提供者的风格印记。为此,团队的下一个目标颇具趣味:让Talkie未来能够自己当自己的老师。

Alec Radford是谁

Talkie项目背后的Alec Radford,值得单独一提。可以说,当今AI领域的许多基础构建,都与他密切相关。

在OpenAI的近十年间,他是与Ilya Sutskever齐名的技术奠基者。他是GPT-1和GPT-2论文的第一作者,也是GPT-3、GPT-4的核心贡献者。此外,多模态模型CLIP由他主导开发,Whisper、DALL·E等项目中也有他的深度参与。

他在2018年那篇开创性论文中首次提出的基于Transformer的生成式预训练方法,为后来的ChatGPT乃至所有大模型奠定了基础。2024年底,他离开OpenAI投身独立研究,并于2025年3月以顾问身份加入了前OpenAI CTO Mira Murati创立的Thinking Machines Lab。

回过头看Talkie项目,其意味尤为深长:当全球AI界都在竞逐AGI和复杂推理时,GPT系列的开创者之一,却转身与伙伴们创造了一个只属于1930年的AI。据团队路线图,今年夏天将发布GPT-3级别的复古模型,未来还计划将语料扩展至万亿标记乃至非英语世界。不禁让人想象,当这个“世纪前思维”再次“睁眼”,面对机器人马拉松、智能手机和遍地智能体时,会不会再次上演一场“眩晕震撼瘫坐”的好戏。

(模型使用入口已附于文末,感兴趣的读者不妨亲自与这位“百年前AI”对话一试。)

参考链接:

[1]报告链接:https://talkie-lm.com/introducing-talkie

[2]github链接:https://huggingface.co/talkie-lm

[3]模型对话入口:https://talkie-lm.com/c h a t

来源:https://36kr.com/p/3789105218362369
上一篇Anthropic推出10款金融AI智能体 精准处理报表审核替代人工 下一篇极氪7X创纪录 105公里时速后碰测试展现国产中型SUV安全实力
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
诺基亚TA-1619入网:1400mAh电池双卡双待新机
业界动态 · 2026-07-01

诺基亚TA-1619入网:1400mAh电池双卡双待新机

诺基亚又有新动作了。7月1日消息,一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可,不过证件照目前还没公布。 从入网信息来看,这是一款TD-LTE数字移动电话机,支持TD-LTE网络,属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持,终端款式为直板。核心配置方面,电池额定容

芯佰微CBMRF900系列国产射频芯片突破海外壁垒
业界动态 · 2026-07-01

芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片,采用直接变频架构,覆盖10MHz至7250MHz频段,支持最大450MHz带宽及JESD204B高速接口,性能对标国际,满足5G基站与卫星通信等高端需求,突破海外技术壁垒。

月起私人充电桩可卖电 每度净赚5毛
业界动态 · 2026-07-01

月起私人充电桩可卖电 每度净赚5毛

近期有一则重大利好消息,值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起,湖北武汉的新能源车主,可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言,就是借助峰谷电价差,实现低买高卖,每度电净收益约5毛钱。过去,车网互动(V2G)基本只局限于特定的公共充电站,受试点规模限制,

谷歌发布Nano Banana 2 Lite 4秒出图1元4张
业界动态 · 2026-07-01

谷歌发布Nano Banana 2 Lite 4秒出图1元4张

先说几个关键信息:谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息,Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发,实际上它的技术代号是Gemini 3 1 Flash Lite Image,属于Gemini 3 1家族。最大的卖点就两个:快,便

技嘉专业电竞装备助力2025 CFS世界总决赛
业界动态 · 2026-07-01

技嘉专业电竞装备助力2025 CFS世界总决赛

2025CFS世界总决赛将于12月3日至14日在重庆举行,来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴,以主板、显示器等专业硬件保障比赛稳定流畅,并通过赛事反哺研发的闭环模式支持电竞发展。