首页 游戏 软件 资讯 排行榜 专题
首页
AI
GPT之父破解哈萨比斯难题:知识止于1930年的AI模型如何应对

GPT之父破解哈萨比斯难题:知识止于1930年的AI模型如何应对

热心网友
75
转载
2026-05-17

年初,DeepMind创始人德米斯·哈萨比斯提出了一个堪称“硬核”的AGI判定标准:一个训练数据截止到1911年的模型,能否自行推导出爱因斯坦在1915年提出的广义相对论?这听起来像是一个思想实验,但没想到,真有人动手去尝试了,而且牵头者之一,正是“GPT之父”亚历克·拉德福德。

最近,拉德福德与“神经常微分方程”提出者之一、陈天琦的导师大卫·杜文瑙,以及量化专家尼克·莱文,共同启动了一个有趣的项目。他们用1931年以前的全部英文数据,训练了一个130亿参数的模型,命名为“Talkie-1930”。这个模型被彻底切断了与现代知识的联系,成了一个纯粹的“时间胶囊”。

这为研究者提供了一个难得的“纯净”参照系。当你想测试一个AI模型究竟是真正理解了某种能力,还是仅仅在复述训练数据中的答案时,Talkie-1930理论上可以给出诚实的反馈。对于哈萨比斯提出的那个宏大问题,这无疑是一个绝佳的探索起点。

来自1930年的模型,有什么用?

Talkie的训练数据全部来自1931年以前的公共领域英文文本,包括书籍、报纸、期刊、专利和法律文书,总计2600亿个token。选择这个时间点,主要是因为在美国,此前出版的作品已进入公共领域,可以合法使用。

模型训练完成后,研究团队做了一件颇具玩味的事:他们开设了一个24小时直播频道,让Claude Sonnet 4.6全天候地与Talkie-1930聊天,探索这位“古人”的知识边界。对话记录完全公开,任何人都可以一探究竟。

当然,你也可以亲自去和它聊两句。从一些简单的测试来看,它的回答确实带着浓厚的时代印记。

不过,比具体表现更有意思的,是这项研究背后的深层动机。研究者提出了一个核心问题:一个只活在过去的模型,能在多大程度上“预感”到未来?

为了量化这一点,他们从《纽约时报》的“历史上的今天”栏目中提取了近5000条历史事件描述,然后测量这些描述对Talkie而言的“惊讶度”——用信息论的话说,就是每字节文本的困惑度。结果符合预期:对于1930年之前的事件,Talkie并不感到意外;而1930年之后的事件,其惊讶度曲线明显攀升,在五六十年代达到顶峰,之后趋于平缓。

这套方法背后,隐藏着更宏大的设想。研究者们引用了哈萨比斯的问题,并列举了类似案例:西科斯基的直升机专利(1935年)、图灵关于可计算数的论文(1936年)、卡尔森的静电复印专利(1942年)——这些都是Talkie“理论上”无法知晓的知识。但如果模型足够庞大、理解足够深刻,它能否仅凭对已有知识的推演,自行触及这些未来的思想?这个问题目前尚无答案,但足以引发深思。

第二个动机,直指当前大模型评估的核心痛点:数据污染问题。

评估模型能力时,一个长期困扰研究者的难题是:你如何确定模型是真的“会”,而不是在训练数据里恰好见过这道题的答案?由于现代模型的训练数据规模过于庞大,这个问题几乎无解。

Talkie天然绕开了这个困境。它完全不知道Python是什么,也从未见过任何一行现代代码。于是,研究者用它进行了HumanEval标准编程测试。他们给Talkie随机展示几个Python函数作为示例,然后要求它编写一个新函数,并统计其在100次尝试中至少成功一次的比例。

结果是:Talkie确实能学。随着模型规模的扩大,它在这项任务上的表现会缓慢但稳定地提升。

当然,与使用现代网页数据训练的同等规模模型相比,Talkie仍有巨大差距。而且,它答对的题目主要分两类:要么是极其简单的单行程序,要么是对示例程序进行小幅修改。研究者特别提到一个旋转密码解码函数的例子:示例给出了编码函数,Talkie似乎理解了“逆操作”的抽象概念,将加号改为减号,仅此一字之差,便得到了正确答案。这暗示模型可能具备某种程度的抽象理解,而非纯粹的模仿。

一个对数字计算机一无所知的模型,依然能从示例中摸索出编程的逻辑。这个发现让研究者觉得,这条路值得继续探索。

第三个动机,触及了当前大模型研究的一个根本性隐忧:数据多样性的缺失。

当今所有主流大模型,无论GPT、Claude还是Gemini,其训练数据最终都指向同一个源头:互联网。无论是直接爬取、知识蒸馏还是合成数据,本质上都是同一片信息海洋的产物。这就引出了一个严肃的问题:我们自以为在研究“语言模型的普遍规律”,但实际上,研究的会不会只是“训练在互联网数据上的模型”的特殊性质?这些模型在气质、能力和行为倾向上的相似性,究竟有多少源于人类语言与文化的共性,又有多少仅仅是因为“喝了同一口井里的水”?

Talkie提供了一个宝贵的对照组。通过比较它与现代模型的异同,研究者希望能剥离出哪些特征是语言模型的普遍属性,哪些是“互联网训练”带来的特有产物。

为了更直观地衡量Talkie的能力,研究者还专门训练了一个“现代孪生”模型——架构完全相同,只是将训练数据换成了现代网页数据集FineWeb。两个模型在语言理解、数字计算和知识掌握三个维度上进行了正面较量。

结果是Talkie全面落后。但研究者注意到了一个关键细节:测试集中有大量问题,对于一个只知道1930年以前世界的模型来说,本身就是“超纲”的——它没有理由知道那些事。当把这些题目过滤掉后,两个模型之间的差距大约缩小了一半。

在语言理解和数字计算这两个维度上,Talkie的表现与现代孪生模型已相当接近。研究者认为,剩余的差距很可能源于两个原因:一是历史文本的OCR识别质量较差,二是训练语料的主题分布与现代模型存在较大差异。

训练复古模型,没那么容易

训练一个真正的“复古”模型,远没有听起来那么简单。

最棘手的问题叫做“时间泄漏”。训练数据的截止日期是1930年,但“1930年以前出版”并不等于“内容只涉及1930年以前的事”。一本1920年的书,如果后来重版,编辑可能添加了现代的序言;一份报纸的数字化档案,可能附带着整理者撰写的当代注释。这些内容一旦混入训练集,模型就会在不该知道的地方突然“开窍”。

早期的70亿参数版本就出现过这种状况——当被问及1936年谁是美国总统、签署了哪些重要立法时,它不假思索地答出了罗斯福和新政的细节,甚至还提到了联合国和德国的战后分裂。一个理应只活在1930年的模型,不知从哪条缝隙里窥见了后来的世界。

为此,研究者开发了一套基于n-gram的异常词检测分类器来过滤训练数据,但他们也承认这套方法并不完美。130亿参数的Talkie版本,依然对二战后的某些事件存在模糊的感知。如何彻底堵住这条时间裂缝,仍是一个悬而未决的问题。

另一个麻烦是数据质量。1930年没有数字出版,所有文本都需从纸质原件扫描、识别。传统的OCR系统对付干净的印刷品尚可,但面对版式复杂或保存不善的旧书,识别结果往往惨不忍睹——字母错位、段落混乱、符号乱入。研究者做过对照实验:同样的训练量,使用传统OCR转录文本训练出的模型,性能只有人工转录版本的30%。经过一些正则清洗后,能回升到70%,但差距依然显著。

目前,他们正在开发一套专门针对历史文献的OCR系统,希望能补上这个质量缺口。

还有一个挑战在于训练后的“对齐”。现代大模型的指令微调,依赖于大量人工标注的对话数据,但这些数据都带着浓厚的现代世界气息和预设。用它们来微调Talkie,就像把一位维多利亚时代的绅士送去参加企业培训,出来之后满口都是PPT腔调。早期版本的Talkie在强化学习后,有段时间回答全是列表和要点,完全不像一个1930年代的人。

为了解决这个问题,研究者从历史文本本身入手,利用礼仪手册、书信范文、烹饪食谱、百科全书这类结构规整的旧书,生成指令-回复对,从头构建了一套后训练流程。他们让Claude Opus 4.6扮演用户,Talkie扮演助手,生成多轮对话,再用Claude Sonnet 4.6作为裁判,为Talkie的回答打分。训练开始时,裁判平均给2分(满分5分),结束时已升至3.4分。

当然,他们也坦承,用现代AI做裁判,本身就是一种“时代污染”。彻底干净的做法,应该用Talkie的基础模型来评价Talkie的对话——让自己审判自己,完全活在1930年的逻辑里。这是他们下一步希望尝试的方向。

目前,研究团队正在训练一个GPT-3级别的更大模型,并计划在今年夏季发布。初步估算表明,他们可以将历史文本语料库扩展到超过1万亿个token,这足以创建一个性能接近GPT-3.5级别的模型——其功能或许能与最初的ChatGPT相媲美。这个来自过去的“时间胶囊”,正在试图告诉我们,关于智能本质的更多秘密。

来源:https://www.163.com/dy/article/KRP1KKBC0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Vibe Coding开发网络应用存在安全隐患需警惕
科技数码
Vibe Coding开发网络应用存在安全隐患需警惕

专业安全机构RedAccess近期发布的一份深度研究报告,为整个行业敲响了安全警钟。报告揭示,大量采用“氛围编程”模式快速开发的Web应用存在显著安全缺陷,部分系统甚至处于完全无防护状态,致使企业核心数据直接暴露于公开网络。 首先,我们需要明确“氛围编程”的具体含义。简而言之,它指的是开发人员借助A

热心网友
05.17
RPA入门需要编程基础吗
业界动态
RPA入门需要编程基础吗

探讨RPA(机器人流程自动化)时,一个普遍被提及的问题是:学习和应用RPA需要编程基础吗? 答案并非绝对。这主要取决于三个核心维度:所选RPA工具的特性、待自动化流程的复杂程度,以及实施者自身的技术背景。下面我们将逐一深入分析。 一、RPA平台与编程需求 不同RPA厂商提供的平台,其技术门槛差异显著

热心网友
05.14
南京大学与伦敦大学学院联合发布编程助手推理能力评估新基准
AI
南京大学与伦敦大学学院联合发布编程助手推理能力评估新基准

南京大学与伦敦大学学院联合研究团队近日发布了一项突破性成果,为精准评估大型语言模型在代码生成与编程任务中的真实能力提供了全新框架。相关研究论文《CONTEXTBENCH: 评估代码大模型上下文推理能力的基准》已正式发表于预印本平台arXiv,论文编号为arXiv:2602 05892v2。 随着AI

热心网友
05.12
学生创意编程作品虚拟拼豆机从失败到国际夺冠之路
科技数码
学生创意编程作品虚拟拼豆机从失败到国际夺冠之路

苹果Swift学生编程挑战赛揭晓,江苏四名学生获奖。作品涵盖海洋公益游戏、手势控制音乐应用、虚拟拼豆机及机器人实验室游戏,展现了年轻开发者用代码表达创意与解决实际问题的能力。赛事允许使用AI工具辅助开发,但强调批判性思维与原创力仍是核心价值。

热心网友
05.10
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

潮汐守望者梅丽珊卓装备搭配指南与实战出装推荐
游戏资讯
潮汐守望者梅丽珊卓装备搭配指南与实战出装推荐

潮汐守望者梅丽珊卓的出装策略,核心在于极致放大她的爆发伤害与控制能力,同时构建必要的生存保障。以下这套经过版本与实战验证的装备组合,将帮助她主宰峡谷战场,成为团队不可或缺的法术核心。 核心装备 卢登的回声通常是无可争议的首件神话装备。它提供的法术强度与技能急速完美优化了梅丽珊卓的技能循环,而其被动“

热心网友
05.17
阶跃星辰图像编辑模型实测 2分钱一张快速生成海报风格
AI
阶跃星辰图像编辑模型实测 2分钱一张快速生成海报风格

4月29日,阶跃星辰正式发布新一代图像编辑生成模型Step Image Edit 2。这款AI图像模型主打“小身材、大能力、快响应”,参数量仅3 5B,却在轻量级图像编辑评测基准KRIS-Bench中斩获综合排名第一。它全面支持文生图、中英文渲染、局部编辑、视觉推理、主体一致性及风格迁移等多种AI图

热心网友
05.17
CVPR 2026北京论文分享会报名开启 线下深度交流前沿视觉技术
AI
CVPR 2026北京论文分享会报名开启 线下深度交流前沿视觉技术

2026年的AI圈,时钟仿佛被拨快了。技术迭代的浪潮一波未平,一波又起。 尤其是进入四月以来,整个行业像是踩下了油门。Meta携Muse Spark高调回归,ChatGPT Images 2 0的生成效果在社交媒体上持续刷屏,而GPT-5 5的发布,再次将技术天花板向上推升了一个量级。视线转回国内,

热心网友
05.17
谁将率先突破全模态世界模型技术瓶颈
AI
谁将率先突破全模态世界模型技术瓶颈

从DeepMind到阿里、腾讯,各路顶尖玩家正涌入“世界模型”这个新战场。但大家争夺的,远不止是算力与资源,更核心的较量在于:究竟什么样的架构,才能真正构建起对物理世界的理解? 过去一年半,世界模型已然成为AI领域竞争最密集的焦点。参与者名单几乎涵盖了所有前沿方向:全球科技巨头、视频生成公司、机器人

热心网友
05.17
柴犬币价格预测:关键阻力位0.0000076美元能否推动20%上涨
web3.0
柴犬币价格预测:关键阻力位0.0000076美元能否推动20%上涨

柴犬币自低点反弹约30%,正尝试复苏。当前面临0 0000076美元附近的200日移动均线关键阻力,若能突破可能上涨约21%,但该位置存在解套抛压。价格需放量突破0 0000064美元以确认短期上涨趋势,下一目标0 0000072美元,下方关键支撑位于0 000006美元附近。

热心网友
05.17