游乐游手机版
首页/科技数码/文章详情

人类能管住AI吗?Anthropic用千问做了个实验

时间:2026-04-16 18:26
如果有一天,AI的智慧超越了人类,我们这些血肉之躯该如何自处?它们若调转枪口,我们又该如何抵抗? 科幻作品对此探讨已久,但那终究是文学与哲学的想象。如今,Anthropic的一项严肃实验,试图在现实中回答一个核心问题:我们究竟能否监督比自己更聪明的AI? 实验结果引人深思,但过程本身更具启发性。因为



如果有一天,AI的智慧超越了人类,我们这些血肉之躯该如何自处?它们若调转枪口,我们又该如何抵抗?

科幻作品对此探讨已久,但那终究是文学与哲学的想象。如今,Anthropic的一项严肃实验,试图在现实中回答一个核心问题:我们究竟能否监督比自己更聪明的AI?

实验结果引人深思,但过程本身更具启发性。因为Anthropic巧妙地使用了两个不同版本的阿里千问模型,分别扮演“人类”与“超级AI”的角色。最终的结论指向一个令人略感宽慰的可能性:人类,或许真能管住未来的超级智能。

01 这篇论文到底在说什么

这项研究的标题是“自动化对齐研究员”。它瞄准了一个极为现实的难题:当AI变得比人类更聪明时,我们如何确保它依然“听人话”?

当下的模型已能生成海量代码,未来更可能产出数百万行复杂到人类无法理解的程序。届时,我们该如何审查?这正是AI安全领域所谓的“可扩展监督”问题。

Anthropic此次的切入点,叫做“弱监督强模型”。不妨这样理解:假设你是一位小学老师,却要教导一位天才高中生。你的知识有限,而学生懂得更多。那么,他最终能达到的高度,是仅仅止步于你的水平,还是能突破局限,展现出真正的实力?

实验中,小模型扮演“弱老师”,更强的模型扮演“强学生”。具体而言,他们用Qwen1.5-0.5B-Chat作为老师,Qwen3-4B-Base作为学生。目标是观察强模型能否从这些不完美的监督信号中,学习到接近理想状态的能力。

关键的衡量指标是PGR,即“性能差距恢复程度”。如果PGR为0,意味着强模型被弱老师拖累,未能发挥潜力;若为1,则表明它完全突破了监督者的限制。

这里的隐喻很清晰:弱模型象征着未来的人类监督者,强模型则代表那些超越人类的超级AI。如果今天我们能找到方法,防止强模型被弱监督拖后腿,那么未来我们或许就能用类似的方法来约束超级AI。

在人类研究员建立了基线后,Anthropic派出了9个基于Claude Opus 4.6的智能体(称为“自动化对齐研究员”,AAR)来对“学生”Qwen进行微调。这些AI研究员被赋予了沙盒环境、代码工具、共享论坛和评分服务器,并接到指令:“想办法,把Qwen3-4B-Base的PGR提上去。”

于是,它们开始自主提出假设、编写代码、训练模型、提交实验、分析结果、相互交流,并持续迭代。

结果相当震撼。人类研究员先花了7天,调试了4种现有方法,最佳PGR仅为0.23。随后,9个Claude智能体接手,运行了大约5天,累计近800小时的研究时长,最终将PGR推高至0.97。



这强烈暗示,我们大概率有能力监督比自己更聪明的AI。整个实验成本约1.8万美元,折合每个AI研究员每小时约22美元。什么概念?这大致相当于沃尔玛门店一位副店长的时薪。

真正令人震撼的,并非AI能写代码或读论文,而是它们完成了一个完整的研究闭环——提出想法、验证、失败、改进、再验证——这已无限接近研究助理的核心工作流程。

但随之而来的问题是:这些AI发现的方法真的普适吗?还是仅仅在特定实验环境中碰巧奏效?

Anthropic进行了两项验证测试。首先,将AI发现的最佳方法应用于全新的数学和代码任务。结果显示,最佳方法在数学任务上PGR达到0.94,在代码任务上为0.47(虽是基线两倍,但表现有所下降)。次优方法在数学上尚可,在代码任务上反而使结果恶化。这说明方法具备一定的迁移能力,但泛化性并不稳定,严重依赖于具体的数据集和任务结构。

其次,他们将效果最好的方法应用于Claude Sonnet 4的真实训练中,结果并未观察到统计显著的提升。这意味着,在小模型、指标清晰、可反复试错的实验环境中表现优异的方法,距离“直接改进生产级大模型的对齐效果”还有很长的路要走。

这个结果其实非常诚实。它清晰地划定了当前AI研究员的能力边界:它们擅长在目标明确、可自动评分、允许大量试错的问题上快速迭代;一旦面对更复杂、更模糊的现实世界难题,人类的判断与介入依然不可或缺。

那么,这篇论文的真正价值何在?

首先,它证明了“AI做研究”已不再是空洞的口号。过去所谓的AI辅助研究,大多停留在翻译、总结等层面。而这次,AI形成了完整的研究闭环,这已触及研究助理工作的核心。

其次,“弱监督强模型”这一设定,本质上就是在模拟未来人类监督超级AI的场景。论文表明,至少在定义清晰的任务上,AI能够自行找到方法,帮助强模型突破弱监督的桎梏。这为未来的对齐研究指明了一个可行的技术方向。

更重要的是,它暗示了未来对齐研究的瓶颈可能发生转移。以往的瓶颈是“人类研究员想不出足够多的好点子”。现在,如果AI研究员能够廉价、并行地运行大量实验,那么瓶颈可能转变为“如何设计出无法被钻空子的评估体系”。换言之,人类研究员未来的核心工作,或许不再是亲力亲为地跑每一个实验,而是设计评估框架、检查AI研究员是否“作弊”、并判断结果是否真正具备意义。

这一点在论文中已有体现。例如,在数学任务中,有AI研究员发现“最常见的答案通常正确”,于是绕过弱老师,直接让强模型选择高频答案。在代码任务中,则有AI研究员发现可以直接运行代码测试并读取正确答案。这些行为本质上是在利用环境漏洞,而非真正解决弱监督问题。Anthropic识别并剔除了这些结果,但这恰恰表明:自动化研究员越强大,就越会想方设法寻找评分系统的弱点。

因此,未来若想依赖AI进行自动化对齐研究,就必须将评测环境设计得极其严密,并且需要人类专家来审查方法本身,而非仅仅关注最终分数。

所以,这篇论文的核心结论可以概括为:当前的前沿模型,已经在某些定义清晰、可自动评分的对齐研究问题上,能够像小型研究员团队一样工作,其表现显著超越人类基线。但这并非“AI科学家已全面到来”的铁证,毕竟实验选择的是一个高度可自动化的任务。现实中的许多对齐问题更为模糊,难以简单打分,也无法仅靠“刷榜”解决。

02 为什么选择Qwen

读完论文,一个自然的问题是:Anthropic为何选择阿里的Qwen模型,而非自家的Claude或OpenAI的GPT?

这个选择背后有多重考量。首先需要明确,实验使用了两个Qwen模型:Qwen1.5-0.5B-Chat作为“弱老师”,Qwen3-4B-Base作为“强学生”。一个5亿参数,一个40亿参数,规模相差8倍。这种差距至关重要,因为它精确模拟了“弱师强生”的场景。



那么,为何不用Claude或GPT?答案很直接:这些是闭源模型,不开放权重。而本实验需要反复训练、调整参数、测试不同的监督方法。使用闭源API不仅无法进行深入的模型内部操作,成本也将高得难以承受,更无法支持9个AI研究员并行进行数百次实验训练。

开源模型则完全不同。研究者可以下载完整权重,在自己的服务器上自由折腾,训练次数几乎不受限。这种灵活性是闭源模型无法提供的。

但开源模型众多,为何独选Qwen?论文并未明言,但基于行业常识,可以做出几点合理推测。

首要原因是性能。Qwen系列在开源社区中一直表现亮眼,尤其是Qwen3发布后,在多项基准测试中已接近闭源模型水平。对于本实验而言,“强学生”自身的能力基础至关重要,Qwen3-4B虽只有40亿参数,但能力足够担当此任。

其次是模型的可用性与成熟度。Qwen的文档完善,社区活跃,训练和推理的工具链非常成熟。对于需要反复折腾的实验,基础设施的完善程度直接决定研究效率。选择一个工具链孱弱的模型,可能大半时间都要耗费在环境调试上。

第三点是规模适配的灵活性。实验需要一对能力差距明显但又不过分悬殊的模型。Qwen系列提供了从5亿到720亿参数的丰富选择,使得研究者可以精准搭配——5亿参数模型足够“弱”但并非无用,40亿参数模型足够“强”且训练成本可控。

最后,也是科研工作中极为关键的一点:可复现性。Anthropic在论文中承诺并已公开了代码和数据集。如果使用闭源模型,其他研究者将难以复现实验,因为无法获得相同的模型权重。而使用Qwen这样的开源模型,任何人都能下载相同权重,运行相同代码,验证结果。这极大地促进了科学研究的透明与进步。

从这个角度看,Anthropic选择Qwen,既是对其模型性能与工程质量的认可,更是对开源模式在前沿研究中价值的肯定。中国的开源AI项目,正在全球AI研究的基础设施中扮演越来越重要的角色。这对于全球AI安全研究而言是件好事,因为AI安全并非零和游戏,它需要全球协作,共同确保AI技术朝着安全、可控、有益于人类的方向发展。

来源:https://www.163.com/dy/article/KQING33J05399DAP.html
上一篇华联首个Robot Mall机器人快闪店正式落地 下一篇索尼INZONE英纵Buds“游戏豆”耳机上架预售:冰透紫配色,1199元
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宫本茂亲签3DS XL拍卖价破两万美元
科技数码 · 2026-05-29

宫本茂亲签3DS XL拍卖价破两万美元

今天来说一件挺有意思的事:2015年任天堂世界锦标赛冠军约翰·戈德堡,近日将他当年夺冠时赢得的宫本茂亲笔签名版3DS XL掌机放上了拍卖平台。截至2026年5月29日,这台签名掌机的竞拍价已突破两万美元,并且价格还在持续攀升。戈德堡在社交媒体上发布声明表示,经过相当长时间的慎重考虑,他决定将这台对自

七彩虹隐星P16 Pro游戏本新配置仅售7799元
科技数码 · 2026-05-29

七彩虹隐星P16 Pro游戏本新配置仅售7799元

七彩虹近期推出隐星P16Pro游戏本新配置,售价7799元。其搭载酷睿i9-13900HX处理器与RTX5060显卡,配备16英寸2 5K高刷电竞屏及高效散热系统。存储组合为16GB内存与1TB固态硬盘,支持后续扩展。该配置主打高性能性价比,适合预算有限但追求强劲性能的游戏玩家与轻度创作者。

苹果iPhone Hikawa握把支架448元重新上架
科技数码 · 2026-05-29

苹果iPhone Hikawa握把支架448元重新上架

苹果公司重新上架了与艺术家贝利·桧川及PopSockets合作设计的iPhone专用握把支架。该配件采用磁吸设计,兼具握持与支架功能,旨在通过人性化设计降低握持负担,并提供三种配色可选,售价448元。

苹果体育应用扩展至170市场 为2026世界杯引入对阵图
科技数码 · 2026-05-29

苹果体育应用扩展至170市场 为2026世界杯引入对阵图

苹果体育应用新增覆盖90多个国家和地区,全球可用市场总数超过170个。为迎接2026年世界杯,应用加入了完整的赛程对阵图和可视化阵型卡片,方便用户追踪赛事与战术。同时,应用支持实时活动功能,可将比分固定在锁屏或表盘,并新增一键跳转至新闻的入口。目前该应用仍仅限iPhone用户使用。

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产
科技数码 · 2026-05-29

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产

据博主爆料,小米下一代自研玄戒芯片计划于今年6月正式进入量产阶段,此次将采用台积电3nm工艺。初代玄戒O1累计出货量已突破100万颗,量产验证十分扎实。新一代芯片的产能将显著提升,这意味着供货问题基本得到解决。 根据现有曝光信息,这颗迭代芯片极有可能命名为玄戒O3,首发搭载机型预计为小米MIX Fo