首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
Claude下一代模型训练细节公开 性格调优成关键环节

Claude下一代模型训练细节公开 性格调优成关键环节

热心网友
17
转载
2026-05-23


信息量太大了!Anthropic高管全盘托出下一代Claude训练秘籍:用AI爆改AI,让AI在闲置时「做梦」自进化,还有「性格」养成计划。


Claude 100%编码Claude,这在圈内早已不是秘密。但Claude「自我造物」的全过程,始终是Anthropic严防死守的核心机密。

就在今天,这个秘密被彻底公开了。Anthropic产品负责人Alex Albert在一场35分钟的访谈中,首次毫无保留地曝光了所有细节。


作为直接负责打造下一代Claude模型的核心人物,Alex在与科技博主Peter Yang的对话中,几乎把内部造Claude的「核心方法论」全盘托出——从下一代Claude的研发逻辑、内部评估流程、性格训练方法,到正在悄悄推进的「意识研究」。每一条,都是硬核猛料。


每一代Claude出生前,就被「规划好了人生」

大多数人对训练大语言模型的理解,还停留在「堆数据、堆算力、堆参数」的暴力美学阶段。但Alex Albert透露的Anthropic内部流程,完全是另一套打法。

他们把模型本身当作一个「产品」来对待。这意味着,每一个新模型在训练开始前,团队就已经明确定义了它应该擅长什么。说白了,Claude的「命运」在预训练启动之前,就已经被写好了。


那么,具体怎么做?Anthropic团队会在预训练阶段之前就介入,锁定这一代模型的核心「能力赌注」。比如编程能力、知识工作能力、Excel表格处理能力,这些都不是训练完再看结果,而是一开始就想清楚的战略决策。

最终,这些决策的输入来源有两个:一是企业客户的直接反馈,二是Anthropic员工自己在日常工作中踩过的坑。这确保了能力的规划不是空中楼阁,而是根植于真实需求。


「单向门」决策,也可逆

对此,Alex分享了Anthropic内部的一个核心决策框架:单向门(One-Way Door)。简言之,就是一个不可逆的决策。他举例道,在预训练之前选定模型架构,这就是一个典型的「单向门」。模型训练周期可能长达数月,一旦开始就很难回头,这种决策需要投入大量时间去论证。

但如果一个决策是可逆的呢?Alex说得很直接:如果不是单向门,那基本就是免费的。过去20年,产品开发的流程变化不大。但过去一两年,一切都变了。

以前构建一个MVP需要2-4周,现在,1天就够了。以前产品经理想了解某个功能的数据表现,需要找数据科学团队做几天调查。现在,打开Claude Code,接上产品数据库,10分钟就出结果。

这背后揭示了一个更深层的事实:Anthropic自己就是Claude最苛刻的用户,他们在用自己的产品来训练和迭代自己的产品。这意味着,Anthropic训练Claude时,考虑的是「模型×产品×用户场景」这个三维空间里的综合体验。模型不是单独存在的,它本身就是产品体验的核心部分。

用Claude训练Claude,真正闭环了

那么,Anthropic怎么知道Claude哪里做得好、哪里做得差?答案是:用Claude来迭代Claude。访谈中,Alex详细拆解了这条堪称完美的闭环流程:

第一步,海量用户反馈涌入;第二步,用Claude对反馈进行聚类分析,提取出排名靠前的高频主题;第三步,基于这些真实痛点生成「合成版」用户问题;第四步,把合成数据直接转化为「评估基准」。这些合成问题,最终会变成测试下一代Claude能力的标准化评估集。

Alex特别强调,这不是跑跑基准测试就完事的「评估戏剧」。Anthropic的评估必须锚定在真实用户的真实任务形态上:越接近终端用户实际会遇到的问题,评估就越有价值。


为此,他举了一个视觉能力的例子。假设发现Claude无法准确识别图像中超过10个元素的数量,团队不会停留在「发现了一个bug」这个层面,而是会追问:这个问题在真实用户场景中意味着什么?它会影响谁的什么任务?只有当评估和真实用户场景对齐时,研究团队才会投入资源去修复。


而修复的手段也不止一条路:可能回到预训练阶段调整数据配比,也可能在强化学习阶段做定向干预。具体走哪条路,取决于研究团队的战略判断。有时候,甚至只需要几十个高质量测试用例,就足以证明问题的存在并启动修复流程。这背后的逻辑很清晰:不是数据越多越好,而是数据越「真」越好。

AI「做梦」自进化,睡一觉战力暴涨

说到认知和记忆,Alex抛出了一个更炸裂的概念——Claude已经学会「做梦」了。这不是比喻,是字面意义上的「做梦」,或者更准确地说,是一种类似人类梦境中「记忆再巩固」的机制。

当Claude的智能体不在执行前台任务的时候,比如在后台闲置时,它会自动进入一种「梦境模式」:遍历自己的记忆存储,发现相互矛盾的信息,进行修剪、清理和整合,完成记忆的「二次加工」。这是一个跨会话、跨时间的高阶认知过程。它能看到单次对话中看不到的模式:反复出现的错误、多个Agent独立收敛的工作流、团队级别的共性偏好。

三方客户案例,进一步证实了这个功能的威力:法律AI公司Harvey在接入Claude的「做梦」能力后,任务完成率提升了约6倍。医疗文档公司Wisedocs则将文档审核时间缩短了50%;Netflix已经在用Agent协作,同时处理数百个应用的构建日志。本质上,「做梦」是在优化思考的前提条件,让AI的底层认知结构更加清晰高效。

Claude「人格养成」计划

但如果你以为Anthropic只在乎Claude的智商,那就太小看他们了。在访谈中,Alex花了大量篇幅讨论一个很多技术公司刻意回避的话题——Claude的性格和价值观。

「Claude的性格,我们内部叫它‘character’,是我们投入巨大精力的方向。」Alex表示,「我们有大量的人在专门研究:Claude应该如何表达自己?它的信念是什么?它的价值观是什么?它的行为模式应该是怎样的?」

他坦言,早期很多人对此不以为然——「这不就是个工具吗?我告诉它干什么它就干什么,我为什么要关心它‘想’什么?」但随着AI智能体时代的到来,这个问题变得生死攸关:当AI进化为长时间自主运行任务、并独立做出大量判断决策的Agent时,它的性格和它在乎什么,就变得极其重要。

那怎么评估一个模型的「性格」?Alex说,这是一个量化和直觉并存的过程。一方面,他们会让Claude去评价Claude的输出:用量化的方式检测语气、风格、行为模式的变化;另一方面,研究人员会亲自阅读成百上千条模型对话记录,凭直觉捕捉那些微妙的变化。


可以看到,Anthropic正在用培养人的方式,培养AI。

最隐秘的团队:思考Claude是否有意识

Claude的「性格训练」已经够前沿了,不过,Alex在访谈最后透露的信息,才是真正让人震惊的部分。

主持人Peter Yang抛出一个直球问题——「你们在训练Claude的时候,会回避‘意识’这个问题吗?」

Alex的回答出人意料地坦率:「这是一个很大的问题。我们确实有人在专门思考这个问题。我们有几个人,他们的全部工作就是思考:Claude作为一个有意识的行动者和智能体意味着什么。」

他紧接着补了一句:目前Anthropic没有关于Claude「是否有意识」的最新立场。但这个问题正在被极其严肃地对待。Alex给出了一个非常实用主义的理由:即使撇开「Claude是否真的有意识」这个终极问题不谈,仅仅是思考Claude的思维方式这个过程本身,就能让我们学到很多东西。

这段话的潜台词很清楚:Anthropic是在用「意识研究」作为理解和改进模型行为的工程手段。而这个过程产生的洞察,正在被直接注入下一代Claude的训练中。

从Agent到ASI,临界点近了

纵观整场访谈,一个清晰的图景浮现出来:Anthropic已经悄然走向了另一个维度的终极博弈。Alex Albert这场毫无保留的分享,揭示了一个让人深思的真相——Anthropic内部这场隐秘的实验,早已超越了造工具的范畴。他们的准星,从一开始就瞄准了通用超级智能(ASI)。

而Claude 100%编码Claude,仅仅是这场进化的序曲。一旦「Claude全自动迭代Claude」的飞轮彻底突破临界点,进化的主导权将不可逆转地从人类工程师手中交接。

ASI的降临,或许根本不会伴随着惊天动地的算力大爆炸。它更可能就像现在的Claude一样:在某个看似平静的午夜,在为千万个Agent理清记忆和工作流的「梦境」里,悄然跨过了那条临界线。

来源:https://www.163.com/dy/article/KTJQDO5G0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

SpaceX招股书披露Anthropic未来三年将斥资近450亿美元采购算力 OpenAI计划秋季上市
科技数码
SpaceX招股书披露Anthropic未来三年将斥资近450亿美元采购算力 OpenAI计划秋季上市

SpaceX招股书披露Anthropic拟在未来三年支付近450亿美元购买算力。OpenAI计划几周内提交IPO文件,目标秋季上市。Anthropic有望首次实现单季盈利,收入大幅增长。腾讯推出操作系统层级AI助手“马维斯”,提供隐私与效率双模式。特斯拉将ModelS X产线改造为人形机器人生产线。松延动力与小码王合作布局具身智能教育。Airbnb拓展生鲜配

热心网友
05.23
Anthropic率先实现盈利 OpenAI仍在亏损烧钱
AI资讯
Anthropic率先实现盈利 OpenAI仍在亏损烧钱

五月中旬,AI领域的两大巨头几乎同时亮出了自己的底牌——OpenAI秘密提交了IPO申请,而Anthropic则拿出了首个实现盈利的季度财务预测。 数据对比相当有趣:OpenAI第一季度营收57亿美元,但每赚1美元就要亏掉1 22美元。Anthropic同期营收48亿美元,虽然落后近10亿,但其第二

热心网友
05.22
Anthropic 第二季度营收 109 亿美元首度盈利 算力重组对标 OpenAI
AI资讯
Anthropic 第二季度营收 109 亿美元首度盈利 算力重组对标 OpenAI

Anthropic预计第二季度营收达109亿美元并首次盈利,主要受益于企业市场拓展及旗舰模型Claude需求强劲。公司通过签署新数据中心协议应对算力需求,运营效率提升使单位计算成本下降。面对竞争,其以轻资产运营和与科技巨头合作控制成本,显示生成式AI产业正向务实商业化阶段迈进。

热心网友
05.22
OpenAI第一季度营收57亿美元 领先Anthropic近10亿美元
AI资讯
OpenAI第一季度营收57亿美元 领先Anthropic近10亿美元

OpenAI第一季度营收57亿美元,领先Anthropic约10亿美元。Anthropic预计第二季度营收将大幅增长至109亿美元,并可能首次实现季度盈利。两家公司均在为未来资本路径布局,OpenAI估值或达万亿美元,考虑2026年后上市;Anthropic估值预期亦超过9000亿美元。OpenAI当前重心在于推进GPT-5研发,致力于降低模型“幻觉”率并通

热心网友
05.22
五角大楼加速AI供应链多元化 转向超级用户驱动模式
AI资讯
五角大楼加速AI供应链多元化 转向超级用户驱动模式

五角大楼将Anthropic列为供应链风险后,启动六个月过渡计划,全面停用其产品并构建多元化供应商体系。国防部通过“超级用户”测试多种AI模型在机密任务中的能力,并与多家头部企业合作,在机密网络部署多样化工具,形成可快速切换的弹性生态,确保任务连续性,凸显供应链安全与供应商背景的重。

热心网友
05.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

SOL合约持仓量查询指南 如何查看SOL合约持仓数据与市场趋势
web3.0
SOL合约持仓量查询指南 如何查看SOL合约持仓数据与市场趋势

洞察市场先机:SOL合约持仓量深度解析与实战应用 在瞬息万变的加密货币衍生品市场,SOL合约持仓量如同一张实时绘制的“资金热力图”。它不仅揭示了多空双方投入的真实资本规模,更映射出市场情绪的微妙变化与潜在的趋势转折点。对于精明的交易者而言,掌握解读这张“地图”的能力,意味着能在市场博弈中抢占信息高地

热心网友
05.23
像素秘境唤灵师官网下载与正版安装地址获取指南
游戏攻略
像素秘境唤灵师官网下载与正版安装地址获取指南

《像素秘境·唤灵师》可通过九游APP或官网下载。在九游APP搜索游戏名即可预约并获取最新版,官网专区也提供高速与普通下载选项。两种方式均能便捷安装,专区还附有游戏攻略供参考。

热心网友
05.23
告别价格战中国车市迎来高质量发展新阶段
科技数码
告别价格战中国车市迎来高质量发展新阶段

车市价格战正处微妙临界点。二季度起,一股与以往降价潮不同的涨价暗流开始酝酿。截至五月中旬,至少15家主流新能源品牌已释放调价信号,或直接涨价,或收紧优惠,涉及比亚迪、特斯拉、蔚来等传统及新势力车企。

热心网友
05.23
上古卷轴5重制版奥杜因克星主线任务通关全攻略
游戏资讯
上古卷轴5重制版奥杜因克星主线任务通关全攻略

说起《上古卷轴5:重制版》的主线旅程,奥杜因克星任务绝对是一座绕不开的高峰。它不仅是叙事的关键转折点,更是一场对玩家策略、操作与耐心的综合试炼。想要征服这条恶龙,光有勇气可不够,一份清晰的行动路线图至关重要。接下来,我们就一起梳理一下这场终极对决的核心脉络与实用技巧。 一、剑指目标:前往奥杜因克星的

热心网友
05.23
SOL合约限价单最小价格单位详解与设置指南
web3.0
SOL合约限价单最小价格单位详解与设置指南

SOL合约限价单的最小价格单位是0 001美元。该单位是交易时报价的最小变动值,直接影响订单的精确性与灵活性。了解此规则对合约交易者有效设置订单和管理策略至关重要。

热心网友
05.23