俗话说得好:传言有出入,期待需谨慎。
但还是禁不住狠狠期待一下!
下面一起来看更详细的剧透——
Claude 4不走老路,可控制使用时的推理成本
如前所述,Claude 4与此前的通用大模型走的就不是同一套路线。
它把通用模型和推理模型融合到了一起,会根据具体任务动态调整所需算力:遇到复杂问题,就启动推理能力;遇到简单任务,就用通用模型处理。
而且用户是可以自行控制的——每个问题需要耗费多少token,换句话说,用户可以规定它在每个具体问题上思考多久。
具体操作方式是通过一个游标刻度尺来调整,刻度上标注的是“完成任务所需的token数”。
如果把游标滑到“0”,Claude 4就是一个传统的、不带推理能力的AI大模型。
游标数值越大,所调用的算力就越多,思考推理过程也就越长。

其实,OpenAI现在的模型也有类似的功能。
不过OpenAI只分了“低-中-高”三档,供用户选择推理强度。
问题是,很难预测模型在每一档位实际上会用掉多少tokens,所以不少用户反馈说,三个档位并没能很好地控制成本。
说回来,这或许跟两家公司的市场定位有关。
OpenAI更多面向普通用户和个人开发者,三档式简单易懂,操作门槛低。
而Anthropic更注重企业级市场,相对toB一些,所以用游标刻度尺来调整,让使用者能更精细地控制成本和响应速度。

推理通用二合一,下一个大趋势?
从目前的信息来看,国外大模型的两大玩家——Anthropic和OpenAI,都明确了下一步的方向:
让通用模型和推理模型合二为一。
几周内发布的Claude 4是这样,数月内将要推出的GPT-5也是如此。
这或许会成为所有基座大模型玩家的共同选择——
当传统Scaling Law撞墙成为一个强共识,后训练、推理、CoT的重要性与日俱增时,推理变成通用模型的必需技能,怎么看都是大势所趋。

不过在这中间,Anthropic有自己最牢固的生态位:Claude系列的编程能力一直稳站第一梯队顶尖。
而且它更擅长处理大厂工程师级的编程任务。
举个例子,Claude系列可以理解由数千个文件组成的复杂代码库,并生成就能直接运行的完整代码,一次成功。
这就很有意思了——
因为面对复杂编程问题时,很多AI大模型往往会偷懒,只提供注释,而不是真的输出实际代码。
不过,目前还不清楚Claude 4会怎么定价。
比o3-mini便宜?比DeepSeek-R1更友好?还是比Google 2.0 Flash-Lite更亲民?
暂时没人知道。
但一位网友说出了大多数人的心声:

说白了,如果不是在某项实用能力上拥有“傲视群雄的拔尖实力”,那么所有模型玩家在定价这件事上,能做的或许就是像DeepSeek和Google 2.0 Flash-Lite那样了。
