今日,官方正式发布公告,Claude Sonnet 4 的上下文窗口容量一举跃升至 100 万 tokens——相比此前版本扩大了整整 5 倍。

那么,100 万 tokens 究竟意味着什么?通俗来说,它现在能一次性处理整个代码库(约 7.5 万行代码),或连续阅读数十篇完整论文。虽然听起来技术性很强,但其实际应用场景才是真正令人兴奋的之处。
痛点:记忆容量不足
此前的 AI 模型如同一位记忆力有限的助手,需要反复提供上下文背景。若要分析大型项目,必须将其分割成多个小块,并时刻担心模型忘记前文内容。这种体验,长期使用者想必深有体会。
现在的实际能力
代码分析:将整个项目完整输入,模型能够识别整体架构,发现文件间的依赖关系,并给出具体的改进方案。
文档处理:批量分析合同、学术报告,甚至挖掘不同文档之间隐藏的关联性。
长对话:即便经历数百次工具调用,上下文依然保持稳定,不会中途“失忆”。
成本考量
当然,成本也随之上升。一旦使用量超过 20 万 tokens,费用直接翻倍:输入价格从每百万 tokens 3 美元上涨至 6 美元,输出价格从 15 美元涨至 22.5 美元。不过,结合缓存与批处理机制,仍能节省部分支出。
用户真实反馈
Bolt.new 表示,这一升级使开发者能够在更大规模的项目中保持高精度。而 iGent AI 则直接指出,AI 工程师现在可以进行长达多天的连续会话,真正处理真实的代码库。
听起来前景诱人,但核心问题在于:大多数实际任务真的需要如此长的上下文吗?抑或这只是大模型领域“参数越大越好”的又一次军备竞赛?
目前,该功能仅面向 Tier 4 用户开放测试,Amazon Bedrock 已提供支持,Google Cloud 也即将跟进。
那么,“又”RAG 被宣告死亡了吗?
