先抛个判断:谷歌最近发布的 Gemini 2.0 Flash 模型,很可能是目前性价比最突出的 AI 产品之一。
这个模型的价值,远不止是“便宜大碗”这么简单。更重要的是,它可能正在改写一项主流技术——RAG(检索增强生成)的底层逻辑。甚至可以说,传统的 RAG 实现路径,正面临被淘汰的拐点。
这篇文章我们就来拆解一下:这背后到底发生了什么?
RAG 究竟是什么?
先快速回顾一下。RAG,全称 Retrieval-Augmented Generation,直译就是“检索增强生成”。它之所以被发明出来,是为了解决一个早期 AI 模型的致命短板——记忆容量。
时间拉回到 2023 年初,当时的主流模型一次只能处理大约 4,000 个 token——也就相当于 6 页纸的文本。面对稍微长一点的文档,模型就“记不住”了。
怎么办呢?技术社区想出了一个巧妙的办法:先把海量信息切成小块,然后通过向量化存储(这背后是嵌入技术、向量数据库、分块处理等一系列复杂操作),等到用户提问时,再去检索最相关的几个碎片,喂给模型做回答。
你可能在不知不觉中体验过它。用过 Perplexity 或者其他 AI 搜索工具吗?当它们一边回答问题一边搜索资料时,背后就是 RAG 在工作。甚至当你给 ChatGPT 上传一个文件并提问时,同样也是 RAG 在起作用。
不过,时过境迁。这套复杂的流程,可能真的该进博物馆了。
Gemini 2.0 Flash 登场
现在所有的 AI 模型几乎都能处理更多信息了,但 Gemini 2.0 的特别之处在于,它能一次处理 100 万个 token。某些测试版的模型,甚至奔着 200 万 token 去了。
这意味着什么?你不再需要把数据切成零散的碎片了。你可以把一整份完整的文档直接“投喂”给模型,让它进行全局性、整体性的推理。
更关键的是,新一代模型不光“记忆力”变强了,准确性也大幅提升了。谷歌最新模型报告的“幻觉率”(就是胡编乱造的概率)已经创下了历史新低。这一下,整个玩法就彻底不一样了。
范式变革的威力
用一个真实场景来对比一下。假设你有一份长达 5 万 token 的财报电话会议记录,这已经算是很长的文档了。
- 传统的 RAG 方案:你需要把它切成 512 token 一块的小碎片,存好。当用户提问“这家公司今年的营收和去年比怎么样?”,系统先检索,然后找出几个相关碎片扔给模型。结果呢?模型由于看不到 CEO 的开场白、整个财务数据的上下文、以及后面的分析师问答,必然无法给出全局性的准确判断。
- 用 Gemini 2.0:直接把整份完整的会议记录输入进去。它能通览全局,从 CEO 的战略陈述到核心数据,再到分析师的尖锐提问,给出一个更全面、更精准的解析。
所以,当我说“RAG 已死”,准确地说,是指“传统 RAG 方法论——即把单个文档切碎再处理的那一套——已经过时了”。你不再需要那些繁琐的切割、向量化流程。直接把完整文档交给大模型就好。
但 RAG 并未彻底消亡
自然会有人问:“如果有 10 万份文档该怎么办?”
这是个好问题。面对超大规模的数据集,比如苹果过去十年的所有财报,你显然不能把所有内容一股脑全塞进去。
但方法论已经革新了。现在的思路更清洗:
- 先做粗粒度的文档筛选(比如,只提取出 2020 到 2024 年所有的苹果财报)。
- 把筛选出的完整文档,并行输入 AI 模型。
- 让 AI 基于每个文档的整体输出,进行综合整合,得出最终结论。
相比传统方案里把每个文档再切成几十块,这种方法显然更准确。你让 AI 在“文档”这个完整的语义单元上进行推理,而不是在破碎的“文本片段”里东拼西凑。
下图直观展示了这种面对海量文档时的现代化处理流程。
核心启示
如果你正在开发 AI 产品或者做实验,记住一个原则:大道至简。大多数人容易陷入“过度设计”的陷阱。
现实的做法是:直接向 Gemini 2.0(或任何拥有超大上下文窗口的 AI 模型)上传完整文档,让模型自主进行全局推理。
明年的技术会迭代成什么样?很有可能。AI 模型正沿着“更便宜、更智能、更快”的路线一路狂奔。
但至少在今天,传统的 RAG 分割-检索-拼接范式,确实到了该退场的时候。
把数据灌进去,用更简单的方式获得更好的结果。如果你手头正好有需要分析的文档,不妨现在就试试看。也许你会惊讶地发现,一切竟然变得如此简单。
