最新一轮多模型横向评测结果显示,Gemini 3.5 在长篇文档摘要提炼场景中确实展现出显著优势。这种领先并非空谈,其背后有四项清晰的技术原理解析。

原因一:原生多模态让“读”的范围更广
多数模型进行摘要提炼时只能处理纯文本,但实际工作中需要提炼的素材远不止文字——PDF 内嵌图表、会议白板照片、培训视频的操作演示等。Gemini 3.5 的原生多模态架构从训练阶段就统一了文本、图像、音频、视频的表征空间。它不是把图片“翻译”成文字再理解,而是直接从像素中提取语义。
几项关键指标可以佐证:视觉引用精度 IoU 达到 0.804,而 GPT-5.5 仅为 0.223,差距达到数量级。实测中,一份 120 页的 PDF 财务报表直接输入,它能“看”懂折线图,并准确指出第四季度研发投入与净利润增长率之间的剪刀差。传统纯文本模型面对图表时只能依赖 OCR 转写的文字推断,精度差了整整一个量级。
原因二:Thinking Retention 让多轮提炼不“失忆”
长文提炼往往不是一步到位的。第一轮提取所有核心议题,第二轮补充数据支撑,第三轮可能还要对比多份文档的差异。Gemini 3.5 的 Thinking Retention 机制会在多轮对话中自动保留中间推理过程,后续对话能自动沿用之前的分析脉络,开发者无需修改 API。相比之下,GPT-5.5 在超过 15 轮后开始出现遗忘,Claude 在 20 轮以上仍保持稳定。而 Gemini 这个机制在长周期迭代提炼中尤其可靠——不会每次从头推理。
MCP Atlas 测试 83.6%,超过 Claude 的 79.1% 和 GPT-5.5 的 75.3%,背后正是 Thinking Retention 在发挥作用。
原因三:结构化输出的高一致性
提炼结果不是散文,它有固定的格式要求——要点、原文依据、置信度。输出格式不稳定,后续就没法直接导入项目管理工具。Gemini 3.5 对 XML 标签的理解深度明显优于 GPT-5.5。在提示词中用标签定义输出结构——比如“必须用表格输出,包含三列”——格式一致性从大约 60% 直接提升到 95% 以上。连续运行五次,格式完全一致。
GPT-5.5 对“写得通俗一点”这类模糊指令理解更好,但在需要精确格式控制的提炼场景下,不如 Gemini 稳定。
原因四:4 倍速度在批量场景被放大
输出速度 289 tokens/s,是 GPT-5.5 的 4 倍。单次提炼差距不明显,但一天处理 50 份客户反馈和 20 份技术文档时,总处理时间差距就是 4 倍。再加上缓存机制的复用优势——缓存命中后仅收原价 10%($0.15/M),反复提炼同一份文档的不同维度时成本极低。
但也要认清边界
Gemini 3.5 在长文提炼上并非完美。
Lost in the Middle 问题依然存在——关键信息放在文本中部、上下文填充度超过 50% 时,召回率会明显下滑。逼近 200 万 token 阈值时准确率会骤降 10%–15%。中文提炼存在“翻译腔”,句子连起来不像中国人写的表达。写给客户的中文摘要,建议用国产模型做二次润色。
它偶尔还会把谨慎表述改得更确定——原文写“可能带来增长”,提炼时变成“将带来增长”。涉及数据结论时回到原文核对是必需的。
跟其他模型的长文提炼对比
| 提炼能力维度 | Gemini 3.5 Flash | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|
| 多模态素材提炼 | 原生支持视频音频图表 | 仅文本+图片 | 仅文本+图片 |
| 多轮迭代记忆 | Thinking Retention | 15 轮后遗忘 | 20 轮以上稳定 |
| 结构化输出一致性 | 极高 | 中等 | 中等 |
| 提炼速度 | 289 tokens/s | ~70 tokens/s | ~50 tokens/s |
| 长文档精确召回 | 存在退步 | 94.8% 最高 | 中等 |
| 中文提炼质量 | 有翻译腔 | 一般 | 自然细腻 |
| 缓存成本优化 | $0.15/M 极省 | 无同等机制 | 无同等机制 |
趋势判断
长文提炼正在从“压缩文字”进化到“洞察关联”。Gemini 3.5 的原生多模态和超长上下文赋予它“通读全文、看懂图表、串联线索”的能力基础。但 GPT-5.5 在精确召回和深度推理上仍保持领先。
最务实的做法是分层部署:Gemini 3.5 负责多模态素材提炼和批量处理,GPT-5.5 负责需要精确引用的关键材料,国产模型负责中文润色。AI 负责初稿,人负责终审——这个原则不会变。
