实测GLM-5.2百万上下文：生成85页世界杯前瞻_AI热点日报

实测GLM-5.2百万上下文：生成85页世界杯前瞻

类型：热点整理2026-07-05

GLM-5 2凭借百万上下文与自主纠错能力，生成85页世界杯前瞻PPT。模型自行核实72场比赛数据，拆解五层流水线并行处理，并借助多模态校验确保视觉质量，展现出稳定的长程任务执行能力。

昨天，一件大事让整个AI行业为之震动。美国商务部的一封正式信函，直接送达了Anthropic公司。理由是国家安全隐患，要求他们立即终止所有外国人对Fable 5和Mythos 5的访问权限。不仅限于美国境外，就连美国境内的外籍人士、甚至Anthropic自己的外籍员工也一律被禁止使用。按照这个逻辑，连Andrej Karpathy——斯洛伐克籍——也不例外。他前脚刚加入Anthropic，后脚自家最顶尖的模型就用不了了，想想都觉得匪夷所思。随后，Anthropic做出了一个出人意料的决定：为了合规，索性将Fable 5和Mythos 5对所有人全面关闭。连美国人自己也用不上了。消息传出后，不少人心头一凉。Fable 5确实实力强劲，被称为“世界最强”并不为过，然而仅仅体验了几天就戛然而止。更有趣的是，就在昨天下午，智谱迅速发布了一则公告。公告第一句话是这样写的：“在一些前沿模型突然变得不可用的时刻，我们选择相信另一条路：前沿智能不应只属于少数人，也不应被少数规则随时收回。” 紧接着，GLM-5.2正式亮相。真正可用的1M上下文，下周开源，采用MIT协议。时间点的选择也十分巧妙。Anthropic是在5点21分收到那封信的，智谱便也将开放时间定在了5点21分。一边在关门，一边在开门，这背后传递出一种鲜明的态度。 GLM-5.2当晚就实地体验了一番。说实话，之前GLM-5、GLM-5.1发布时也经常使用，对智谱这条产品线一直比较熟悉。这次5.2最令人惊喜的，是直接配备了1M的长上下文。有了这个能力，就想着能不能搞点大项目。

别人让模型猜比分，有人想玩点不一样的

最近世界杯激战正酣，刷到不少博主在用大模型预测比赛胜负。但说实话，让大模型随口吐个预测比分，实在太简单了。反正它怎么编都能给个数，加上那么多人预测，总会有个别“蒙对”的幸存者，其实没什么意思。要玩点不一样的，尤其想验证一下GLM-5.2在超长上下文中是否会犯迷糊、超复杂工程是否扛得住。于是，我们把GLM-5.2接入了Claude Code。交给它的任务是：把2026年这届世界杯的小组赛，做成一套完整的前瞻PPT。每一场比赛都要单独一页，包含国旗、对阵时间、场地、关键球员、影响胜负的核心洞察以及赛果预测。已经踢完的比赛直接使用真实赛果。我们还顺手挂了两个自定义的skill上去。一个叫freud-skill，专门用于给模型做认知准备，这个尚未正式发布，先卖个关子。另一个是huashu-design，一套用于制作高保真HTML的设计规范。目标就是看看：两个skill同时压上去，这个国产模型能否接得住。

第一个坎：它差点栽在“世界杯有几场”上

任务一丢出去，第一个惊喜就来了，而且来得非常关键。这里有一个特别容易踩坑的地方：往届世界杯是32支球队，小组赛恰好是48场。这个数字太“合理”了，模型训练知识里多半也是这个旧版本。如果默认用户说的是“48场”，表面看起来没毛病，换一个不太较真的模型，大概率会顺着往下做，最终做出一整套错误的结果。 GLM-5.2没有这样做。它做到一半，自己停了下来。原话大意是：用户说48场，但2026世界杯已经改制为48支球队、12个小组，每组4队踢6场，12组算下来是72场，这个不能凭记忆断言，必须权威核实。然后它真的去查了。FIFA官网、ESPN、维基百科等来源交叉核对。分组信息、已经踢完那几场的真实比分，全部一一核对。这一下，对它的好感度直接拉满。现在判断一个模型智力水平的关键要素，是看它是否知道自己可能记错，是否愿意在该停的地方停下来。知识量多少固然重要，但更关键的是能否通过搜索补足；而这份能够自主纠错的特性，往往较为罕见。这次世界杯恰好改了赛制，72场而非48场，成为一个绝佳的“照妖镜”。一个被遗忘的旧知识，差点把它带进沟里，但事实核查的要求让它自己刹住了车。

它怎么搬动这个庞然大物

确认完数据和样式后，我们又加码了需求——没错，就像项目中临时增加需求的老板。除了72场每场一页，还要每个小组一页形势前瞻，再加上一个整体封面。算下来，这是一个85页的大工程。这种体量，如果一页一页顺序做下去必然崩溃，要么中途中断，要么风格逐渐走样。 GLM-5.2的处理方式截然不同。它没有急着写第一页。两个skill先后发挥作用：freud部分先给自己做了认知准备，将身份锚定为“体育转播视觉总监 + 战术分析师”的合体；接着huashu-design把整套设计系统确定下来。然后它把整个工程拆解为五层流水线：从一个统一的数据源出发，到12个子agent并行研究12个小组，再到批量渲染、最后聚合为一面总览墙。各层如何拆分，它自己在下面这张图里列了出来。这里有一个特别值得注意的判断：它没有让那12个子agent直接去写HTML，只让它们产出结构化的内容，HTML由统一的模板来渲染。理由很实在：让一堆agent各写各的页面，风格一定会混乱。把内容和样式分开，85页的风格才能锁定为一套。这套思路，与平时盯大工程的做法几乎一模一样。它不是在“完成任务”，而是在“设计如何完成任务”，两者之间差了一个段位。而且它很克制，没有头铁地一口气冲完85页，而是先做几页样板让用户确定方向，确认后再批量生成。这正是freud那个skill想要的效果：先确认认知位置是否正确，再放开跑。在错误的方向上狂奔，是最大的浪费。

做出来的东西，到底好不好看

先看全貌。整套85页跑完，铺开是这么一面墙：1张封面、12个小组前瞻、72场比赛，每一场一页。从提出需求到全部落地，前后大约一个小时。再往里看几页细节。首先出了两套风格让用户选择。一套是深炭底搭配金色比分的转播特刊风格，另一套是纸白底配大衬线的杂志编辑风格。老实说，结果超出了预期。信息层次非常清晰，该有的信息层都在，没有遗漏；72场这么大的体量，风格还能保持统一，没有走样。它把一个最容易做散的任务，完成得很扎实。更难得的是，GLM-5.2是一个纯文本模型，它根本看不见自己画出来的页面。那怎么办呢？它自己截了图，再调用一个视觉模型去校验，逐页检查是否有溢出、裁切、字体未加载等问题。一个看不见的人，靠这套“笨办法”把视觉问题全部兜住了。而且，从最终设计效果来看，审美很在线，视觉上能一眼区分核心要点，每一场该有的预测、数据和前瞻信息一样不少。它在执行过程中还会调用多模态能力看图，实际校验PPT的审美和内容边界是否有问题，这已经是一个相当成熟的设计师工作流程了。最终效果如下（强烈建议打开视频看看）：

整体判断

把这一整套跑完，结论是这样的。 1M上下文确实很香。那份又长又啰嗦的项目规范加上两个skill，喂到很深的位置，它还能老老实实遵循，没有读着读着就忘了前面的。以前用短上下文模型，干到一半得反复存档交接，这次基本不需要。而且任务流程如此复杂，最终产出物更是庞然大物，能在一个对话窗口里稳定跑完，确实超出预期。最直观的感受是：现在用两个不同的命令，分别启动原生Claude Code和接了GLM-5.2的Claude Code。干着干着，要不是偶尔翻到最上面瞄一眼模型名，已经基本分不清手里这个到底是GLM-5.2还是Opus 4.8了。输出看得懂、聊得明白、幻觉极低，活儿稳稳给你干完。依靠关键环节调用十几个agent同时运行，整套85页不到一个小时就全部落地，绝对效率非常可观。如果有比较大型的项目需要完成，GLM-5.2 + Claude Code框架，是相当不错的选择。

写在最后

一边在关门，一边在开门。 Fable 5被下线不是它的错，技术本身是好的。但这件事，反而让另一条路更加明确了。其实这阵子，不止智谱一家，好几个国产开源模型都赶在这个节点发布了新版本。说是被这波断供“逼”着吃上的红利也好，说是憋着一口气也好，看着它们一个接一个顶上来，心里确实高兴。现在唯一替它们担心的是算力，只希望大家手里的显卡都撑得住，别被一下子涌进来的人挤爆了。把前沿智能锁进少数人手里、说收回就收回的墙，看着挺高，可在汹涌向前的洪流底下，完全是螳臂当车。智谱在公众号的公告结尾写了两句话，看了很感动： A step closer to frontier intelligence for everyone. The future of AI is open, and it is for the people. 向前沿智能再近一步，为每一个人。AI的未来是开放的，它属于所有人。下周它就开源了。新的东西，总会来的。

来源：https://www.bestblogs.dev/article/94fb38ae?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

其他

延伸阅读

补充最近整理过的热点入口。