游乐游手机版
首页/AI热点日报/热点详情

实测GLM-5.2百万上下文:生成85页世界杯前瞻

类型:热点整理2026-07-05
GLM-5 2凭借百万上下文与自主纠错能力,生成85页世界杯前瞻PPT。模型自行核实72场比赛数据,拆解五层流水线并行处理,并借助多模态校验确保视觉质量,展现出稳定的长程任务执行能力。
昨天,一件大事让整个AI行业为之震动。 美国商务部的一封正式信函,直接送达了Anthropic公司。理由是国家安全隐患,要求他们立即终止所有外国人对Fable 5和Mythos 5的访问权限。不仅限于美国境外,就连美国境内的外籍人士、甚至Anthropic自己的外籍员工也一律被禁止使用。按照这个逻辑,连Andrej Karpathy——斯洛伐克籍——也不例外。他前脚刚加入Anthropic,后脚自家最顶尖的模型就用不了了,想想都觉得匪夷所思。 随后,Anthropic做出了一个出人意料的决定:为了合规,索性将Fable 5和Mythos 5对所有人全面关闭。连美国人自己也用不上了。 消息传出后,不少人心头一凉。Fable 5确实实力强劲,被称为“世界最强”并不为过,然而仅仅体验了几天就戛然而止。 更有趣的是,就在昨天下午,智谱迅速发布了一则公告。 公告第一句话是这样写的:“在一些前沿模型突然变得不可用的时刻,我们选择相信另一条路:前沿智能不应只属于少数人,也不应被少数规则随时收回。” 紧接着,GLM-5.2正式亮相。真正可用的1M上下文,下周开源,采用MIT协议。 时间点的选择也十分巧妙。Anthropic是在5点21分收到那封信的,智谱便也将开放时间定在了5点21分。一边在关门,一边在开门,这背后传递出一种鲜明的态度。 GLM-5.2当晚就实地体验了一番。说实话,之前GLM-5、GLM-5.1发布时也经常使用,对智谱这条产品线一直比较熟悉。这次5.2最令人惊喜的,是直接配备了1M的长上下文。 有了这个能力,就想着能不能搞点大项目。

别人让模型猜比分,有人想玩点不一样的

最近世界杯激战正酣,刷到不少博主在用大模型预测比赛胜负。 但说实话,让大模型随口吐个预测比分,实在太简单了。反正它怎么编都能给个数,加上那么多人预测,总会有个别“蒙对”的幸存者,其实没什么意思。 要玩点不一样的,尤其想验证一下GLM-5.2在超长上下文中是否会犯迷糊、超复杂工程是否扛得住。 于是,我们把GLM-5.2接入了Claude Code。 交给它的任务是:把2026年这届世界杯的小组赛,做成一套完整的前瞻PPT。每一场比赛都要单独一页,包含国旗、对阵时间、场地、关键球员、影响胜负的核心洞察以及赛果预测。已经踢完的比赛直接使用真实赛果。 我们还顺手挂了两个自定义的skill上去。 一个叫freud-skill,专门用于给模型做认知准备,这个尚未正式发布,先卖个关子。另一个是huashu-design,一套用于制作高保真HTML的设计规范。 目标就是看看:两个skill同时压上去,这个国产模型能否接得住。

第一个坎:它差点栽在“世界杯有几场”上

任务一丢出去,第一个惊喜就来了,而且来得非常关键。 这里有一个特别容易踩坑的地方:往届世界杯是32支球队,小组赛恰好是48场。这个数字太“合理”了,模型训练知识里多半也是这个旧版本。如果默认用户说的是“48场”,表面看起来没毛病,换一个不太较真的模型,大概率会顺着往下做,最终做出一整套错误的结果。 GLM-5.2没有这样做。 它做到一半,自己停了下来。原话大意是:用户说48场,但2026世界杯已经改制为48支球队、12个小组,每组4队踢6场,12组算下来是72场,这个不能凭记忆断言,必须权威核实。 然后它真的去查了。FIFA官网、ESPN、维基百科等来源交叉核对。分组信息、已经踢完那几场的真实比分,全部一一核对。 这一下,对它的好感度直接拉满。 现在判断一个模型智力水平的关键要素,是看它是否知道自己可能记错,是否愿意在该停的地方停下来。知识量多少固然重要,但更关键的是能否通过搜索补足;而这份能够自主纠错的特性,往往较为罕见。 这次世界杯恰好改了赛制,72场而非48场,成为一个绝佳的“照妖镜”。一个被遗忘的旧知识,差点把它带进沟里,但事实核查的要求让它自己刹住了车。

它怎么搬动这个庞然大物

确认完数据和样式后,我们又加码了需求——没错,就像项目中临时增加需求的老板。 除了72场每场一页,还要每个小组一页形势前瞻,再加上一个整体封面。算下来,这是一个85页的大工程。 这种体量,如果一页一页顺序做下去必然崩溃,要么中途中断,要么风格逐渐走样。 GLM-5.2的处理方式截然不同。 它没有急着写第一页。两个skill先后发挥作用:freud部分先给自己做了认知准备,将身份锚定为“体育转播视觉总监 + 战术分析师”的合体;接着huashu-design把整套设计系统确定下来。 然后它把整个工程拆解为五层流水线:从一个统一的数据源出发,到12个子agent并行研究12个小组,再到批量渲染、最后聚合为一面总览墙。各层如何拆分,它自己在下面这张图里列了出来。 这里有一个特别值得注意的判断:它没有让那12个子agent直接去写HTML,只让它们产出结构化的内容,HTML由统一的模板来渲染。 理由很实在:让一堆agent各写各的页面,风格一定会混乱。把内容和样式分开,85页的风格才能锁定为一套。 这套思路,与平时盯大工程的做法几乎一模一样。它不是在“完成任务”,而是在“设计如何完成任务”,两者之间差了一个段位。 而且它很克制,没有头铁地一口气冲完85页,而是先做几页样板让用户确定方向,确认后再批量生成。这正是freud那个skill想要的效果:先确认认知位置是否正确,再放开跑。在错误的方向上狂奔,是最大的浪费。

做出来的东西,到底好不好看

先看全貌。整套85页跑完,铺开是这么一面墙:1张封面、12个小组前瞻、72场比赛,每一场一页。从提出需求到全部落地,前后大约一个小时。 再往里看几页细节。 首先出了两套风格让用户选择。 一套是深炭底搭配金色比分的转播特刊风格,另一套是纸白底配大衬线的杂志编辑风格。 老实说,结果超出了预期。 信息层次非常清晰,该有的信息层都在,没有遗漏;72场这么大的体量,风格还能保持统一,没有走样。它把一个最容易做散的任务,完成得很扎实。 更难得的是,GLM-5.2是一个纯文本模型,它根本看不见自己画出来的页面。那怎么办呢?它自己截了图,再调用一个视觉模型去校验,逐页检查是否有溢出、裁切、字体未加载等问题。一个看不见的人,靠这套“笨办法”把视觉问题全部兜住了。 而且,从最终设计效果来看,审美很在线,视觉上能一眼区分核心要点,每一场该有的预测、数据和前瞻信息一样不少。它在执行过程中还会调用多模态能力看图,实际校验PPT的审美和内容边界是否有问题,这已经是一个相当成熟的设计师工作流程了。 最终效果如下(强烈建议打开视频看看):

整体判断

把这一整套跑完,结论是这样的。 1M上下文确实很香。那份又长又啰嗦的项目规范加上两个skill,喂到很深的位置,它还能老老实实遵循,没有读着读着就忘了前面的。以前用短上下文模型,干到一半得反复存档交接,这次基本不需要。而且任务流程如此复杂,最终产出物更是庞然大物,能在一个对话窗口里稳定跑完,确实超出预期。 最直观的感受是:现在用两个不同的命令,分别启动原生Claude Code和接了GLM-5.2的Claude Code。干着干着,要不是偶尔翻到最上面瞄一眼模型名,已经基本分不清手里这个到底是GLM-5.2还是Opus 4.8了。输出看得懂、聊得明白、幻觉极低,活儿稳稳给你干完。 依靠关键环节调用十几个agent同时运行,整套85页不到一个小时就全部落地,绝对效率非常可观。如果有比较大型的项目需要完成,GLM-5.2 + Claude Code框架,是相当不错的选择。

写在最后

一边在关门,一边在开门。 Fable 5被下线不是它的错,技术本身是好的。 但这件事,反而让另一条路更加明确了。 其实这阵子,不止智谱一家,好几个国产开源模型都赶在这个节点发布了新版本。说是被这波断供“逼”着吃上的红利也好,说是憋着一口气也好,看着它们一个接一个顶上来,心里确实高兴。现在唯一替它们担心的是算力,只希望大家手里的显卡都撑得住,别被一下子涌进来的人挤爆了。 把前沿智能锁进少数人手里、说收回就收回的墙,看着挺高,可在汹涌向前的洪流底下,完全是螳臂当车。 智谱在公众号的公告结尾写了两句话,看了很感动: A step closer to frontier intelligence for everyone. The future of AI is open, and it is for the people. 向前沿智能再近一步,为每一个人。AI的未来是开放的,它属于所有人。 下周它就开源了。新的东西,总会来的。
来源:https://www.bestblogs.dev/article/94fb38ae?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。