智谱唐杰为GLM-5.3全球征集意见，评论区呼唤视觉能力_AI热点日报

智谱唐杰为GLM-5.3全球征集意见，评论区呼唤视觉能力

类型：热点整理2026-07-03

GLM-5 3功能公开征集引发热议，用户最迫切需求是视觉能力。智谱虽拥有自研多模态技术，但旗舰模型定位为极致智能的纯文本模型。面对竞争压力，GLM-5 3是否会加入视觉能力备受关注。

GLM-5.3 用户需求深度解析：为何视觉能力成为用户呼声最高的功能？

在人工智能领域，每一次旗舰模型的迭代都牵动着开发者与用户的广泛关注。近期，智谱AI灵魂人物、清华大学教授唐杰公开征集下一代GLM-5.3版本功能建议，迅速引爆全网讨论。本文将系统梳理此次事件中用户最迫切的功能需求、背后的技术争议以及模型发展方向，帮助你深入理解纯文本模型与多模态能力的博弈。

一、事件回顾：唐杰的“众筹式”开发

唐杰教授在社交媒体上直截了当地问道：“各位！下一个版本的GLM，你有哪些期待？”

这条动态迅速收获超过40万浏览量。背后原因在于，智谱AI此前已多次“有求必应”——去年GLM-4.6开源时，唐杰同样广泛征集过意见，用户的多项需求在后来的版本中陆续得到实现。因此，这次征集被普遍视为真正影响产品发展方向的重要机会。

二、用户需求清单：呼声最高的竟是“视觉能力”

在评论区，用户们详细列出了各自的愿望清单，主要涵盖以下几点：

更强大的Agent能力：让模型能够自主调用工具，独立完成复杂任务。
超长上下文保持质量：在百万Token级别下依然具备精准的理解与推理能力。
更灵活的API接口：降低集成门槛，适配更多实际应用场景。
桌面级应用（类似Codex）：方便开发者在本地直接使用和调试。

然而，最频繁出现的用户期待是——“视觉！视觉！视觉！”

三、痛点分析：为什么用户对纯文本模型“又爱又恨”？

两周前，智谱刚刚开源了GLM-5.2。该模型在代码生成领域表现极为突出：开源界AI编程性能第一、全球第二，仅次于传奇级模型Fable-5。

但GLM-5.2定位为纯文本模型，虽然能支持百万Token超长上下文与深度逻辑推理，却没有搭载视觉编码器，因此无法理解图片内容或生成图像。而其直接对标的Fable-5则是原生多模态模型，视觉能力一应俱全。这种功能上的显著落差，让用户们纷纷感叹：“我们也想拥有视觉能力！”

实用提示：纯文本模型与多模态模型的关键区别在于是否配备视觉编码器。纯文本模型仅能处理文字信息，而多模态模型可以同时理解图像、视频等多种类型的数据。如果你需要模型分析截图、设计稿或网页界面，多模态能力是必不可少的刚需。

四、技术真相：智谱并非做不出视觉，而是战略选择

不少用户误以为智谱缺乏视觉能力，但实际情况恰恰相反：

今年4月，智谱就已发布过GLM-5V-Turbo，这是一款原生的多模态Coding基座模型，从预训练阶段就将视觉与文本深度融合，能够看懂设计稿、截图以及网页界面，直接生成可运行代码，实现了“视觉+代码+Agent”的一体化能力。
智谱此前还推出了多款多模态模型，CogVLM视觉编码器正是出自他们之手。唐杰本人也发表过大量与视觉技术相关的学术论文。

因此，问题并非“有没有视觉能力”，而是智谱并未将视觉能力整合到最强旗舰模型GLM-5.2中。这背后体现的是唐杰更深层的战略理念。

五、科学家的视角：模型智能优先于功能多样性

唐杰在去年底的大模型年终总结中明确阐述过他的观点：

“多模态是未来的发展方向。但问题是，当前的多模态技术对于提升AGI的智能上界，帮助相对有限。可能最有效的策略还是分开发展——文本、多模态、多模态生成分别优化。当然，适度探索这三者的融合，势必能发现一些独特的能力，但这需要巨大的勇气和雄厚的资本支持。”

作为长期奋战在一线的AI科学家，唐杰始终聚焦于第一性原理——模型智能。在他看来，视觉能力可以让模型更实用，但要让模型从根本上变得更聪明，核心仍然要依靠复杂推理的硬实力。因此，GLM-5.2的定位是“极致智能的纯文本模型”，而视觉能力则被安排在了另一条产品线中。

常见疑问：为什么用户和科学家的视角存在差异？
解答：用户追求的是“当下好用”——上传一张图片模型能准确识别，截个屏幕模型能快速理解；而科学家追求的是“未来更聪明”——持续提升模型的理解和推理能力上限。两者在短期目标上并不完全一致，但从长远看，最终会趋于融合。

六、竞争压力：对手已全面拥抱多模态

智谱并非在孤军奋战，众多竞争对手早已将多模态作为旗舰模型的标配：

Kimi K2.5：今年1月即实现了原生的多模态能力。
Qwen3.5-Omni：三月份推出了端到端统一文本、图像、音频、视频的模型。
Gemini 3：原生支持文本、图像、音频、视频的一体化处理。

面对这样的市场格局，GLM旗舰款补足视觉能力已迫在眉睫。业界普遍高度关注即将到来的GLM-5.3能否真正回应广大用户的强烈呼声。

七、唐杰近期分享：值得关注的四个观点

最后，附上唐杰在社交媒体上分享的四张图片，有助于更深入理解其技术哲学：

实用提示：如果你持续关注GLM-5.3的发布动态，可以留意唐杰的社交媒体账号（如X平台 @jietang）以及智谱官方公告。同时，积极参与社区讨论，也能让你的具体需求更有可能被纳入模型开发规划。

常见问题汇总

Q：GLM-5.2已经很强大了，为什么用户还强烈要求加入视觉能力？
A：GLM-5.2是纯文本模型，虽然在代码生成、逻辑推理方面表现优异，但无法处理图像输入。许多实际应用场景（如截图生成代码、设计稿分析、网页理解）高度依赖视觉能力，因此用户非常迫切地要求补全这一短板。
Q：智谱是否因为技术限制才没有加入视觉能力？
A：并非如此。智谱拥有自研的CogVLM视觉编码器，并已发布了GLM-5V-Turbo等多模态模型。未将视觉能力整合入旗舰模型，是出于战略层面的考量——优先提升模型的智能上限，而非单纯增加功能丰富度。
Q：GLM-5.3会加入视觉能力吗？
A：目前官方尚未正式确认。但从用户呼声和市场竞争压力来看，加入视觉能力的可能性非常大。唐杰发起的征集活动正是为了收集反馈，最终版本将综合考虑各方需求做出平衡。
Q：纯文本模型与多模态模型哪个更好？
A：没有绝对的好坏之分，关键在于应用场景。纯文本模型在复杂推理和长上下文处理上往往表现更优；多模态模型则在视觉理解和交互丰富度上更胜一筹。未来，两者的深度融合是行业发展的必然趋势。

结语

GLM-5.3的征集事件，清晰地折射出用户需求与技术战略之间的微妙张力。一边是开发者渴望“即插即用”的视觉能力，另一边是科学家对AGI智能天花板的执着追求。但无论如何，这场技术与需求的博弈，终将助推GLM走向更实用、更智能的形态。让我们共同期待GLM-5.3最终给出的答案。

参考链接：
[1] https://x.com/jietang/status/2071454597521215748?s=20
[2] https://x.com/ZixuanLi_/status/2071491673511674059?s=20
[3] https://m.weibo.cn/status/5247011059141988

来源：https://www.bestblogs.dev/article/2de01ee5?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

其他

延伸阅读

补充最近整理过的热点入口。