清华唐杰:解析大模型,领域研究的伪命题之困
编辑部 整理
量子位 | 公众号 QbitAI
清华教授唐杰最新在微博发表了自己关于AI的一些感悟,非常值得一读~
共八个小点,不算长篇大论,但扎实有料:
基座模型继续scaling仍然高效;真实使用体验想进一步上台阶,长尾能力的对齐和推理增强绕不过去;Agent代表模型开始进入环境、开始形成生产力;一旦模型进入持续交互的世界,记忆机制、在线学习、自我评估就会成为核心工程题,而不是可选项;AI终究要落到替人完成工作、创造增量价值上;领域大模型是个伪命题;
唐杰表示,发微博是想分享一下,希望对大家有用。
兹以推文刊载,供大家广泛阅读、传播。

以下为其感悟原文:
01,关于scaling基座模型
预训练使得大模型已经掌握世界常识知识,并且具备简单推理能力。
更多数据、更大参数和更饱和的计算仍然是scaling基座模型最高效的办法。
02,关于激活对齐和增强推理能力
激活对齐和增强推理能力,尤其是激活更全面的长尾能力是保证模型效果的另一关键,通用benchmark的出现一方面评测了模型通用效果,但也可能使得很多模型过拟合。
真实场景下是如何让模型更快、更好的对齐长尾的真实场景,增强实际体感。
mid和post training使得更多场景的快速对齐和强推理能力成为可能。
03,关于Agent
agent是模型能力扩展的一个里程碑,也是体现ai模型进入人类真实(虚拟/物理)世界的关键。
没有agent能力,大模型将停留在(理论学习)阶段,就类似一个人不断学习,哪怕学习到博士,也只是知识积累,还没有转化为生产力。
原来的agent是通过模型应用来实现,现在模型已经可以直接将agent数据集成到训练过程,增强了模型的通用性,其实难题还是不同agent环境的泛化和迁移并不是那么容易,因此最简单办法也只有不断增加不同agent环境的数据和针对不同环境的强化学习。
04,关于模型记忆
实现模型记忆成为一个必须做的事情,这也是一个模型应用到真实环境必须有的能力。
人类记忆分为短期(前额叶)、中期(海马体)、长期(分布式大脑皮层)、人类历史(wiki或史书)四个阶段。
大模型如何实现不同阶段的记忆是个关键,context、rag、模型参数可能分别对应了人类的不同记忆阶段,但如何实现是个关键,一种办法是压缩记忆,简单存在context,如果大模型可以支持足够长的context,那基本有可能实现短中长期的记忆。
但如何迭代模型知识,更改模型参数这还是个难题。
05,关于在线学习与自我评估
在线学习与自我评估。
有了记忆机理,在线学习成为一个重点,目前的大模型定时重新训练,这有几个问题:
模型无法真正的自我迭代,但模型的自学习自迭代一定会是下一个阶段必然具有的能力;重新训练还比较浪费,同时也会丢掉很多交互数据。
因此如何实现在线学习是个关键,自我评估是在线学习的一个关键点,要想模型自我学习,模型首先要知道自己对还是不对,如果知道了(哪怕概率知道)模型就知道了优化目标,能够自我改进。
因此构建模型自我评价机制是个难题。
这也可能是下一个scaling范式。
continual learning/real time learning/online learning?
06,关于模型研发和应用结合
最后,大模型的发展越来越端到端,不可避免的要把模型研发和模型应用结合起来。
ai模型应用的第一性不应该是创造新的app,他的本质是agi替代人类工作,因此研发替代不同工种的ai是应用的关键。
c h a t部分替代了搜索,部分其实融合了情感交互。
明年将是ai替代不同工种的爆发年。
07,关于多模态和具身
写在最后的是多模态和具身。
多模态肯定是个未来也很有前景,当下的问题是多模态不大能帮助到agi的智能上界,而通用agi的智能上界到底在哪儿还不知道。
可能最有效的方式还是分开发展,文本、多模态、多模态生成。
当然适度的探索这三者的结合肯定能发现一些很不一样的能力,这需要勇气和雄厚的资本支持。
同理,如果看懂了agent就知道具身的痛在哪里了,太难通用了(也不一定),但至少少样本去激活通用具身能力基本不可能。
那怎么办呢,采数据,或者合成数据,都不是那么容易,也贵。
但反之一旦数据规模上去了,通用能力出来了自然会形成门槛。
当然这只是智能方面的难题,对于具身,机器人本身也是个问题,不稳定,故障频繁都限制了具身智能的发展。
2026年这些都将取得长足进步。
08,关于领域大模型和大模型应用
也讨论一下领域大模型和大模型应用。
我一直认为领域大模型就是个伪命题,都agi了哪有什么domain-specific agi……
但,agi还没实现,领域模型会长时间存在(多长,不好说,ai发展实在太快了)。
领域模型的存在本质上是应用企业不愿意在ai企业面前认输,希望构建领域know how的护城河,不希望ai入侵,希望把ai驯化为工具。
而ai的本质是海啸,走到哪里都将一切卷了进去,一定有一些领域公司走出护城河,自然就卷进了agi的世界。
简而言之,领域的数据、流程、agent数据慢慢的都会进入主模型。
而大模型的应用也要回到第一性原理,ai不需要创建新的应用。
ai的本质是模拟人或者代替人或者帮助人实现人类的某些必须要做到事(某些工种)。
可能就是两种,一种就是ai化以前的软件,原来需要人参与的改成ai,另一种就是创造对齐人类某个工种的ai软件,替代人类工作。
所以大模型应用需要帮助到人、创造新的价值。
如果做一个ai软件没人用,不能产生价值,那这个ai软件肯定没有生命力。
参考链接:
https://weibo.com/2126427211/5247011059141988
相关攻略
头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智
智东西编译 陈佳编辑 程茜智东西4月3日消息,今日谷歌DeepMind开源发布Gemma 4系列模型,根据最新博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数
带着 Seedance 2 0 和 ArkClaw 两件新武器,火山引擎开始席卷 MaaS 市场。作者|郑玄两年前,火山引擎说要 All in Token 的时候,很多人觉得这是一句正确但空洞的口号
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更
热门专题
热门推荐
广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。
杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。
5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。
七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。
联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。





