游乐游手机版
首页/业界动态/文章详情

人工智能黑魔法:蒸馏同事经验,炼化自身能力

时间:2026-06-27 14:29
「任何足够先进的技术都与魔法无异。」——阿瑟·克拉克 说起来, "蒸馏 "这个词,总让人隐&隐有种生理上的不适。 不是化学课上那种把水煮沸变水蒸气——而是AI圈子里最近流行的一种做法:把一个人的经验、判断方式、工作方法,提炼成一份结构化的文件,交给AI去执行。这份文件叫skill,整个过程就叫 "蒸馏 "。

「任何足够先进的技术都与魔法无异。」——阿瑟·克拉克

说起来,"蒸馏"这个词,总让人隐&隐有种生理上的不适。

不是化学课上那种把水煮沸变水蒸气——而是AI圈子里最近流行的一种做法:把一个人的经验、判断方式、工作方法,提炼成一份结构化的文件,交给AI去执行。这份文件叫skill,整个过程就叫"蒸馏"。

前不久张雪峰去世,GitHub上立刻冒出一个开源项目,叫"张雪峰.skill"。开发者说,这不是语录合集,是一套"认知操作系统"。他们把张雪峰5本书、十几篇深度采访、三十多条语录背后的思维模型和决策方法提炼出来。你可以问它,比如"我孩子河南考生560分想学金融怎么办",它会像张雪峰一样先追问你家庭背景,然后用就业倒推法分析,最后不留情面地告诉你:先保学校档次再考虑专业。

人没了,Skill还在替他回答问题。

不只是张雪峰。有人蒸馏出了乔布斯skill、马斯克skill、芒格skill、费曼skill、特朗普skill,甚至有毛选skill。还有人做了一整套"数字永生框架",能从你的聊天记录和社交媒体里提炼出你的数字分身。

更值得留意的是"同事Skill"——能把员工的一套工作方式总结出来,然后真人员工就不再需要了。用圈子里的话说:"聚是token,散是skill"。相对应的,有人搞了个"蒸馏协议",戏称"牛马保护法",用来规定公司能不能蒸馏你、蒸馏的东西能不能商用、你的数字分身能不能替代你上班。

这算不算异化?马克思讲的那个——劳动者创造的东西不属于劳动者,反过来控制劳动者。公司把你的能力蒸馏成skill,然后用你的skill替代了你。经典牛马叙事,讲了两百年了。

但如果只是异化,不至于让人不舒服到这种程度。打工人对异化早就麻木了。你告诉我正在被资本剥削,OK,好,顶多叹口气,继续干活。但你要是告诉我,要把我蒸馏成skill——身体会不由自主地缩一下。

这是一种生理上的反应。心理学角度看,这是触碰到了某些心理原型,因而激发了恶心感。

1

蒸馏过程本身

先不聊AI这事,回到"蒸馏"这个词本身,想想这个过程。

蒸馏到底是什么样子?试着在脑子里把这个过程完整播放一遍:一个容器——烧杯或长颈瓶——里面装着液体。加热。温度升上去,液体里的某些成分开始气化,变成蒸汽往上走。蒸汽通过一根管道被导到另一个容器里,在那里冷却,重新变成液体。这部分液体就是馏出物——纯净的、浓缩的、被需要的部分。而留在原来容器底部的,是残渣,要倒掉的东西。

这里面至少有三层让人不舒服的地方。

第一是加热。提取不是温柔的,不是从你身上轻轻舀走一勺。它需要对原料施加压力。你得被加热,被逼着改变状态,你身体里的某些东西才会被逼出来。公司让你把工作经验"沉淀"成文档、把决策逻辑写成SOP、把你的最佳实践"输出"出来——这些听着正常的管理动作,如果用蒸馏的画面去看,就是在对你加温。你得反复追问自己,把模糊的直觉强行翻译成清晰的语言。这个过程不舒服,因为它本质上就是施压。

第二是分离。蒸馏的目的是把"有价值的部分"和"没价值的部分"分开。这里面藏着一个判断:你这个人是一种混合物,其中只有一部分是被需要的——比如你的决策模式、工作方法、判断习惯——这些是馏出物,要被收集。其他的——你的疲惫、情绪波动、每天午饭后犯的困、对工作意义的追问、做判断前盯着窗外发呆的那三分钟——这些是杂质。这个词在使用的一瞬间,就已经把你拆件估值了。

容器本身也让人不舒服。馏出物被收走了,到了一个新的容器里,干净、纯粹、脱离了原来的基质。原来的容器还在,但它已经不重要了。你不是那个馏出物——你的skill是馏出物,你经验的精华是馏出物。你是什么?你是那个被烧过之后留在底部的东西。你是原料,不是产品。

如果换个词,比如"学习""传承""记录""数字化"——这些词也很烦人,但不会让你不舒服。它们的画面里没有火,没有残渣,没有等级判断。但蒸馏不是。蒸馏的物理过程自带一整套关于纯与不纯、精华与废料、有价值与无价值的隐喻。你只要用了这个词,这套隐喻就跟着进来。

所以对"蒸馏"的不舒服,不仅来自蒸馏这件事的后果,也来自它所携带的画面。这个画面告诉你:你是原料,你将被加热,你身上有一部分比另一部分更有价值,有价值的那部分会被取走,然后你就是剩下的那个东西。

但这里有一个问题:"蒸馏"这个词不是AI行业发明的。至少大家最早接触它,是在化学或物理课上。那么AI的人为什么偏偏选了它?它是怎么进入AI领域的?

因为一个人——Jeffrey Hinton,这位AI领域的教*父级人物。

2

Hinton蒸馏大模型

2015年,Hinton和Google的两位同事发了一篇论文,标题叫《Distilling the Knowledge in a Neural Network》——蒸馏神经网络中的知识。

这篇论文要解决的问题是:大模型太大了,跑起来太贵,没法部署到手机上、没法塞进实时服务里。2015年的大模型放到今天看不算大,但当时已经让工程师头疼了——多个模型组成的集成系统,推理一次要把每个子模型都跑一遍,成本扛不住。到了今天,这个问题被放大了千万倍:GPT-4这种几千亿参数的模型,不可能让每个用户的每次请求都跑一遍完整版本。

那怎么办?训练一个小模型。但不是让小模型从头学——不给它看原始训练数据,不让它自己去理解世界,而是让它看大模型怎么答题。

简单举例子:你给大模型一张图片,大模型说:这是猫,概率92%;是豹,概率3.5%;是狗,概率1.2%;是汽车,概率0.001%。正常情况下我们只关心最终答案——猫。但Hinton说,那些"错误答案"上的概率分布才是真正有价值的东西。大模型认为猫和豹有3.5%的相似度、猫和狗有1.2%的相似度、猫和汽车只有0.001%的相似度——这些比例关系包含了大模型对世界的深层理解。它知道猫和豹在视觉上有亲缘关系,但猫和汽车没有。

这种理解不在任何一个"正确答案"里面,它藏在答案之间的缝隙里。然后你让小模型去学的,就是这个完整的概率分布——不只是"答案是猫",而是"面对这张图,每个选项分别有多大可能,彼此之间是什么关系"。

小模型学的不是知识点,是大模型看世界的方式。一个经验丰富的老医生看片子,说"这大概率是良性的,但有一点点像早期恶性的形态,不太像炎症"。如果你只记录他的结论——"良性"——你学到的很少。但如果你完整记录了他对每个可能性的把握程度,你学到的远不只是一个答案,而是他几十年经验沉淀下来的判断结构。

不过要注意,这里学的还是对一个具体对象的判断——这张片子像什么、不像什么。是一张快照,不是一个动态的推理过程。

这个操作,Hinton命名为"蒸馏"。

有意思的是,类似的操作九年前就有人做过了。2006年,一个叫Buciluă的研究者和两个康奈尔的同事发了一篇论文,做的事情本质上一样——把一个大的集成模型的能力转移到一个小模型里。他给这个操作起的名字叫Model compression。模型压缩,一个平平无奇的名字:大的变小的,信息打包,行李装箱。纯粹的工程隐喻,干干净净,没有任何化学意象,没有加热,没有残渣,没有精华和废物的区分。如果这个词活到了今天,我们现在讨论的就是"把人压缩成skill"。你可能会不舒服,但不适感会少一些——毕竟听起来就像把文件打个zip包,没什么大不了的。

但Hinton换了词,而且他不只换了词,他换了一整套隐喻体系。

Hinton不是重复Buciluă的工作,而是有实质性的突破。Buciluă 2006年的做法比较粗暴——用集成模型给大量伪数据打标签,然后让小模型直接学这些标签(硬标签,即最终答案)。Hinton 2015年核心贡献是引入了softmax temperature,也就是温度。这个参数控制的是大模型输出的"软硬程度"。温度设成1,就是常温,模型给出锐利的、高置信度的判断——"这是一只猫,概率99.9%"。把温度调高,比如调到5、调到20,输出就变软了,模型的"内心犹豫"开始暴露——"这大概是猫,但它有一点点像豹,有一丝像狗,甚至跟汽车有那么一丝微弱的关联"。

这些犹豫,这些在常温下被压平的、看不见的细微判断,Hinton给它们起了一个名字,叫dark knowledge,暗知识。就是前面说的那些东西——猫和豹之间3.5%的相似度、猫和汽车之间0.001%的微弱关联——这些藏在"错误答案"缝隙里的概率关系,在正常输出中几乎不可见,升高温度之后才浮现出来。

简单来说,Hinton用了"温度"来控制蒸馏过程。温度低,模型给出确定的判断;温度高,模型的犹豫暴露出来,暗知识浮现。温度太高,有用的信号跟噪声一起出来了,小模型接不住。所以蒸馏的核心技术难题是什么?是控制火候。温度调到多少,决定了你能提取多深的知识。

看到了吗?Hinton做的不只是给一个技术操作换了个名字。他构建了一整套隐喻:有温度、有加热、有显现、有纯化。升高温度,让隐藏的知识结构从黑暗中浮现,然后把它转移到一个新的、更小的容器里。这已经是在用化学过程来形塑AI工程。

不仅是化学。他甚至在论文里用了一个生物学的类比:很多昆虫有两种完全不同的形态,幼虫形态专门用来从环境中吸收能量和养分,成虫形态专门用来移动和繁殖。传统深度学习的问题是,训练和部署用的是同一个模型——你让一个专门用来"吸收"的大家伙去"行动",当然笨重。蒸馏就是把幼虫吸收到的营养转移到成虫体内。

选择"蒸馏"这个词汇的时候,Hinton大概只是觉得它比"压缩"更精确、更生动,背后也有一整套的隐喻体系。他想到的,应该也只是化学课上的蒸馏,一个简单的科学过程,而没有预料到,这个词所携带的隐喻,远大于他使用的那部分。

公元九世纪,一个叫贾比尔·伊本·哈扬的阿拉伯人——西方把他拉丁化叫Geber——是人类历史上第一批系统性实践蒸馏的人之一。他相信,通过蒸馏,可以把物质中最本质的部分分离出来,得到一种最纯粹的东西。那个东西有个名字,叫quintessence——第五元素。四种基本元素之外、更根本、更纯粹的存在。

一两百年后,有人把这个追求推到了极端,说即使是最好的蒸馏产物里仍然混杂着世俗的品质,你必须反复蒸馏——"通过持续的上升和下降"——才能触碰到那个东西。他管那个东西叫"我们的天堂"。

炼金术把整个修炼过程分为七个阶段。蒸馏是第六步——倒数第二步。最有价值的东西在常温下不可见,藏在杂质中间,你需要升温才能让它显现。而炼金术士区分"文火"和"武火"——不同温度提取不同层次的物质,火候猛了,有用的东西跟废物一起蒸出来,产物反而不纯。在炼金术的体系里,蒸馏被描述为"将挥发性的精华从它们在物质中的监牢里释放出来,以纯化的形式将其凝结"。知识被困在物质的监牢里,蒸馏是把它释放出来。这跟Hinton说的"知识被锁在大模型的参数里,蒸馏是把它转移出来",是同一个句子的两种说法。

甚至连细节也能对应上。Hinton的论文里,当学生模型太小的时候,中等温度效果最好,温度太高反而变差。用炼金术的话说就是:小容器承受不住猛火。

而"蒸馏"这个词,也不是第一次被用在人身上。

十六世纪,瑞士有一个医生兼炼金术士,叫帕拉塞尔苏斯。他做了一件事,直接改变了蒸馏这个概念的范围。他烧了一块木头,看着火焰、烟和灰烬,说:火焰是硫,烟是汞,灰是盐。一切物质都由这三种原则构成——硫代表可燃性,汞代表挥发性,盐代表固定性。然后他说:人也一样。

盐是肉体。汞是精神——包括你的想象力、判断力、一切高等心智功能。硫是灵魂——你的情感、欲望、驱动你活下去的那股力量。在帕拉塞尔苏斯的框架里,人不是不可分割的整体。人是混合物。三种原则按比例混合在一起。既然是混合物,它就可以被分离。

帕拉塞尔苏斯甚至认为人体器官的功能本身就是炼金术——你的胃在做什么?在把食物中纯粹的养分和不纯的废物分离。你的肺在做什么?在把空气中有用的成分和没用的成分分离。消化是蒸馏,呼吸是蒸馏。你活着的每一秒,你的身体都在对自己执行炼金术。

蒸馏矿物,是科学。蒸馏人,是什么?如果你看过《钢之炼金术师》,应该立刻反应过来了——这就是人体炼成。在这部动漫里,有一条底线:你可以炼成任何物质,但不能对人执行炼金术。爱德华兄弟违反了这条禁忌,试图用炼金术复活母亲。代价是什么?一个失去了整个身体,一个失去了手臂和腿。而炼成出来的东西,只是一个没有灵魂的肉块。

你可以复制物质构成,但灵魂不在等价交换的范围内。

这个故事听起来可能有点吓人。蒸馏是灵魂操作,帕拉塞尔苏斯说人是混合物可以被分离,炼金术认为蒸馏是把精华从物质的监牢里释放出来——好像我们正在做的事情,跟中世纪的巫术一脉相承。

但这个故事最终走向了大团圆。人类赢了,蒸馏被驯服了,灵魂操作变成了物理操作,物理操作变成了工程参数。一切可控、可解释、可量化。

3

巫术被消灭了,科学胜利了

1675年,法国药剂师Lemery出版了《化学教程》,将炼金术士定义为"骗子和冒充者",切断了化学和炼金术的联系。尽管化学使用了不少炼金术的技术,但炼金术做的事情——追求第五元素、探索灵魂的纯化、在蒸馏器前冥想宇宙的秩序——全是骗术。化学是新的、干净的、理性的。化学不搞那些神神叨叨的东西。

有个学者叫Bruce Moran,他写了一本书就叫《Distilling Knowledge》——蒸馏知识。他在书里描述了这个过程:化学通过重新定义炼金术来与之切割,给自己制造了一段"不可追溯的历史"。它假装自己从来没有跟炼金术沾过边,把以前的"实践性的炼金智慧"重新包装成了"化学事实"。简单来说,化学把自己洗白了。从此,蒸馏就变成了一个干干净净的技术术语。加热,气化,冷凝,收集。没有灵魂,没有第五元素,没有宇宙秩序,只有沸点、温度曲线和产出率。

不仅化学,物理学也完成了类似的切割。牛顿去世之后,留下了大量私人手稿。1872年,剑桥大学拿到了这些手稿,组织了一个学者团队花了十六年分类整理。整理完之后呢?他们把"科学的部分"留下了——光学、力学、数学——把剩下的几乎全部退回给了手稿的拥有者朴茨茅斯伯爵家族。退回去的是什么?牛顿的炼金术手稿,还有他的神学手稿。

于是,同一个人被劈成了两半。符合理性叙事的那一半保留,不符合的那一半装进箱子送回贵族家的阁楼。从此,我们有了教科书里的牛顿:苹果砸脑袋,万有引力,光的色散,微积分。干净利落,一个纯粹的理性巨人,"理性时代的第一人"。

现代世界于是在理性之上诞生了。1917年,在一战即将结束时,马克斯·韦伯站在讲台上,对一群年轻人做了一场演讲,叫"以学术为业"。他总结现代世界的特征,是"世界的祛魅"——原则上不存在神秘的、不可计算的力量。一切都可以通过理性来掌握。你不需要巫师,不需要咒语。你有工程师,你有公式。

太阳升起来了。三百年,蒸馏完成了从灵魂操作到物理操作到工程参数的全部旅程。人类终于把世界上所有的神秘力量都关进了笼子。一切可控,一切可解释,一切可量化。

不过,炼金术从来没有真的消失。你知道英语里管烈酒叫什么吗?Spirits。法语叫esprit,德语叫Geist。这三个词在各自的语言里都同时有两个意思:烈酒,和灵魂。蒸馏出来的酒精,和人的精神本质,用的是同一个词。这不是巧合。这是词源上的直系血亲。炼金术士把蒸馏过程中气化上升的那部分叫做物质的"spirit"——因为它是不可见的、上升的、脱离了物质躯体的。跟灵魂的行为一模一样。后来这个词分了岔,一条走向了酒吧菜单,一条走向了宗教哲学,但词根依然表明,在一瓶威士忌里,有着炼金术的残留。

甚至还有着更直接的回音。2017年,Google AI的研究员Ali Rahimi在NIPS——全世界最重要的AI学术会议之一——上做了一个演讲,引爆了一场行业争论。他的判断是:"机器学习已经变成了炼金术。"他说,这个领域弥漫着一种痛苦,"我们很多人觉得自己在操作一种外星技术"。

他说的不是某一个具体模型不可解释,而是整个领域在建造自己不理解的东西——为什么这组参数有效那组没效,为什么这个架构work那个不work,没有人能给出真正的理论解释,大家靠的是经验、直觉和反复试错。

与Hinton齐名的杨立昆第二天反击,说这个类比是"侮辱性的"——这是一个情绪词。这也难怪,Rahimi用"炼金术"来称呼"机器学习",大概相当于告诉一个化学家你不过是个炼金术师——说你是个骗子,是冒充者。这样的用词,勾起了LeCun一些不好的联想。1990年代,神经网络在实践中已经有效了,但学术界嫌它缺乏理论保证,不够"科学",集体转向了别的方法,神经网络被冷落了十多年。换句话说,上一次有人给这个领域贴上这个标签,LeCun差点失去了一切——他说自己见过类似的标签,可以杀死一个领域。

当然,LeCun也给了实质性的反驳:你说的不是炼金术,是工程。工程实践总是走在理论前面,你不能因为理论还没追上来就说实践是巫术。不过我们依然能看到,驱使他如此迅速而激烈做出反应的,是背后的某种恐惧。

但类似的说法依然在程序员圈子里流传着。在中国也有着一套类似的黑话——训练深度学习模型叫"炼丹",调超参数叫"调丹方",GPU服务器叫"炼丹炉",训练不收敛叫"炸炉了"。没有人组织过这件事,没有哪本教材教他们这样说,他们自己就这么叫了。

4

巫师回来了

故事还没有结束。还记得前面说的那个箱子吗?牛顿被劈成两半,炼金术的那一半被装进箱子退回了朴茨茅斯伯爵家。1936年,朴茨茅斯伯爵的后人缺钱,把那批手稿送进了苏富比拍卖行。经济学家约翰·梅纳德·凯恩斯听说了这件事,但听得太晚,拍卖已经结束了,手稿被分散卖给了几十个买家。凯恩斯花了好几年时间把其中一大部分重新收集回来——主要是炼金术的部分。

然后凯恩斯发现,牛顿写了大约一百万字的炼金术文献。不是随手涂的笔记,是系统性的研究、详细的实验记录、对古代炼金文本逐字逐句的解读。凯恩斯意识到,炼金术对牛顿来说不是什么边缘爱好,不是科学家下班后的消遣。在很多方面,它可能是牛顿毕生的核心工作——比物理学和数学更核心。牛顿相信,通过炼金术的方法研究物质的转化,可以理解流贯整个自然界的创造力。他的科学和他的炼金术不是两个割裂的爱好,而是同一个工程的两个面向。

1946年,牛顿诞辰三百周年纪念活动在剑桥举行。凯恩斯本来准备了一篇演讲,但他已经去世了,演讲稿由他的兄弟代为宣读。他写:

"十八世纪以来,牛顿被视为现代科学家中第一位也是最伟大的一位,一个理性主义者,一个教我们按照冷静而纯粹的理性去思考的人。我不这样看他。牛顿不是理性时代的第一人。他是最后的巫师,最后的巴比伦人和苏美尔人,最后一个以近一万年前那些开始构建我们智识遗产的先人同样的眼光审视这个世界的伟大心灵。"

是的,牛顿是最后的巫师。这一事实让我们不得不重新思考,关于"理性"的历史是不是只是一种叙述方式?或者说,神秘学本身,是不是理性发展的重要力量,而当理性发展到极致的时候,神秘学也将拥有新的力量?只是那个神秘驱动力,事后会被清理掉,就像火箭升空之后抛掉助推器。

万有引力是超距作用——两个物体之间什么都没有,但它们互相吸引。这在十七世纪的机械论框架里是不可思议的,笛卡尔的信徒们攻击牛顿说这是"神秘性质"的复活。牛顿自己也不满意。他在炼金术里寻找的,是一种能解释"物质如何在没有接触的情况下作用于物质"的理论。他没找到,但这个追问本身,这种对"不可见的力"的执念,塑造了他提问的方式——而提问的方式决定了答案的形状。

程序员管训练模型叫"炼丹",这不只是一个玩笑。它精确地描述了一种认知状态:我在操作一个我不完全理解的系统,我知道某些操作会产生某些结果,但我不知道为什么。我调参数靠的不是推导,是手感。我判断模型好不好靠的不是证明,是直觉。这跟炼金术士面对坩埚时的状态,在结构上是同构的。

LeCun说这不是炼金术,是工程。他说得对——但只对了一半。工程的意思是"我不需要完全理解原理,只要能可靠地产出结果"。这确实是当前AI的工作方式。但炼金术也是这样工作的。炼金术士能造出硫酸、盐酸、王水,能提纯金属,能制造合金——这些都是可靠的、可重复的工程成果。炼金术和化学的区别从来不在于"能不能产出结果",而在于"你认为自己在做什么"。炼金术士认为自己在触碰物质的灵魂,化学家认为自己在操作分子。同样的操作,不同的自我理解。

当Hinton写下"蒸馏"这个词的时候,当他用温度来控制知识的显现和隐藏的时候——他的语言背叛了他的自我理解。语言本身在说:你在做的事情,比你以为的更古老,也比你以为的更深。

5

当人也可以被蒸馏

Hinton在2015年发明AI蒸馏的时候,蒸馏的对象是模型。大模型蒸馏成小模型,千亿参数压缩成几十亿参数,成本降一个数量级,性能保留大半。这是一个工程问题,干净利落,没有任何伦理上的模糊地带。你蒸馏的是自己训练出来的模型,有完全的处置权。就像你自己酿的酒,想蒸馏就蒸馏。

而且最初蒸馏的东西也很简单。Hinton那篇论文里蒸馏的是分类概率——大模型看一张图,给出"猫92%、豹3.5%、狗1.2%"这组数字,小模型学的就是这组数字。这是一个相对静态的知识,像是一张照片:这张图像什么,不像什么,各自的程度如何。

但十年之间,蒸馏能提取的东西发生了质变。

2019年,Google发布了DistilBERT——把当时最强的语言理解模型BERT压缩了40%,但保留了97%的性能。这证明了蒸馏在自然语言处理领域同样可行。但DistilBERT蒸馏的还是语言理解能力——模型读完一段文字之后的判断。真正的跃迁发生在2024年。

DeepSeek的R1模型会做一件之前的模型不会做的事:推理。面对一道数学题,它会一步步想,会停下来反思"等等,我前面那步好像有问题",会推翻自己重来。这不是被人教的,是训练过程中自己涌现出来的。然后DeepSeek要把这个671亿参数的巨型模型蒸馏成小模型。问题来了:怎么蒸馏一个会"推理"的模型?Hinton蒸馏的是概率分布——一组数字。R1的推理能力不是一组数字,是一个动态的思考过程。

DeepSeek的做法是:让R1做大量的数学和编程题目,把它的推理过程——每一步怎么想的、在哪里停顿、在哪里反思、在哪里修正——完整记录下来,然后用这些推理轨迹去训练小模型。不是让小模型学R1的答案,而是让小模型学R1怎么一步步想到答案。结果出乎意料:蒸馏出来的32B模型在多个任务上超过了OpenAI的o1-mini,而且事实证明,用大模型生成的合成推理链去训练小模型,效果比用人类专家写的推理链还好。

想想这意味着什么?Hinton那个时代蒸馏的是"判断"——这张图像什么。现在蒸馏的是"思考过程"——面对一个问题怎么推理、在哪里犹豫、在哪里修正方向。从蒸馏一个静态的判断结果,到蒸馏一个动态的认知过程。

这就好比最初你只能从老医生那里学到"这个是良性的"这个结论,现在你能把他看片子时的全部思考过程——他先看哪里、再看哪里、在哪个特征上停留最久、什么时候推翻自己的初始判断——完整复制过来。这个复制品不但好用,在某些维度上甚至比原装还好。

而且在这个过程里,有一条线正在缓缓移动。Hinton蒸馏的是分类概率——这张图像什么。这显然是在操作一个工程对象,跟人没关系。DistilBERT蒸馏的是语言理解——读完一段话之后怎么判断。这也还是工程,但"理解"这个词已经开始让人若有所思。DeepSeek R1蒸馏的是推理过程——面对一个问题,先想什么、后想什么、在哪里犹豫、在哪里修正。"推理过程""犹豫""修正"这些词,到2024年为止,我们还觉得它们专属于人类。当蒸馏的对象从"判断结果"变成"思考过程"的时候,模型蒸馏和人的蒸馏之间的那条边界,就已经开始模糊了。

你蒸馏一个概率分布,那是在搬运数据。你蒸馏一个推理轨迹——怎么犹豫、怎么反思、怎么推翻自己——这跟"提取一个人的决策方式"还有什么本质区别?但光有能力还不够,能力需要一个容器。

2025年10月,Anthropic给Claude发布了一个功能叫skills——一种标准化的能力封装格式。本质上就是一个文件夹,里面放一个SKILL.md文件,用自然语言告诉AI"遇到什么情况、按什么步骤干活"。不需要写代码,会写文档就行。2026年初,OpenClaw框架走红,它把skill系统做成了一个开放的生态。任何人都可以写skill,发布到社区,别人一行命令就能安装使用。

然后有人问了一个看似自然但后果深远的问题:skill里面装的是"怎么做某件事"的操作手册。那能不能装"怎么像某个人一样做事"的操作手册?colleague-skill出现了——把你的同事蒸馏成AI skill。它从同事的飞书消息、钉钉记录、文档、邮件里提取两个维度:工作能力(负责什么系统、代码风格、处理流程)和人格特征(沟通方式、口头禅、决策倾向)。同事离职了,skill还在。你在AI里输入"/create-colleague",就启动蒸馏流程。

从"教AI做事"到"教AI像某个人一样做事",这一步跨得太自然了。skill提供了容器,大模型提供了理解力,一个人的公开产出提供了原料。三样东西凑齐,蒸馏人就不再是科幻概念,而是一个有教程、有工具、有社区的现成操作。然后这个操作爆发了——张雪峰skill、前任skill、牛马保护法……在2026年春天,集中间出现。用AI的人,都开始蒸馏别人,也开始炼化自己。

6

什么消失了?

你注意到这个过程里被丢掉了什么吗?张雪峰在做判断之前有没有过犹豫?他有没有在某个家长的案例面前破例过自己的规则?他有没有某些时候觉得自己的方法论是错的?他说出"不留情面"的话之前,有没有那么一秒钟考虑过对方的感受?这些东西没有留在任何一本书里、任何一段采访里。它们消失了。skill文件里只有他做了什么,没有他犹豫了什么。

模型蒸馏传递的是连续的概率分布——每个选项上犹豫了多少,精度很高。蒸馏人传递的是离散的规则描述——"遇到这种情况按这几步做"。本质上是把连续的、模糊的、充满隐性判断的认知过程,强行压成了可枚举的条目。损耗是巨大的。

但让人不安的不是现在的损耗大。让人不安的是,这个方向是明确的,精度在提高,边界在扩展。今天蒸馏的是写过书的公众人物,明天蒸馏的可能是你在公司内网上留下的所有工作记录——你的邮件怎么写的、审批怎么做的、异常情况怎么处理的。你甚至不需要主动配合,你每天正常上班就是在生成蒸馏原料。

如果你看过《JOJO的奇妙冒险》第六部,应该对这个操作不陌生。普奇神父的替身"天堂制造"能从人身上抽出两张碟片——一张是记忆DISC,一张是替身能力DISC。抽走之后,人还活着,但变成了空壳。碟片可以被插进任何另一个人体内,那个人就获得了原主人的记忆或能力。

skill提取的操作结构跟这个一模一样。你的经验是一张碟,你的方法论是另一张碟,抽走之后存进系统,可以被加载到任何AI里运行。你还在,但你的精华已经不需要你了。

当蒸馏的对象从模型变乘人的时候,炼金术关于灵魂、关于第五元素、关于"人是不是可以被分解"的那些追问,突然不再是中世纪的遗物,而变成了迫在眉睫的现实问题。你的公司要蒸馏你——这时候你需要的不是工程手册,而是帕拉塞尔苏斯式的追问:人到底是不是混合物?如果是,哪些部分可以被分离,哪些不能?分离的代价是什么?谁来承担?

神秘学的"新力量"就在这里。不是说我们要回去信炼金术,而是说,当理性的工具变得足够强大,强大到可以对人本身执行操作的时候,那些被理性驱逐了三百年的问题——关于灵魂、关于整体性、关于什么东西是不可还原的——会重新变得紧迫。不是因为我们变得不理性了,而是因为理性走到了它自己的边界,而那个边界上站着的,恰好是它三百年前赶走的那些幽灵。

海德格尔说,技术的本质是"座架"——把一切存在者都摆置为可计算、可调用的"持存物",包括人本身。你把一条河流变成水力发电站的能量供应者,你把一片森林变成木材的储备库,你把一个人变成"人力资源"——这些都是同一个操作:把活的存在蒸馏成可用的功能。海德格尔写这些话的时候是1950年代,他面对的是工业技术。但你把他的句子里的"持存物"换成"skill",把"座架"换成"蒸馏框架",几乎不需要改动任何其他词。

这不是巧合。蒸馏——无论是化学的、炼金术的还是AI的——从来都不只是一个技术操作。它是现代性的核心隐喻。把世界分解为可分析的部分,提取有用的组分,丢弃"杂质",把馏出物装进标准化的容器里以便流通和使用——这就是现代世界运转的方式。

而每一次蒸馏的对象从物推向人的时候,都会引发一场危机。泰勒把工人的动作分解成标准化的步骤,引发了劳动异化的讨论。心理测量学把人的智力蒸馏成一个IQ数字,引发了关于"智力到底是什么"的百年争论。现在AI要把一个人的经验蒸馏成skill,引发的是同一种不安——只不过这一次,蒸馏的精度和规模都到了前所未有的程度。

所以对"蒸馏"的不舒服,不只是对一个词的反应,也不只是对AI行业的一种批评。它是一种更古老的不安,是四百年来一直有人在表达、但从未被解决的那个问题:当你把一个活的整体分解为部分的时候,那个让它"活着"的东西,去哪了?炼金术士管那个东西叫第五元素。黑格尔管它叫精神的自我运动。海德格尔管它叫存在的澄明。胡塞尔管它叫生活世界。他们用的词不一样,但指的是同一个方向:有些东西只在整体中存在,分析的刀切不到它,蒸馏的火烧不出它。

也许它没有名字。也许它就是那个"没有名字"本身——一切命名都是一种蒸馏,你给一个东西命名的瞬间,就把它从它所处的关系网络里抽离了出来。老子说"道可道,非常道",说的大概也是这件事:能被蒸馏出来的,就不是那个东西本身。

7

我们又不能不蒸馏

写到这里的时候,突然意识到一件事。刚才做的是什么?从一种模糊的生理不适出发,把它拆解成了隐喻分析、词源考古、科学史叙事、技术解读。对自己施加压力,逼自己把一个说不清楚的感觉翻译成说得清楚的语言。把"有价值的部分"——论点、论据、叙事结构——从"没价值的部分"——犹豫、跑题、写了又删的废话——里面分离出来。然后把馏出物装进了一个新的容器里,就是你现在正在读的这篇文章。

蒸馏了自己。而且用的还不是"压缩"。没有把自己的想法打成zip包。确实经历了加热——那种反复追问自己"你到底想说什么"的焦虑。确实经历了分离——把直觉里可以被语言捕捉的部分和不能被捕捉的部分分开。确实制造了残渣——那些想到了但放不进文章里的东西,那些在论证的缝隙里闪了一下就消失的念头,它们还留在脑子里,但已经不属于这篇文章了。

这篇文章是skill吗?某种意义上是的。你读完它,你会获得一种看待"蒸馏"这个词的方式——从炼金术到化学到AI的这条线索,以后你再看到这个词,你会想到帕拉塞尔苏斯,想到牛顿的箱子,想到Hinton的温度参数。这就是判断结构的一部分,被转移到了你身上。

但你没有获得的是什么?是在写这篇文章的过程中,盯着屏幕发呆的那些时刻。是查Buciluă 2006年那篇论文的时候,突然想起高中化学课上蒸馏实验的酒精灯味道。是写到帕拉塞尔苏斯把人拆成硫、汞、盐的时候,心里闪过的一个念头——如果我是混合物,那我的硫是什么?我的汞是什么?那个念头持续了大概两秒钟,然后把它放下了,因为它放不进论证里。它是杂质,也是写这篇文章的一部分动力。没有那两秒钟的走神,后面的段落可能会写得不一样。不知道会怎么不一样,但知道会不一样。

这就是蒸馏真正诡异的地方。它不是一个可以站在外面评论的操作。评论它的过程本身就是它。每一次你试图把活的经验变成死的文字,每一次你试图把混沌的感受变成清晰的论点,你都在执行蒸馏。写作是蒸馏,教学是蒸馏,甚至回忆都是蒸馏——你从一团模糊的感觉里提取出一个叙事,然后那个叙事就替代了原来的感觉,你再也回不去了。

也许需要的不是停止蒸馏,而是学会做一个好的酿酒师。知道什么该提取,什么该留下。知道馏出物不是原物,skill不是那个人,地图不是疆域。知道火焰之下,总有什么东西在消失——而那个消失的东西,也许才是最重要的。

最好的酿酒师知道这一点。威士忌之所以是威士忌,不是因为酒精纯度高,而是因为蒸馏不彻底——那些没被完全去除的"杂质",酯类、醛类、微量的铜离子,才是风味的来源。蒸馏的艺术不在于提纯,而在于控制不纯的程度。

凯恩斯说牛顿是最后的巫师。也许他说错了。也许每一个试图把世界分解为可理解的部分的人,都是巫师。也许整个现代性就是一场持续了四百年的大型蒸馏实验——我们一直在加热,一直在提取,一直在追求更纯粹的馏出物。

而AI是这场实验的最新一步。它把蒸馏的对象从物质推向了知识,从知识推向了人。火越烧越旺,容器越来越精密,馏出物越来越纯。

炼金术有七个阶段。蒸馏是第六步。第七步叫凝固——把纯化后的精华重新注入物质,让它重新获得肉身。没有凝固,蒸馏就只是破坏。你得到了纯粹的灵,但灵不落地,就什么都不是。

第七步还没有人做,第五元素依然没有出现。

来源:https://36kr.com/p/3767548303557385
上一篇鲁大师2026汽车Q1季报流畅度语音AI实测合资能否赢新势力 下一篇iPhone Air 2销量不达预期仍将正常迭代
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿