近期,Redis创始人antirez再度谈及这一话题,其核心立场非常明确——他坚决反对“中国模型之所以表现突出,主要是通过API蒸馏美国模型”这一观点。
在他看来,将中国开源或闭源模型的进步简单归因于“偷偷用GPT或Claude的API生成数据来蒸馏”,在严格的机器学习原理上根本站不住脚。
antirez的论证主要围绕三个层次展开
首先,所谓的“API蒸馏”在严格意义上的“软蒸馏/白盒蒸馏”面前几乎不可能实现。真正的知识蒸馏要求完整访问Teacher模型的logits(概率分布)、思维链推理轨迹以及内部表示。而商业API只返回最终文本,完全无法获取这些内部信息。他将此比喻为“只看到复杂曲面上的几个点,就想完整复刻整个曲面”,在数学上近乎科幻。
其次,即便退一步承认“黑盒蒸馏”(硬蒸馏)可行,其作用也极其有限。利用API生成的文本数据进行SFT(例如Alpaca、Vicuna这类模型),确实能改善模型的回复风格、填补部分狭窄的知识盲区,或让模型更擅长遵循特定格式。但仅凭这些,绝不可能创造所谓的“前沿通用能力”。那种底层能力的提升源于海量预训练,即万亿Token级别的数据与巨大的算力投入。他明确指出,缺少思维链等内部信息,即使拥有Teacher生成的轨迹,充其量也只是“在风格上做调整,或填补非常小的知识空白”。
最后,退一万步讲,即便给予完整的模型访问权限,蒸馏出一个前沿模型也极为困难。如今很多前沿的中国模型已是开源状态,但包括欧洲一些实验室在内,依然难以训练出能与之对标的模型。这本身就是最好的证据——蒸馏或复刻远非“有数据就能轻松复制”那么简单。
因此,antirez的结论是:中国模型与美国模型的真正差距更多源于算力获取的限制,而非单纯的技术抄袭或蒸馏。他不否认实际能力差距,但坚决反对将这种差距归因于“蒸馏了美国模型”。
当然,反对的声音也存在
有些人认为,“利用原始LLM的响应进行蒸馏完全可行,只需API访问权限即可”,并举例说Alpaca和Vicuna就是这样训练出来的。
这里就引出一个核心问题:“蒸馏”一词在业界已被严重滥用和误解。大家口中所说的“蒸馏”,常常将两种技术混为一谈:
- 硬蒸馏(黑盒):仅使用Teacher生成的离散Token序列训练Student,采用标准交叉熵损失。这正是Alpaca和Vicuna采用的方式。
- 软蒸馏(白盒):需要Teacher的完整概率分布,通过KL散度让Student模仿Teacher的软标签。这要求白盒访问或API暴露logits,目前主流商业API基本不提供。
一篇2026年的论文《Memorization Dynamics in Knowledge Distillation for Language Models》也明确区分了这两者,同时指出在黑盒API场景下,硬蒸馏是可行且常用的方法,但会比软蒸馏继承更多Teacher特有的记忆样本。
姚顺宇老师在访谈中也提到了“硬蒸”与“聪明的蒸”在实践策略上的差异。从工程视角看,两者高下立判:
- 简单粗暴的硬蒸:直接让Claude、GPT大量生成Token,然后一股脑塞进自己的模型里强制训练。在他看来,这既“不道德”,也“愚蠢”,说明公司没有想明白方向,只是把强模型当成了“数据打印机”。
- 聪明的蒸:把强模型当作辅助工具和评价者,有策略、有目的地融入自己的训练系统。例如,用于筛选高质量合成数据、充当奖励模型或验证器、组织多智能体协作生成数据、混合真实数据与合成数据,甚至进行迭代式自我改进。
简单来说:粗暴硬蒸 = 低水平重复,聪明的蒸 = 高水平工程。
那么,分歧到底在哪里?
antirez认为不可行的,主要是基于“白盒/软蒸馏”的理想情况。而他主张中国模型的真实进步源自自身的算力投入、数据工程和研究工作,而非通过API就能轻松“蒸馏”出前沿能力。若将后者视作主要解释,既违反机器学习基本原理,也低估了真正构建强模型的难度。
很多人日常讨论中并不严格区分这两种蒸馏方式,这正是分歧的根源。用通俗的话说:
- 软蒸馏:老师不仅写下答案,还说出思考过程和信心:“我算出来17,概率85%,因为……”,学生学到深层思考和暗知识,变得更聪明。
- 硬蒸馏:老师只在黑板上写最终答案:“10+7=17”。学生反复抄答案,学会了格式,但完全不知道老师是怎么算的。
所以回到这次争论,我个人的看法是,antirez在“纯硬蒸做不出DeepSeek”这一点上毫无疑问是正确的。这是行业的技术共识。
