月之暗面:一年前就验证过长思维链,因成本高先搞了长文本
2 月 18 日上午消息:月之暗面研究员反思Long-CoT路径,披露k1.5背后思考
月之暗面研究员Flood Sung最近分享了团队对于k1.5模型的完整思考脉络。他特别提到,2024年9月12日OpenAI o1模型的发布,带来了不小的震撼,也直接引发了一场关于“长思维链”有效性的深度反思。说来有趣,这种Long-CoT的有效性,其实早在一年多前就被验证过——当时,月之暗面Kimi的联合创始人周昕宇就做过实验:用很小的模型,训练它进行几十位的加减乘除运算,然后将细粒度的计算过程一步步合成出来,变成很长的思维链数据来做监督微调,效果出奇地好。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

“当时看到那个效果的震撼感,我至今记得很清楚。”Flood Sung坦言。公司当时清醒地意识到了长上下文的重要性,因此战略重心率先放在了“把上下文搞长”这件事上。相比之下,对Long-CoT的重视程度就显得不足了。现在回头看,核心的考量点其实还是成本。道理很简单:拓展长上下文主要处理的是长文本输入,有预填充技术,也有Mooncake计算框架的加持,成本和速度都在可控范围内。而Long-CoT涉及的是长文本输出,成本要高出一大截,生成速度也会慢很多。在这种情况下,优先把输出搞长,自然就没能成为最高优先级的选项。
然而,后续的反思是深刻的。Flood Sung提出了一个根本性问题:还有什么比模型性能更重要呢?成本和速度有摩尔定律托底,未来一定会持续下降。只要能把性能做上去,其他问题都是可以解决的,至少不再是主要矛盾。所以,结论很明确:必须搞Long-CoT,必须对标o1。“归根结底,我们的目标就是训练模型能像人类一样思考,自由地思考。”Flood Sung总结道。
这一系列反思并非空谈。事实上,在月之暗面Kimi的官方网站上,Flood Sung已经刊发了一篇解密o1破解过程的万字长文。这清晰地预示了,公司不仅关注到了o1的方向,并且已经开启了实质性对标与研究的步伐。
热门专题
热门推荐
全新一代雷克萨斯ES北京车展上市:混动首发29 99万,纯电版本后续推出 2026年北京车展,全新一代雷克萨斯ES正式揭开了面纱并公布售价。首发上市的混合动力版本,官方指导价定在了29 99万元。这只是一个开始,后续纯电动版本也将陆续登场。有意思的是,现款的ES200车型并不会就此退市,而是与新车型
还记得05后小花黄杨钿甜天价耳环风波吗? 时隔近一年,当事人黄杨钿甜终于首次接受采访,正式回应了那场沸沸扬扬的“天价耳环”风波。她本人也在第一时间转发了道歉声明。然而,从网友的普遍反应来看,这份迟来的回应与道歉,似乎并没有起到预想中的效果。 目前,黄杨钿甜的社交媒体评论区已然“沦陷”。前排的热门评论
《黑袍纠察队》第五季幕后:一场让“士兵男孩”都喊难的戏 《黑袍纠察队》第五季正播得火热,各种名场面轮番轰炸观众的眼球。不过,你可能想不到,剧中有些场景拍起来,对演员来说简直是种“折磨”。最近,“士兵男孩”的扮演者詹森·阿克斯就在采访里大倒苦水,透露了本季最难熬的戏份之一——正是他和“鞭炮女”Fire
布林带实战指南:在欧易平台捕捉波段机会的六个关键步骤 先明确一个核心逻辑:布林带的收口,往往预示着市场波动率下降、趋势启动在即;而它的开口,则明确告诉我们波动正在加剧,趋势可能延续。但光知道这个可不够,关键在于如何结合欧易平台的K线图、时间周期、三轨间距、价格突破以及中轨方向进行综合判断。下面,我们
在悬疑剧《方圆八百米》中,陈辉一开始卖药犯罪,只是单纯迫于现实的无奈,但从他用命嫁祸霍开明的那一刻起,他便已经彻底堕落,甚至还多了几分享受的感觉。 最初的陈辉,形象是弱小且无助的,内心充满痛苦与徘徊。他每一次铤而走险,动机都相当明确——为了保护高松格。 然而,事情从这里开始悄然变质。你猜怎么着?后来





