首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
这一次,梁文锋和杨植麟隔空握手

这一次,梁文锋和杨植麟隔空握手

热心网友
62
转载
2026-04-26

真是热闹的一周

周一,Kimi刚发完K2.6;周五,万众瞩目的DeepSeek V4就来了。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这种感觉是不是很熟悉?过去一年里,这两家公司的节奏总是如此:不是前后脚发布模型,就是先后抛出重磅技术论文。市场热度刚被一方点燃,技术讨论的接力棒立刻就被另一方接了过去。

回想更早时候,提起中国开源模型,几乎所有人的第一反应都是DeepSeek。尤其是其R1模型发布后,这家公司几乎以一己之力,刷新了全球市场对中国AI技术实力的认知,更重要的是,它点燃了整个中国AI创业圈的信心。

一个明显的信号是,此后越来越多的中国团队开始推出具备强劲竞争力的模型,并贡献出具有全球影响力的研究成果。

技术上的互相借鉴与追赶,成了这场竞赛中最有趣的看点。2025年7月,被《自然》杂志称为“又一个DeepSeek时刻”的Kimi K2模型,在底层架构上首次大规模验证了二阶优化器Muon,同时采用了由DeepSeek验证过的MLA注意力机制。不到一年,2026年4月,DeepSeek V4也在架构上跟进,用Muon优化器取代了沿用十年的Adam。

这或许正是开源最大的魅力所在:它让顶尖技术得以共享,成为中国公司加速追赶美国闭源巨头的共同燃料。

如今,它们是中国目前唯二总参数超过万亿且已公开权重的模型,也是最具国际影响力的中国AI代表。就连全球芯片巨头英伟达,在展示其下一代芯片性能时,选用的标杆模型也来自DeepSeek和Kimi。

不仅如此,两家公司都在向深度学习的底层架构发起挑战。DeepSeek有mHC残差连接,Kimi则提出了引发硅谷技术圈热议的“注意力残差”。这场竞赛,早已超越了单纯的性能比拼。

01 技术路径:一个降本,一个增效

虽说DeepSeek V4和Kimi K2.6在同一周发布,但两者的技术侧重点其实泾渭分明。

V4的核心突破在于对“百万上下文”的成本进行了重构。它通过一套全新的混合注意力机制,将单token推理的计算量压缩到V3.2的27%,KV Cache更是降至10%。这套结合了压缩稀疏注意力和重度压缩注意力的方案,让百万级上下文从昂贵的技术演示,变成了可大规模普及的基础设施。

同时,V4针对智能体(Agent)场景做了专项优化。在后训练阶段,它将Agent能力作为独立方向进行单独训练;工具调用格式从JSON换成了带特殊token的XML结构,确保了跨轮次推理痕迹在工具调用场景下的完整保留。为了支撑Agent的强化学习训练与评测,DeepSeek还自建了名为DSec的沙箱平台,单集群即可并发管理数十万个沙箱实例。

K2.6的方向则更偏向长程编码与Agent集群协作。它在内部的Kimi Code Bench评测中得分68.2,较K2.5的57.4提升了约20%。其设计最高可支持300个子Agent并行协作,完成长达4000个步骤的复杂任务。

02 Kimi的进化:从聊天窗口到生产力引擎

回顾Kimi过去一年的技术路线图,能清晰地看到其战略重心的转移。

2025年2月,Kimi发布Moonlight系列模型,首次将二阶优化器Muon应用于480亿参数的大模型,验证了新一代优化器的可行性。4月,Kimi-VL模型发布,在Moonlight基础上引入MoonViT视觉编码器,为多模态理解打下基础。7月,Kimi首次将Muon优化器扩展到万亿参数规模,推出K2开源模型。

到了10月,Kimi发布Kimi Linear线性注意力架构,核心目标是在保住长上下文能力的同时,大幅降低处理超长文本的计算和显存成本。这一举动释放了一个明确信号:创始人杨植麟的野心,已不止于训练更好的模型,而是要对模型的底层架构“动手术”。

随后,Kimi发布并开源了支持图片和视频理解的万亿参数模型K2.5。2026年3月,其关于“注意力残差”的论文再次对Transformer底层结构发起挑战,甚至收获了马斯克本人在X平台上的称赞。紧接着便是前几天的K2.6,一个围绕长周期编码、Agent执行和工程任务能力构建的模型。

这一系列动作表明,Kimi正坚定地从消费级对话产品,向生产力工具转型。

2026年3月,杨植麟在英伟达GTC大会的演讲中,用三个关键词概括了Kimi的规模化(Scaling)策略:Token效率、长上下文、Agent集群。他指出,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。当下的规模化竞争,早已不是简单的资源堆砌,而是在计算效率、长程记忆和自动化协作上同时寻找规模效应。

市场给出了最真实的反馈。一家公司最怕的莫过于只有媒体声量,却没有开发者采用。但Kimi显然跨过了这道坎。无论是在OpenRouter平台,还是在多数Agent工具的默认接口里,K2.5和K2.6都是主流选项。截至发稿,Kimi和DeepSeek都位列OpenRouter的TOP3模型,在部分评测榜单上,K2.6甚至暂时领先。

K2.6持续强化Agent、长任务和编码能力,正是这一战略的延续。杨植麟真正押注的,是生产力场景。这构成了Kimi过去一年最关键的变化:它不再仅仅满足于告诉用户“我能帮你读更长的文件”,而是在试图回答一个更底层的问题——模型怎样才能在更长时间、更复杂任务、更高频的工具调用下保持稳定输出?

长上下文解决记忆和信息承载,线性注意力解决成本和扩展性,Agent集群解决复杂任务拆解,编程能力则解决模型的理解与执行。这几条产品线看似独立,实则共同指向一个目标:将Kimi从一个好用的聊天窗口,转变为能够承接真实工作的基础模型。

这种转变也获得了更高层面的认可。4月,杨植麟受邀作为唯一的大模型创业者代表,参加了总理主持的经济形势专家和企业家座谈会。这位1993年出生的年轻人,成为座谈会上最年轻的参会者。而就在一个月前,他刚在2026中关村论坛年会全体会议上发表演讲,系统阐述了中国AI团队如何通过底层架构的“推倒重建”,来打破沿用十年的行业技术标准。

显然,Kimi已经从一家创业公司,成长为代表中国AI某条重要技术路线的符号。其成长路径与DeepSeek存在明显差异,但正是这种技术选择上的不同,让中国开源模型的生态呈现出更多可能性。

03 双星并耀:中国开源模型的两条腿

过去在讨论这两家公司时,很容易陷入一种误区:总想比出个“谁的模型更好”、“谁才是中国的OpenAI”。

但事实上,将DeepSeek和Kimi简单理解为“谁赢谁输”的零和博弈,本身就偏离了重点。它们更像中国开源模型对外竞争的两条腿,不存在谁取代谁,而应该是一种互相刺激、彼此促进的共生关系。

两家公司相继证明了一件事:做前沿模型未必需要无限的资源,关键在于算法创新与工程优化的深度结合。它们在模型算法、工程效率、开源路线和降低推理成本上的贡献,无疑是中国AI过去一年最重要的技术事件之一。它们彼此竞争,但也共同抬升了中国开源模型的技术上限。

真正重要的不是谁先到达终点,而是它们共同把中国模型的竞争维度给拆解开了。过去评价一家模型公司,往往只看榜单分数、参数规模、API价格和发布会声量。但现在,模型公司真正的护城河,已经超越了“模型聪不聪明”的层面,转而围绕能否形成一整套自洽且领先的技术路线。

在这个框架下看,DeepSeek把第一件事做到了极致。它让外界看到,中国公司可以用更高的工程效率,把模型训练和推理成本打下来;可以把技术报告写到足够透明;可以把权重开放得足够激进。它建立的是一种“开源信任”。开发者愿意研究、复现、部署它的模型,不仅仅是因为它提供了一个API,更是因为它把背后的方法论也毫无保留地拿了出来。

Kimi则补上了另一块关键拼图。它最早被用户记住是因为长文本和聊天产品,但到了K2.6,它讲述的故事已经不是一个更会聊天的助手,而是模型如何深度融入真实工作流。长程编码、Agent集群、工具调用、长周期任务——这些能力没有“霸榜”那么直观,却直接决定了模型能否从“被试用”走向“被依赖”。如果说DeepSeek解决的是模型够不够强、够不够便宜、够不够开放的问题,那么Kimi更关心的是模型能不能真的替人完成复杂任务。

所以,将这两家公司放在一起看,意义反而更加凸显。作为观察者和用户,我们乐见其成,因为产业的健康发展正需要这样的多元繁荣。

中国AI真正值得兴奋的,并非仅仅出了一个DeepSeek。而是在DeepSeek的带动下,像Kimi这样的公司依然能凭借自身探索,成长为另一座技术高峰。这说明中国AI公司已经开始在不同维度上找到自己的独特位置,不再是简单的模仿者,而是真正在探索属于自己的那条技术路线。

DeepSeek与Kimi在技术上的互相借鉴与赋能,也印证了开源生态的核心价值在于协作。现在的问题早已不是“DeepSeek和Kimi谁更强”,而是它们能否继续保持这种良性的竞争关系,在技术上持续互相刺激、共同进步。

中国开源模型要真正在全球舞台站稳脚跟,需要的不是一家独大,而是多家公司在不同的技术方向上都能达到世界级水平。DeepSeek和Kimi的存在,让这种可能性变得前所未有的清晰和真实。

来源:https://www.tmtpost.com/7967155.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

这一次,梁文锋和杨植麟隔空握手
科技数码
这一次,梁文锋和杨植麟隔空握手

真是热闹的一周 周一,Kimi刚发完K2 6;周五,万众瞩目的DeepSeek V4就来了。 这种感觉是不是很熟悉?过去一年里,这两家公司的节奏总是如此:不是前后脚发布模型,就是先后抛出重磅技术论文。市场热度刚被一方点燃,技术讨论的接力棒立刻就被另一方接了过去。 回想更早时候,提起中国开源模型,几乎

热心网友
04.26
DeepSeek崩宕10小时:V4冲击波将至,梁文锋呼吁提前准备
科技数码
DeepSeek崩宕10小时:V4冲击波将至,梁文锋呼吁提前准备

文 | 字母AIDeepSeek网页和App在连崩10多个小时后终于恢复了。这件事给梁文锋提了个醒,网上都说4月份就要发布DeepSeek-V4了,到时候DeepSeek面临的压力会比现在大得多。怎

热心网友
03.30
梁文锋:DeepSeek崩溃10小时为V4冲击波做准备
科技数码
梁文锋:DeepSeek崩溃10小时为V4冲击波做准备

DeepSeek网页和App在连崩10多个小时后终于恢复了。这件事给梁文锋提了个醒,网上都说4月份就要发布DeepSeek-V4了,到时候DeepSeek面临的压力会比现在大得多。怎样让服务器在峰值

热心网友
03.30
DeepSeek V4与腾讯混元新模型将于三月同步发布
科技数码
DeepSeek V4与腾讯混元新模型将于三月同步发布

3月14日消息,据《白鲸实验室》爆料,DeepSeek V4 和姚顺雨领衔操刀的混元新模型,均预计将于下个月(2026 年 4 月)发布。3 月 11 日,OpenRouter 新上线了两个神秘模型

热心网友
03.14
梁文锋谈AI战事:行业巨头都在关注的核心趋势
科技数码
梁文锋谈AI战事:行业巨头都在关注的核心趋势

梁文锋作者 冯雨晨此刻,诸神就位。互联网巨头纷纷争上牌桌,它们野心昭然:都想自家AI大模型应用成为最强流量入口。而AI大模型赛场,那个男人曾是主角。去年今日,他正巧成名。回到2025年春节前一周,梁

热心网友
02.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

披露文件显示特朗普3月份购买了至少5100万美元的债券
web3.0
披露文件显示特朗普3月份购买了至少5100万美元的债券

披露文件显示特朗普3月份购买了至少5100万美元的债券 根据4月26日公布的财务披露文件,一份来自美国政府道德办公室的报告揭示了前总统特朗普在3月份的资产动向。数据显示,他当月进行了多达175笔金融交易,其中债券类资产的购买总额至少达到5100万美元。 这些披露表格有一个特点:它们通常不列出每笔买卖

热心网友
04.26
适合个人的rpa机器人
业界动态
适合个人的rpa机器人

在当今快节奏的生活中,无论是个人工作还是日常生活,我们都需要处理大量的重复性任务。这些任务不仅占用我们的宝贵时间,而且容易导致疲劳和错误。为了解决这一问题,实在智能RPA作为一款出色的自动化工具,成为了个人用户提升工作效率的得力助手。 面对电脑前日复一日的重复操作,你是否也感到过疲惫又无奈?数据复制

热心网友
04.26
RPA Agent可以做什么
业界动态
RPA Agent可以做什么

RPA Agent:解放人力的数字化员工 咱们先来明确一个概念:RPA Agent,也叫机器人流程自动化智能体。这名字听起来挺技术范儿,但说直白点,它就像一位不知疲倦、绝不犯错的“数字化员工”。它的核心使命,就是替代或者协助我们人类,去处理那些日常工作中大量存在的、重复且规则明确的计算机操作任务。

热心网友
04.26
智能文档抽取是什么
业界动态
智能文档抽取是什么

智能文档抽取:理解其核心与应用价值 什么是智能文档抽取?简单来说,这是一种借助机器学习、自然语言处理等前沿技术,对海量文档进行智能解析的过程。它的本事在于,无论面对的是文本段落还是复杂的表格,都能精准地抓取其中的关键信息,并以“Key-Value”这类高度结构化的格式整理输出。 那么,这项技术在实际

热心网友
04.26
ai人工智能对话的原理
业界动态
ai人工智能对话的原理

AI人工智能对话的原理 要理解AI如何与你流畅对话,核心绕不开一项关键技术——自然语言处理(NLP)。这门学科可不简单,它巧妙地融合了计算机科学、数学和语言学的智慧。可以说,NLP是整个智能问答系统的大脑,专门负责分析和处理文本信息,目标是让机器真正“读懂”人类的语言。 在具体的问答场景里,NLP技

热心网友
04.26