DeepSeek最新发布:功能亮点与实战体验全解析
DeepSeek发布一项新研究成果,其创始人梁文锋在论文作者之列。
1月1日消息,人工智能公司DeepSeek在学术平台arXiv上发布了一篇题为《迈向更稳定的超连接:流形约束超连接》的论文。这项研究旨在解决传统超连接架构在大规模模型训练中出现的稳定性问题,同时保持其显著性能优势。论文三位共同一作分别是谢振达、韦毅轩和曹焕奇。值得注意的是,DeepSeek创始人梁文锋也出现在作者名单中,显示出公司对这项基础研究的深度参与。
论文摘要指出,近年来以超连接为代表的研究,通过拓宽残差宽度和多样化连接模式,拓展了过去十年间确立的普遍采用的残差连接范式。虽然这些改进带来了显著的性能提升,但连接模式的多样化从根本上削弱了残差连接固有的恒等映射特性,导致严重的训练不稳定性与受限的可扩展性,同时还造成了显著的内存访问开销。为了解决这些问题,DeepSeek提出了流形约束超连接——一种通用框架,能够将HC的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率。实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性。DeepSeek预计,mHC作为HC的一种灵活而实用的拓展,将有助于深化对拓扑架构设计的理解,并为基座模型的演进指明富有前景的方向。
内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率λ=4时,仅带来6.7%的额外时间开销。
图为残差连接范式的示意图。本图对比了(a)标准残差连接、(b)超连接以及(c)流形约束超连接的结构设计。与无约束的HC不同,mHC通过将连接矩阵投影到一个约束流形上,专注于优化残差连接空间,从而确保训练的稳定性。
论文在结论与展望部分指出,实证结果表明,mHC能有效恢复恒等映射特性,相比传统HC,能以更优的可扩展性实现稳定的大规模训练。关键的是,通过高效的基础设施级优化,mHC以可忽略的计算开销实现了上述改进。
论文还指出,作为HC范式的广义拓展,mHC为未来研究开辟了多个重要方向:虽然本研究采用双随机矩阵确保稳定性,但该框架可兼容针对特定学习目标设计的多种流形约束探索;预计对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法。此外,DeepSeek希望mHC能重新激发学界对宏观架构设计的关注。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC将有助于突破现有局限,并可能为下一代基础架构的演进指明新路径。
近期,DeepSeek技术发布动作频频。2025年12月1日,DeepSeek同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。
DeepSeek表示,DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。
DeepSeek-V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro。
2025年9月29日,DeepSeek宣布,正式发布DeepSeek-V3.2-Exp模型。作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。同时API大幅降价。在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。
2025年9月17日,在最新一期的国际权威期刊Nature(自然)中,DeepSeek-R1推理模型研究论文登上了封面。该论文由DeepSeek团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果。这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可。
Nature在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。”
综合自:DeepSeek论文、证券时报此前报道
责编:李丹
校对:王锦程
版权声明
证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关行为主体法律责任的权利。
转载与合作可联系证券时报小助理,微信ID:SecuritiesTimes
END
相关攻略
机器之心发布近期,我们注意到 openJiuwen 社区持续获得国际关注,先后登上多家海外科技媒体。亚太头部科技媒体Tech in Asia专题报道了 openJiuwen 先进的架构设计理念 [1
完全零基础,自己手搓一个权游里龙妈的3D模型,需要多久?2秒接着再给它贴上纹理,大概10秒以内,我就无痛得到了一个3D龙妈。不仅快,而且细节丰富、拓扑干净、布线稳定。同样,只甩一张参考图,我还可以快
机器之心编辑部速度、质量、管线可用性,是 AI 3D 生成领域公认的不可能三角。三件事,从来没有同时成立过。直到现在。VAST 最新发布的 Tripo P1 0,首次在原生三维空间中实现概率生成,2
闻乐 发自 凹非寺量子位 | 公众号 QbitAI字节Seed都开始用化学思想搞大模型了——深度推理是共价键、自我反思是氢键、自我探索是范德华力?!传统的大模型长思维链推理基本把AI的思考过程等同于
谷歌CEO皮查伊在X上高调宣布,Gemini 3 Deep Think在最难的挑战上,取得了前所未有的成绩。这个项目,正是姚顺宇加入谷歌后参与的第一个重量级项目。作为谷歌的对手之一,xAI的创始人马
热门专题
热门推荐
钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流
在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办
在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M
ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。
在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练





