3月17日消息,据媒体报道,特斯拉CEO埃隆·马斯克公开点赞中国AI公司Kimi的最新研究成果后,Kimi官方账号今日以幽默口吻回应道:"你的火箭造得也不赖!"
近日,Kimi团队发布技术报告,提出全新的注意力残差机制,对深度学习领域沿用近十年的传统残差连接实现颠覆性重构,迅速引发全球科技界关注。

传统残差连接采用"固定等权累加"方式传递信息,随着模型层数增加,容易导致浅层信息被稀释、训练效率降低及稳定性下降等问题。
而Kimi的创新相当于为AI模型安装了"智能筛选器",将Transformer注意力机制迁移到模型深度维度,让每一层都能动态筛选此前积累的有用信息、抑制冗余内容,显著提升信息传递效率。
为避免内存过载,团队设计了"分块注意力残差"策略,模型分块后,块内保留传统累加方式确保稳定性,块间采用动态加权机制,推理延迟仅增加不到2%,实现了性能与效率的完美平衡。

实测数据显示,48B参数模型的训练效率提升1.25倍,在科学推理和数学解题方面的表现分别提升7.5%和3.6%,有效解决了传统模型训练不均衡的技术难题。
以挑剔著称的马斯克转发该项研究并评论称"Kimi的工作令人印象深刻",其旗下xAI正值重组期,此次认可足见该技术含金量。
此外,被誉为"推理模型之父"的OpenAI前研究副总裁Jerry Tworek也发文表示:"深度学习2.0时代正在来临"

