首页 游戏 软件 资讯 排行榜 专题
首页
AI
Sand.ai发布MagiAttention,定义分布式注意力性能新标杆

Sand.ai发布MagiAttention,定义分布式注意力性能新标杆

热心网友
89
转载
2026-03-26



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

机器之心编辑部

2025 年 4 月,Sand.ai 开源了 MagiAttention v1.0.0,定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕,今天Sand.ai正式发布:MagiAttention v1.1.0,以更成熟的原生算子组件,重新定义 Hopper 与 Blackwell 两代架构分布式 Attention 的性能上限



代码仓库:https://github.com/SandAI-org/MagiAttention使用文档:https://sandai-org.github.io/MagiAttention/docs技术博客:https://sandai-org.github.io/MagiAttention/docs/main/blog/magi_attn

Blackwell 新架构适配:释放下一代算力红利

为了在下一代硬件上延续 Flex-Flash-Attention (FFA) 的灵活性,研发团队引入了基于 Flash-Attention 4 的 FFA_FA4 后端,完成了对 Blackwell 架构的初步适配:

灵活掩码支持:引入 HSTU Function 表达,在无需大幅改动 FA4 内核主体逻辑的前提下,实现了对任意掩码的无缝兼容,且性能损耗 < 5%。高效分块稀疏生成:开发了高效分块掩码生成算子,大大降低了 FlexAttention 实例化完整掩码的性能开销和显存风险。R2P 指令级加速:我们利用 Register-to-Predicate 技巧,将复杂的边界检查映射为单条硬件指令,大幅降低了指令周期。极致显存和延迟:针对超长序列,对掩码元数据进行 CSR 压缩,对内核启动进行 FFI 加速,确保显存与延迟的双重极致。

原生 Group Collective 原语:突破 RDMA 带宽瓶颈

跨机通信效率决定了分布式扩展上限,受 DeepEP 启发,Sand.ai 构建了原生 Group Collective 通信内核,彻底重塑了分布式 Attention 在节点内外的数据交换范式:

算子级融合:研发团队将数据重排直接融合进通信算子,显著降低了访存和额外拷贝开销。RDMA 传输去重:以 "NVLink 替代冗余 RDMA" 传输,实现节点间单次物理交换与节点内高效转发和规约,跨机通信量降低数倍,性能远超传统 AlltoAll-v 方案。

系统级协同优化:负载均衡与多阶段重叠

MagiAttention 的卓越性能不仅源于算子端的极致打磨,更得益于系统级的全栈协同调度和全场景通用的启发式算法:

Dispatch Solver: 基于最小堆贪心算法,实现序列的细粒度分配,保证任意掩码下设备的计算负载均衡,避免 “短板效应” 拖垮分布式整体性能。Adaptive Multi-Stage Overlap: 突破静态流水线限制,自适应调整流水线阶段,通过最小化调度开销实现极致重叠,为超长序列训练提供线性扩展保障。

实测表现与应用

目前,MagiAttention v1.1.0 已在 Magi-1 等大规模视频生成模型训练中得到实证,也在各大厂中被 “悄悄” 应用于多模态大模型训练。为了验证 MagiAttention 在真实长文训练中的表现,Sand.ai 也给出了细致的 Benchmark 结果:

算子层面:支持灵活掩码并维持 SOTA 性能



H100/B200 Varlen Causal 掩码下前反向的内核算子性能对比

分布式层面:重塑超长序列的扩展性曲线



H100/B200 Varlen Causal 掩码下前反向的分布式性能对比

结语与未来展望

自去年 v1.0 发布以来,Sand.ai 收到的社区反馈让研发团队更加坚定:只有将底层算力压榨到极限,才能开启人工智能处理复杂多模态任务的新篇章。MagiAttention v1.1.0,是 Sand.ai 向这一愿景迈进的关键一步。Sand.ai 相信,强大的模型能力必须建立在普惠且极致的技术基石之上。

了解更多信息,欢迎访问 Sand.ai 正式:https://sand.ai

来源:https://www.163.com/dy/article/KOPKG8SP0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
AI
Claude强到不敢发的Mythos,被质疑用了字节Seed技术

Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架

热心网友
04.14
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?
科技数码
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?

国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文

热心网友
04.14
OpenClaw人人养虾:接入飞书
AI
OpenClaw人人养虾:接入飞书

飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw

热心网友
04.14
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Chaplin
AI
Chaplin

Chaplin是什么 提起AI股票分析工具,很多投资者可能首先会想到各种通用型平台。但今天要聊的这个,有些特别——它叫Chaplin,一个专为专业交易者量身打造的分析利器。简单来说,这是一款由Chaplin app开发的工具,核心目标很明确:为那些渴求深度洞察和精准预测的专业投资者与交易者,提供前沿

热心网友
04.19
使用 hermes gateway start 命令让 AI 后台常驻运行
AI
使用 hermes gateway start 命令让 AI 后台常驻运行

执行hermes gateway start后服务未持续运行,需依次检查命令可用性、启用--daemon模式、注册systemd服务或手动创建service文件 遇到执行 hermes gateway start 命令后服务没跑起来,或者终端一关就停,甚至干脆提示“command not found

热心网友
04.19
Win10怎么设置多显示器_Win10多屏显示设置教程【简明】
系统平台
Win10怎么设置多显示器_Win10多屏显示设置教程【简明】

一、使用Win + P快捷键即时启用扩展模式 这个方法最直接,它绕过了复杂的设置界面,直接调用系统底层的投影功能。无论你是在游戏、办公还是系统卡顿的时候,都能快速调出,用来临时切换或者测试显示器连接状态非常方便。 操作前,先确保几个基本条件:所有显示器都通着电,视频线在电脑和显示器两头都插紧了,别忘

热心网友
04.19
MatchThatRoleAI
AI
MatchThatRoleAI

MatchThatRoleAI是什么 在求职市场里,一份好简历是敲门砖,但找到真正适合自己的岗位往往更像大海捞针。有没有一款工具能把这两件事儿都搞定,甚至还能帮你规划未来几年?还真有,这就是我们今天要聊的MatchThatRoleAI。 简单来说,它是一个在线智能平台,核心任务就是帮你“双向奔赴”。

热心网友
04.19
HermesAgentOpenRouter密钥填写位置在哪里
AI
HermesAgentOpenRouter密钥填写位置在哪里

一、环境变量文件 env 这是最推荐、也是优先级最高的配置方式。Hermes Agent 启动时会默认优先读取这个文件,好处是无需改动任何代码或主配置文件,对所有支持的模型提供商(包括OpenRouter)都通用。 具体操作很简单:找到或创建这个文件——路径是 ~ hermes env。然后,

热心网友
04.19