输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
FlashAttention 是一种结合 GPU 硬件特性的注意力机制加速方案,通过分块计算和显存复用显著降低长序列 Transformer 的训练与推理资源消耗,是大模型支持更长上下文窗口的关键技术之一。
近期常被查询的 AI 概念。