游乐游手机版
首页/AI热点日报/热点详情

AMD RX 7900 GRE 游戏与AI推理并发突破

类型:热点整理2026-07-02
AMD显卡用户长期面临的游戏与AI推理任务无法并行的难题获得关键进展。开发者通过开源项目BEA_ROCm,成功在RX7900GRE显卡上实现了DX12游戏与ROCmAI推理的无冲突并发。方案通过剖析FlashAttention缓冲区解析差异、驱动冲突等多层技术根源,采用双层补丁架构予以修复。

长久以来,在Windows操作系统下同时运行大型DX12游戏与本地AI推理任务时,AMD显卡用户常常遭遇驱动层面的资源冲突,导致程序崩溃并报错(常见错误代码为exit code 2或0xc0000005)。这一困扰开发人员多年的技术瓶颈,如今被一项开源方案成功攻克。

AMD显卡实现游戏与AI推理双任务并发,RX 7900 GRE技术难题获突破

GitHub开发者Beat-k通过其开源项目BEA_ROCm,首次在Radeon RX 7900 GRE显卡上实现了DX12游戏与基于ROCm的AI推理任务的无冲突并行运行。经过深入排查,开发者揭示了导致崩溃的多层复杂成因,并提供了系统化的修复路径。

多层技术难题与根本原因分析

开发者发现,问题并非由单一因素引起,而是一系列层级依赖的Bug相互叠加导致的连锁效应。这些原因必须按顺序逐一解决,才能暴露出下一层问题。核心症结包括:Flash Attention KV缓冲区布局在ROCm与游戏驱动之间的解析差异、SDMA引擎队列冲突、显存过度分配、AMD AGS库与Adrenalin驱动之间的兼容问题,以及驱动遥测模块对内核调度的意外干扰。

双层补丁架构与完整修复方案

最终的修复采用双层补丁架构。第一层为环境变量补丁集:在ROCm子进程启动前,通过预设一系列环境变量完成前置修复。第二层则向llama.cpp项目提交了一个35行的C++核心补丁,专门针对gfx1100架构优化了Windows环境下ROCm的流同步机制,并修正了Flash Attention的门控处理逻辑。

实测结果令人振奋:在10轮《彩虹六号:围攻》DX12游戏与Ollama 7B模型推理的并发压力测试中,修复方案表现稳定,游戏全程未出现崩溃。AI推理的平均延迟为12.2秒,显存占用稳定在9.5GB,同时DX12图形负载在6轮游戏中始终保持饱和状态。目前相关SDK已完全开源,上游PR准备就绪,并已在gfx1101架构的Ubuntu平台上通过第三方交叉验证。

这一突破意味着,搭载AMD RDNA 3架构显卡的用户终于可以在畅玩大型游戏的同时,自由调用本地AI模型进行推理。更重要的是,该方案为RDNA 3全系显卡在Windows平台实现“AI+图形”多任务并发提供了一条系统级、可复用的修复路径,具有重要的技术示范价值。

来源:驱动之家

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。