首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
国产方案崛起,突破CUDA生态垄断正当时

国产方案崛起,突破CUDA生态垄断正当时

热心网友
49
转载
2026-01-30

允中 发自 凹非寺
量子位 | 公众号 QbitAI

国产算力基建跑了这么多年,大家最关心的逻辑一直没变:芯片够不够多?

但对开发者来说,真正扎心的问题其实是:好不好使?

如果把AI开发比作做饭,现在的尴尬是——

国产锅(硬件)虽然越来越多了,但大部分大厨还是只习惯用那套进口调料包(生态)

这正是当下AI落地最真实的一幕。

模型层繁花似锦,底层却隐忧重重。大家在参数规模上轮番刷新纪录,回过头来却发现,最难摆脱的还是那套已经长进骨子里的开发流程。


△图片由AI生成

算力只是敲门砖,真正的胜负手,是那段算法与硬件之间的“翻译权”

说白了,如果拿不到这支“翻译笔”,再强悍的国产硬件,也只能像是一座无法与外界沟通的孤岛。

终于,那个让开发者喊了无数次“天下苦CUDA久矣”的僵局,现在迎来了一个不一样的国产答案

KernelCAT:计算加速专家级别的Agent

这几年,AI领域的热闹几乎是肉眼可见的。

模型在密集发布,应用数据持续走高,看上去一切都在加速向前。

但在工程现场,感受却更复杂。

真正制约落地效率的,并不是模型能力本身,而是底层软件生态的成熟度。

硬件选择一多,问题反而集中暴露出来:迁移成本高,适配周期长,性能释放不稳定。很多模型即便具备条件切换算力平台,最终也会被算子支持和工具链完整度挡在门外。

这让一个事实变得越来越清晰——突破口不在堆更多算力,而在打通算法到硬件之间那段最容易被忽视的工程链路,把芯片的理论性能真正转化为可用性能。

其中最关键的一环,正是高性能算子的开发

算子(Kernel),是连接AI算法与计算芯片的“翻译官”:它将算法转化为硬件可执行的指令,决定了AI模型的推理速度、能耗与兼容性。

算子开发可以被理解为内核级别的编程工作,目前行业仍停留在“手工作坊”时代——开发过程极度依赖顶尖工程师的经验与反复试错,周期动辄数月,性能调优如同在迷雾中摸索。

若把开发大模型应用比作“在精装修的样板间里摆放家具”,那么编写底层算子的难度,无异于“在深海中戴着沉重的手铐,徒手组装一块精密机械表”。

但如果,让AI来开发算子呢?

传统大模型或知识增强型Agent在此类任务面前往往力不从心。因为它们擅长模式匹配,却难以理解复杂计算任务中的物理约束、内存布局与并行调度逻辑。

唯有超越经验式推理,深入建模问题本质,才能实现真正的“智能级”优化。

正是在这一“地狱级”技术挑战下,KernelCAT应运而生。


△终端版

具体来看,KernelCAT是一款本地运行的AI Agent,它不仅是深耕算子开发和模型迁移的“计算加速专家”,也能够胜任日常通用的全栈开发任务,提供了CLI终端命令行版与简洁桌面版两种形态供开发者使用。

不同于仅聚焦特定任务的工具型Agent,KernelCAT具备扎实的通用编程能力——不仅能理解、生成和优化内核级别代码,也能处理常规软件工程任务,如环境配置、依赖管理、错误诊断与脚本编写,从而在复杂场景中实现端到端自主闭环。


△桌面版

为国产芯片生态写高性能算子

在算子开发中,有一类问题很像“调参”——面对几十上百种参数或策略组合,工程师需要找出让算子跑得最快的那一组配置。

传统做法靠经验试错,费时费力,而且还容易踩坑。

KernelCAT的思路是——引入运筹优化,把“找最优参数”这件事交给算法,让算法去探索调优空间并收敛到最佳方案

以昇腾芯片上的FlashAttentionScore算子为例,KernelCAT在昇腾最新示例代码上,可以自动对该算子的分块参数调优问题进行运筹学建模,并使用数学优化算法求解,在十几轮迭代后就锁定了最优配置,在多种输入尺寸下延迟降低最高可达22%,吞吐量提升最高近30%,而且整个过程无需人工干预。

这正是KernelCAT的独特之处:它不仅具备大模型的智能,能够理解代码、生成方案;还拥有运筹优化算法的严谨,能够系统搜索并收敛到最优解。

智能与算法的结合,让算子调优既灵活,又有交付保障。

在对KernelCAT的另一场测试中,该团队选取了7个不同规模的向量加法任务,测试目标明确——

即在华为昇腾平台上,直接对比华为开源算子、“黑盒”封装的商业化算子与KernelCAT自研算子实现的执行效率。

结果同样令人振奋,在这个案例的7个测试规模中,KernelCAT给出的算子版本性能均取得领先优势,且任务完成仅用时10分钟

这意味着,即便面对经过商业级调优的闭源实现,KernelCAT所采用的优化方式仍具备一定竞争力。



这不仅是数值层面的胜利,更是国产AI Agent在算子领域完成的一次自证。

没有坚不可破的生态,包括CUDA

全球范围内,目前超过90%的重要AI训练任务运行于英伟达GPU之上,推理占比亦达80%以上;其开发者生态覆盖超590万用户,算子库规模逾400个,深度嵌入90%顶级AI学术论文的实现流程。

黄仁勋曾言:

我们创立英伟达,是为了加速软件,芯片设计反而是次要的。

这句话揭示了一个关键真相:在现代计算体系中,软件才是真正的护城河。

英伟达的持续领先,源于其从底层算法出发、贯通架构与编程模型的全栈掌控能力。

参考AMD的历史经验,即使在架构与制程上具备充足的竞争力,缺乏成熟的生态系统也仍然难以撼动英伟达的地位。

这类案例清晰地表明,模型性能并不简单等价于算力规模的堆叠,而是取决于算法设计、算子实现与硬件特性的协同程度。当算子足够成熟,硬件潜力才能被真正释放。

沿着这条思路,KernelCAT团队围绕模型在本土算力平台上的高效迁移,进行了系统性的工程探索。

DeepSeek-OCR-2模型在华为昇腾910B2 NPU上的部署为例,KernelCAT展示了一种全新的工作范式:

对抗“版本地狱”:KernelCAT对任务目标和限制条件有着深度理解,基于DeepSeek-OCR-2最新的CUDA实现,通过精准的依赖识别和补丁注入,解决了vLLM、torch和torch_npu的各个依赖库间版本互锁的三角矛盾,硬生生从零搭建起了一套稳定的生产环境,结合基础Docker镜像即可实现模型的开箱即用。准确修补:它敏锐地识别出原版vLLM的MOE层依赖CUDA专有的操作,和vllm-ascend提供的Ascend原生MOE实现,并果断通过插件包进行调用替换,让模型在国产芯片上“说上了母语”。实现35倍加速:在引入vllm-ascend原生MOE实现补丁后,vLLM在高并发下的吞吐量飙升至550.45toks/s,相比Transformers方案实现了35倍加速,且在继续优化中。无需人工大量介入:在这种复杂任务目标下,KernelCAT可以自己规划和完成任务,无需研发提供大量提示词指导模型工作。

这意味着,原本需要顶尖工程师团队花费数周才能完成进行的适配工作,现在可以缩短至小时级(包含模型下载、环境构建的时间)。

与此同时,它让国产芯片从“能跑”到“飞起”,实现了35倍的加速

也就是说,KernelCAT让国产芯片不再是被“封印”的算力废铁,而是可以通过深度工程优化,承载顶级多模态模型推理任务的性能引擎。



“天下苦CUDA久矣”——这句话曾是无奈的自嘲,如今正成为行动的号角。

KernelCAT所代表的,不只是一个AI Agent新范式的出现,更是一种底层能力建设方式的转向:

从依赖既有生态,到构建能够自我演进的计算基础。

KernelCAT正限时免费内测中,欢迎体验:
https://kernelcat.cn/

来源:https://www.163.com/dy/article/KKI7CKC90511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾接入Matrix平台操作指南
AI资讯
OpenClaw人人养虾接入Matrix平台操作指南

Matrix 是一种开放且去中心化的即时通讯协议,允许用户自主部署私有服务器并接入全球 Matrix 联邦网络。OpenClaw 网关通过集成 Matrix 的 Client-Server API,实现与这一分布式通信生态的无缝对接。 前置准备 在配置 OpenClaw 连接 Matrix 之前,请

热心网友
05.20
阿里官方揭秘欢乐马项目源自ATH郑波团队
AI资讯
阿里官方揭秘欢乐马项目源自ATH郑波团队

周二晚间,AI领域迎来了一则重磅消息。在权威AI评测平台Artificial Analysis的榜单上,一个名为「HappyHorse-1 0」的神秘模型异军突起,一举登顶视频生成能力排行榜,引发了业界的广泛关注与热议。 这一成绩极具含金量。无论是文本生成视频,还是图像生成视频,HappyHorse

热心网友
05.19
世界模型AI直播预约开启引爆人工智能新浪潮
AI资讯
世界模型AI直播预约开启引爆人工智能新浪潮

当AI开始学会“脑补”物理世界的运行规律,并尝试模拟一个动态变化的真实环境时,我们距离那个传说中的通用人工智能(AGI)究竟还有多远? 进入2026年以来,“世界模型”毫无悬念地成为了科技圈最炙手可热的核心议题。它标志着一个关键的范式转变:人工智能正从被动地“感知当下”,迈向主动地对时空与动态变化进

热心网友
05.19
世界模型第二期直播预约AI技术前沿与应用解析
AI资讯
世界模型第二期直播预约AI技术前沿与应用解析

上周三关于“世界模型”的线上沙龙反响空前热烈,这充分表明,从被动感知迈向主动推演,这条被视为实现通用人工智能(AGI)的核心技术路径,正深度吸引着整个AI行业的关注。鉴于持续高涨的讨论热度,我们决定加开一场深度分享会。 那么,这条充满潜力却又极具挑战性的前沿赛道,目前进展到了何种阶段?顶尖的研究者们

热心网友
05.19
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域
科技数码
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域

数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力(江苏省美术馆策展人) 当代设计与造物的核心范式,正经历着由计算性设计带来的深刻变革。2026年3月20日,南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演,正是这一前沿趋势的集中体现。本次展览超越

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

AI数据分析革命:表格合并的未来趋势与高效方法
AI教程
AI数据分析革命:表格合并的未来趋势与高效方法

人工智能正改变表格合并方式,大幅提升数据处理效率。例如,某电商平台借助AI将处理时间从48小时缩短至2小时,并减少人工错误。调查显示,超七成企业已部署AI工具且效率显著提升。AI不仅节约成本,还推动决策更科学。未来需在效率与数据安全间寻求平衡。

热心网友
05.21
AI智能表格如何突破传统局限实现高效数据处理
AI教程
AI智能表格如何突破传统局限实现高效数据处理

在数据爆炸时代,AI正为传统表格处理带来变革。通过自动生成图表、快速分析趋势等功能,AI显著提升了数据处理效率。然而,数据安全与隐私风险仍是企业关注的核心挑战。未来,表格将趋向智能化与自适应,成为更高效、用户友好的分析工具,为企业创造新的机遇。

热心网友
05.21
AI在表格处理领域的应用优势与挑战分析
AI教程
AI在表格处理领域的应用优势与挑战分析

AI技术正深度改变表格处理领域,通过自动化数据整理、智能预测分析和增强实时协作显著提升效率。然而,数据隐私安全与算法“黑箱”问题仍是主要挑战。企业需优先考虑数据保护与算法透明度,未来结合自然语言处理的新一代工具将进一步简化表格工作,带来更多可能性。

热心网友
05.21
AI表格制作技巧如何高效制作专业数据图表
AI教程
AI表格制作技巧如何高效制作专业数据图表

AI工具显著提升了表格制作效率与数据呈现效果。它能通过自然语言生成框架、自动分析趋势,将原本耗时的手工流程大幅压缩。不同工具各有侧重,需结合实际需求选择。未来,AI将与深度分析更紧密结合,实现智能洞察输出。主动拥抱技术革新,才能提升数据竞争力。

热心网友
05.21
数字化时代AI如何革新表格输入方式与操作体验
AI教程
数字化时代AI如何革新表格输入方式与操作体验

人工智能正革新表格处理,通过OCR与自然语言技术自动识别提取数据,大幅提升录入效率。实践显示,AI在订单处理等重复任务中效果显著,减轻人力负担。未来需兼顾数据安全与工具易用性,推动人机协同——AI负责规则性工作,人类聚焦创造性决策。

热心网友
05.21