KTransformers 开源框架获 Qwen Kimi 智谱 AI 推荐单卡运行万亿大模型

首页

热心网友

转载

2026-05-16

在AI技术快速迭代的今天，一个底层框架的实力如何，往往不看它自己怎么说，而看顶尖的玩家们怎么选。当Qwen、Kimi、智谱AI等主流大模型在发布首日，都不约而同地将KTransformers列为推荐推理引擎时，答案已经不言而喻。这款由趋境科技与清华大学联合开源的高性能异构推理框架，正凭借其卓越的工程实践与广泛的兼容性，成为从开发者、硬件厂商到开源社区共同信赖与复用的“基建”选择。

技术与生态双认可：成功入选 “计算机系统领域奥斯卡” SOSP 2025

KTransformers的核心使命很明确：高效榨干每一份算力。它专注于调度GPU、CPU、内存等多样化的异构资源，目标就是让动辄千亿参数的大模型，能在更低成本、更灵活的硬件上跑起来、反赌。这份技术硬实力，得到了全球顶级学术圈的盖章认证——其研究论文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》成功入选了素有“计算机系统领域奥斯卡”之称的SOSP 2025。要知道，这个顶会的历史，几乎就是一部现代计算技术的编年史，虚拟化、分布式文件系统等里程碑都曾在此首次亮相。KTransformers的入选，无疑标志着其技术路线与创新价值获得了世界级的肯定。

技术认可很快转化为了市场敏捷性。就在月之暗面发布千亿级Kimi-K2-Thinking模型后，KTransformers迅速完成了全面适配。现在，用户凭借单张显卡就能完成推理，两张卡即可进行LoRA微调，部署和定制化的门槛被大幅拉低。更值得一提的是，趋境科技已经完成了该模型在昇腾NPU上的全栈适配，提供了一套完善的全国产化推理方案，这为其在更广阔、要求更严苛的应用场景中铺平了道路。

推理与微调双高效：KTransformers+SGLang实现高性能推理部署

在推理端，一场“1+1>2”的合作正在深化。今年10月，KTransformers与主流推理框架SGLang达成合作，双方架构已合入同一分支。效果是立竿见影的：面对Kimi-K2-1TB这样的巨量模型，用户现在只需简单安装SGLang和KTransformers的CPU内核，下载官方模型与量化权重，一条命令就能启动服务，而且硬件需求仅需单张消费级GPU搭配CPU。这背后，是GPU+CPU异构推理创新模式与全GPU传统模式的深度融合，它正推动大模型推理向着更高性能、更低成本的方向演进，为产业大规模落地扫清关键障碍。

如果说推理是“用模型”，那么微调就是“养模型”，而后者的成本曾经高不可攀。KTransformers与LLaMA-Factory深度集成后，改变了游戏规则。它支持LoRA等轻量级微调方法，仅需约41GB显存和2T内存，就能实现46.55 token/s的微调吞吐量。传统方案微调千亿模型，成本可能高达数百万，而趋境的异构微调能力，将资源起点拉低到了单个消费级GPU（例如一块RTX 4090）。这意味着，高校实验室、中小型创业公司，甚至个人开发者，都有机会参与到超大模型的定制中来。在DeepSeek-14B模型上的测试显示，该方案吞吐量超过传统方案1.8倍，显存占用降低82%，堪称在消费级显卡上微调千亿级MoE模型的唯一可行路径。

从技术突破到生态共建，KTransformers承载的其实是“普惠”二字。大模型时代不能只有一条昂贵的技术路线，它需要更广谱、更易得的推理基础设施。为此，趋境科技已与多家国产CPU、GPU硬件平台展开合作，共同推进高性价比的全国产方案；同时，也为数十家行业伙伴提供了坚实的算力底座，让更多团队能够用得起、调得动大模型。可以说，今天的KTransformers，已经让大模型推理开始摆脱对高端算力的绝对依赖；而它的未来，在于持续推动AI能力下沉，让智能真正融入千行百业的毛细血管之中。

来源:https://www.leiphone.com/category/ai/LZzUkPRAXqvwV8mz.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：谷歌Gemini 3全面升级重塑旗下产品生态下一篇：夸克AI智能眼镜系列发布六款新品

相关攻略

科技数码

大树云Ploutos Lab交互式AI实训革新人才培养模式

2026年，AI大模型的规模化应用与商业落地已成为产业发展的核心议题。然而，在广泛的概念验证与试点项目背后，一个关键挑战日益凸显：众多企业正陷入“试点陷阱”——尽管前期验证成果显著，却难以将AI能力转化为可规模化复制、持续产生商业价值的核心生产力。深入剖析其根源，核心矛盾在于人才供给的结构性失衡。当

热心网友

05.15

科技数码

福特汽车股价两日大涨21%，AI热潮席卷传统汽车行业

福特汽车因布局储能业务，股价两日飙升约21%，创近六年最佳表现。这显示传统制造业正通过涉足人工智能与能源转型获得资本市场重估，其估值逻辑随业务拓展而更新，反映出市场对产业跨界转型的积极预期。

热心网友

05.15

Demis Hassabis谈人工智能潜力远超人类预期

在数据驱动决策的今天，数据可视化已从辅助工具升级为传递洞察、支撑观点的关键手段。一幅专业的数据图表能迅速解码复杂信息，而一个存在设计缺陷的图表则可能让数据故事彻底失效。本文将深入剖析六个常见却致命的图表设计细节，帮助您避开陷阱，提升图表的专业性与沟通力。一、饼图顺序混乱，重点模糊饼图的核心价值在

热心网友

05.15

腾讯云开源Agent Memory技术大幅降低61%的Token消耗

腾讯云开源了TencentDBAgentMemory分层记忆引擎，采用MIT协议。该引擎通过“上下文卸载”和“Mermaid任务画布”两项核心技术，在多任务连续会话中最高可降低61 38%的Token消耗，并将任务成功率相对提升51 52%。它解决了长周期任务中记忆跨会话断裂、事实与偏好混淆以及上下文膨胀三大痛点。项目已适配主流Agent框架，支持一键集成与

热心网友

05.15

SAP统一AI平台整合构建与部署全套能力

SAP推出统一AI平台，整合业务技术、数据云与AI能力，为企业提供集成底座。同时发布自动化套件，通过超50个AI助手调度近200个智能体，驱动业务流程自动化。平台基于近期收购的数据管理公司构建，并与多家云服务商合作，确保AI结果准确合规，以提升效率、节约成本。

热心网友

05.15

热门推荐

iphone

iCloud恢复卡在估算时间怎么办快速解决方法

iCloud恢复卡在“估算剩余时间”时，可先尝试手动停止恢复进程并检查网络与账户状态，然后重新开始。若问题未解决，可使用专业第三方工具直接访问iCloud备份，在电脑上选择性预览和恢复所需文件，从而绕过设备端的恢复瓶颈，高效安全地取回数据。

热心网友

05.16

iphone

WhatsApp聊天记录备份教程：三种方法轻松保存数据

WhatsApp备份可通过三种主要方式实现。应用内自动备份可设置频率，在后台定期保存数据。安卓用户可将数据备份至Google云端硬盘，支持自动或手动操作。如需精细筛选内容，可使用电脑端专业工具，选择性备份特定对话或附件，并导出为可读文件。三种方案分别满足便捷、集成与自主控制的不同需求。

热心网友

05.16

iphone

iPad数据恢复工具推荐与使用指南

iPad数据备份是数字生活的安全网，但原生备份机制不便直接查看和提取特定内容。专业恢复工具能直接读取iTunes或iCloud备份文件，支持选择性恢复多种数据类型，操作直观高效。用户可轻松预览备份内容，将所需文件单独还原到设备或电脑，从而实现对备份数据的灵活掌控。

热心网友

05.16

iphone

iPhone忘记Apple ID密码解锁重置全攻略

忘记AppleID密码将影响iCloud、AppStore等服务使用。可通过专业工具在保留数据前提下移除ID，但需根据“查找我的iPhone”状态选择操作路径。或使用iTunes恢复出厂设置，此方法会清除所有数据。还可通过苹果官网重置密码，流程较复杂。若自助方法无效，可联系官方客服并提供购买凭证寻求协助。

热心网友

05.16

iphone

iPhone iPad数据迁移至iPad Pro完整图文教程

iPadPro是苹果公司推出的专业平板电脑，现有11英寸和12 9英寸等型号。将旧iPhone或iPad的数据迁移到新iPadPro，主要有两种可靠方法。一是通过电脑使用iTunes备份恢复：连接旧设备后选择最近备份执行恢复，完成后数据即转移。二是利用iCloud无线传输：在新设备设置时选择从iCloud备份恢复，登录AppleID并选择对应备份即可。需注意

热心网友

05.16