汤雄超解读训推一体机局限 AI基础设施未来趋势分析

首页

热心网友

转载

2026-05-16

在超算与高性能计算领域，清华大学高性能计算研究中心长期致力于解决大规模算力软件的核心难题。如今，这支顶尖团队将其深厚的技术积淀与工程经验，全面应用于AI算力基础设施这一新兴战场。

“放眼国内AI基础设施赛道，我们是唯一拥有十万台服务器级别超大规模国产算力集群实战调优经验的团队。”清程极智CEO汤雄超博士强调。他指出，“超大规模系统效率”是当前AI算力发展的核心瓶颈。业界热议的异构GPU混合训练，更多是芯片供应受限时期的过渡方案。从长远发展及极致性能追求来看，智算中心最终将回归采用统一型号GPU的同构架构。AI大模型训练的根本挑战，始终在于超大规模算力系统本身的稳定性、效率与可扩展性。

基于这一前瞻性判断，这支源自清华大学计算机系的科研团队于去年年底正式创立清程极智，由汤雄超博士出任CEO，翟季冬教授担任首席科学家。

除了攻克训练难题，创业初期团队也精准洞察到推理市场的巨大潜力。尽管训推一体机曾引发关注，但汤雄超认为，这种产品形态难以满足未来AI业务的多元化与规模化需求。“训练与推理对算力系统的架构、带宽、延迟要求截然不同，很难指望一个有限规模的一体机承载当今动辄需要上万张加速卡的大模型预训练任务。”因此，清程极智选择为推理场景量身打造软硬一体的高性能算力解决方案。同时，通过云端算力提供MaaS（模型即服务）形式的大模型推理服务，也是其重要的商业化路径。

这条路径会与通用大模型公司产生直接竞争吗？汤雄超认为，大模型应用市场潜力巨大，必将迎来爆发式增长，一个足够宽广的赛道完全能够容纳多家在细分领域具备独特优势的厂商。他透露，公司成立半年多以来，在商业化落地方面进展迅速，已与多家国产芯片厂商、大型智算中心、AI应用开发商及基座模型研发公司建立了深度合作。

值得注意的是，头部云厂商也位列其合作伙伴之中。汤雄超分析，云厂商的传统优势在于资源的虚拟化、池化与灵活调度，而当前AI大模型训练与推理需要解决的，恰恰是如何将海量分布式计算资源高效合并、协同以完成单一复杂任务——这方面的工程经验在市场上极为稀缺，而这正是清程极智团队的核心竞争力所在。

谈及国产芯片生态的发展，汤雄超近期感受深刻。参照智能手机与新能源汽车行业的演进规律，他判断国产GPU市场未来会逐步走向集中，但不会形成单一垄断格局。并且，国产芯片在综合性价比上实现对海外产品的超越，或许只是时间问题。

核心壁垒：超大规模集群的深度调优能力

问：团队为何选择在去年底进入AI基础设施赛道创业？背后的契机是什么？

汤雄超：我们选择这个赛道，是基于对市场前景的坚定看好以及恰逢其时的机遇。契机根植于我们的团队基因。公司目前40多人中，超过80%为研发人员，核心成员均来自清华大学计算机系。清华大学高性能计算研究中心长期专注于超算领域，解决诸如全球气候模拟、油气勘探、尖端物理研究等需要极致算力的国家级重大课题。

随着人工智能进入大模型时代，我们发现AI面临的许多系统性挑战——如万卡级集群的通信效率、任务调度、稳定性保障——与超算领域的问题高度同源，而我们积累的大规模并行计算经验可以无缝迁移。我们长期坚信AI将深刻重塑社会生产力，因此从商业角度看，这件事空间巨大，且与我们的技术背景完美契合。此外，在国际芯片产业格局变化的背景下，作为清华系的团队，投身于构建自主可控的国产算力系统，也承载着重要的产业与社会价值。

总结而言，我们进入AI Infra赛道，是“顺势而为”。核心逻辑非常清晰：首先，AI对算力的需求呈指数级增长已是行业共识；其次，国内智能算力从依赖英伟达转向全面国产化是不可逆转的趋势。在这“需求爆发”与“技术转换”的双重浪潮叠加下，国产算力生态的建设必然催生巨大的市场需求，这其中蕴藏着广阔的商业机会。

汤雄超在清程极智办公室受访者供图

问：目前国内已有多家厂商布局AI基础设施，清程极智的独特优势和竞争壁垒是什么？

汤雄超：赛道参与者众多，对我们而言其实是好事。第一，这证明了市场空间足够广阔，容得下多家优秀企业；第二，众多玩家涌入，也说明行业对这个方向形成了高度共识。

我们一个突出的技术壁垒在于超大规模算力集群的深度调优能力。这在现实中直接决定了智算中心的重资产投入能否真正转化为高效、可用的算力。我们团队在十万台服务器级别的超大规模集群上拥有从部署、运维到性能优化的全链路经验，这是区别于许多厂商的核心优势，其技术门槛极高。

据我所知，目前国内AI基础设施厂商中，具备如此规模国产算力集群实战调优经验的团队，仅我们一家。即便是实现万卡、十万卡规模的超大规模模型训练，当前国内有成功经验的团队也凤毛麟角。因此，这不仅是我们重要的技术优势，也构成了我们的业务护城河。实际上，除了业界普遍关注的推理优化，我们同样能提供超大规模模型训练的整体解决方案。

问：清程极智目前主要与哪些类型的合作伙伴开展业务？

汤雄超：我们专注于AI基础设施层，即算力基础软件系统。常有人将Infra比作“桥梁”，一端连接底层硬件（芯片），一端连接上层应用（AI模型与应用）。我们的工作就是构建这座高性能的桥梁，让各类大模型能够更高效、更稳定地运行在多样化的国产芯片之上。

我们的客户也主要来源于这两端。一方面是算力供给侧，包括国产GPU芯片厂商，以及智算中心的投资建设方与运营方。总体来看，国产算力系统的软件生态、开发工具链与英伟达CUDA成熟体系相比仍有差距，我们的价值在于帮助芯片厂商补齐软件栈短板，充分释放其硬件潜能。

对于智算中心而言，情况类似。如今动辄需要上万张加速卡的大模型训练任务，如何将如此大规模的集群调度好、利用好，是极大的工程挑战。我们帮助智算中心提升超大规模集群的有效算力输出，从商业上增强了其市场竞争力，从社会效益看则大幅提升了宝贵算力资产的利用率，避免了资源闲置。

对于AI应用侧（需求侧），我们提供的核心价值可概括为“提速、降本、增效”。目前许多大模型应用在生成回答或图片时，响应延迟仍然较高，影响了用户体验与商业落地。我们通过自研的高性能大模型推理引擎，在同等硬件条件下显著提升模型运行速度，在某些场景下可实现近百倍的性能加速。这不仅能极大改善终端用户体验，还能直接降低企业的算力采购与运营成本。

此外，我们也服务于基座大模型的研发厂商。大模型预训练本身是算力与资金密集型任务，通常训练一个千亿参数模型需要数月时间及数千万预算。我们的优化方案能将训练性能提升百分之几十，从而为客户节省数百万乃至上千万的算力开支。一方面，训练周期缩短加速了模型迭代与上市速度；另一方面，对于千万级训练成本而言，节省30%-50%意味着巨大的经济效益。目前，我们的客户生态已覆盖芯片厂商、智算中心、AI应用公司及大模型研发公司。

问：你们与云厂商之间是合作关系还是竞争关系？

汤雄超：我们与云厂商各有优势，形成了互补合作。事实上，在一些大规模文本模型的预训练项目上，我们已经与国内头部云厂商展开了合作。

云厂商自身拥有强大的技术团队，他们选择与我们合作，根本原因在于过去和现在要解决的核心问题不同。传统上，云厂商运维大规模GPU集群，主要目标是实现资源的精细化切割、池化与共享，即把一块GPU虚拟化，同时服务海量的小任务和不同用户。

而现在大模型时代的需求是“聚合”——让成千上万块GPU像一个整体一样，为单一用户、单一训练任务协同工作。这种超大规模单一任务并行计算的经验，即便在大型互联网公司内部也相当稀缺，因为国内原本具备超大规模集群并行计算背景的人才就少，再叠加国产芯片的新变量，相关人才储备更为紧缺。而这正是我们的长板。

问：公司目前的融资进展如何？

汤雄超：我们在今年年初完成了首轮融资，目前公司发展势头良好，预计在年内会完成新一轮的融资。

聚焦推理：以自研引擎为核心的产品布局

问：模型推理是清程的重点方向，你们的MaaS平台具体有哪些布局与特色？

汤雄超：我们MaaS平台首期重点推出了高性能文本对话服务。除了提供常规的百亿参数以内模型，我们还免费开放了720亿参数的国产中文大模型供用户体验。该模型完全运行在国产算力平台上，得益于我们深度的系统优化，推理成本得到了有效控制，相比使用同等性能的英伟达算力更具性价比，因此我们能够提供免费的尝鲜服务。

近期，我们还上线了文生图功能，并完全兼容国际主流的ComfyUI工作流界面，特别适合设计师、创意工作者等专业群体进行AI绘画与创作。

未来，我们将持续丰富平台的服务能力。随着多模态AI应用的快速发展，我们计划逐步引入视频生成、3D生成等更复杂的模型服务，打造一站式的AI模型服务集市。

清程极智 MaaS平台

问：通过MaaS平台提供大模型API服务，是否意味着你们在与通用大模型公司直接竞争？

汤雄超：当前大模型行业的业务边界尚在探索中，存在一定的交叉竞争是市场早期的正常现象。众多参与者涌入，恰恰说明大家都看好这个方向，也证明了AI基础设施赛道的重要性获得了产业与资本的双重认可。我坚信大模型应用市场必将迎来爆发式增长，在一个万亿级别的庞大市场中，同一个细分领域完全能够容纳多家具备独特价值的厂商共同发展。

对我们而言，MaaS平台是一个重要的技术展示窗口和用户触达渠道，能让更多开发者和企业直观体验到清程极智在推理加速上的技术实力。并且，我们的目标并非在MaaS模式上挑战通用大模型巨头。清程的核心能力是底层推理引擎，我们的产品交付形态是多元化的，包括私有化部署的推理一体机、可独立授权的推理引擎软件，以及深度的定制化解决方案。

问：您提到的一体机，是指训练推理一体机吗？

汤雄超：我们提供的是专注于推理场景的一体机，而非训推一体机。我们认为，训练业务本质上不适合用一体机这种形态来承载。

训练和推理是两种差异巨大的负载。很难想象一个机柜规模的一体机，能够承担当今动辄需要上万张GPU、持续数月的大模型预训练任务，这必须依赖数据中心级的大规模智算集群。因此，市场上所谓的“训推一体机”在训练侧的价值有限。

我们提供的是高性能推理一体机。当客户有私有化部署需求时，我们可以基于对各类芯片特性的深刻理解，帮助客户选配性价比最优的硬件组合。由于我们与多家国产芯片厂商深度合作，有时比客户更清楚，不同的模型架构和推理需求更适合搭配哪款芯片。我们也发现，不少客户存在算力选型不当的情况，例如用原本擅长训练的A100显卡来跑在线推理服务，导致成本高昂而性能未能充分发挥。

问：你们MaaS平台上为Qwen2-72B-Instruct模型提供了英伟达和国产两种算力选项，具体使用的是哪些型号的芯片？

汤雄超：英伟达方面，我们选用的是市场主流的推理卡型号。国产卡方面，我们选用的是与英伟达同级别推理卡对标的国产芯片，实际测试表现令人满意。

虽然目前平台上为用户提供了算力平台的选择项，但根据我们的产品规划，未来会将这个选项“隐藏”起来。因为实测数据表明，经过清程自研系统的深度优化后，国产算力平台在推理特定模型时的性能已经非常接近甚至在某些场景下超越了英伟达平台。因此，未来用户无需关心底层是哪种算力，只需关注服务本身的性能与价格，这也符合我们公司“兼容并优化多样算力”的技术理念。

问：清程官网上还有一些与推理引擎相关的服务显示“即将上线”，能否介绍一下？

汤雄超：公司目前仍处于快速发展的初创期，主要精力聚焦在核心研发与商业化落地，官网内容的更新略有滞后。推理引擎是我们的拳头产品，它是一个完全自主研发的高性能系统软件，核心目标是通过优化计算、内存、通信等环节，显著降低模型推理延迟或提升吞吐率，从而全面提升能效比，并且它支持包括英伟达和多种国产芯片在内的异构硬件。

由于当前市面上主流的大模型开源框架和生态大多基于英伟达CUDA构建，用户如果想迁移到国产芯片，要么投入大量精力进行移植适配，要么只能放弃使用，体验并不友好。我们提供的，正是一个能够兼容多款主流国产芯片、开箱即用的高性能自研推理引擎。基于这个核心软件，我们衍生出两种主要的产品形态：面向公有云的MaaS平台，以及面向私有化部署的推理一体机。

具体来说，如果客户已经拥有硬件设备，可以直接采购我们的推理引擎软件进行部署优化；如果客户没有硬件，则有两种选择：一是直接调用我们的MaaS平台API服务；二是有数据隐私或网络要求的，我们可以提供软硬一体的推理一体机解决方案。

行业展望：智算中心架构将回归同构化

问：当前国产芯片品牌众多，异构混合训练的概念也很热，你们在这方面有布局吗？

汤雄超：我们确实具备异构混训的技术能力，也在进行相关研发。但根据我们在超算领域的长期观察，采用不同品牌、不同架构加速卡的异构集群，其整体计算效率和资源利用率，通常难以与采用统一型号加速卡的同构集群相媲美。混合不同硬件进行训练，很难让每一张卡的算力都得到百分百的发挥。

从产业现实角度看，当前的异构混训热潮，更像是国产芯片产能爬坡期、市场供给不足背景下的一种折中方案。回顾HPC（高性能计算）行业数十年的发展，全球成千上万个超算中心，我们很少见到哪个顶级超算集群内部会混用多种不同架构的加速卡。当然，不同超算中心选用不同品牌的卡是常态，但每个中心内部通常是架构统一的。

因此，随着国产芯片产能提升、型号稳定和生态成熟，我认为智算中心的建设最终也会回归到更高效、更易管理的同构基础架构。单一架构往往是实现极致效率的最优解。总体而言，在超大规模并行训练这一课题下，异构混训相对是较容易解决的技术点，更艰巨、更核心的挑战始终在于“超大规模”系统本身的设计、调优与稳定性保障。举例来说，让10张不同品牌的卡协同工作，与让10万张统一型号的卡高效协同，后者的工程复杂度和技术难度是指数级增长的。

问：这是否意味着您认为国内GPU芯片厂商未来会从当前的分散格局走向整合？

汤雄超：我们与沐曦、燧原、天数智芯、摩尔线程等多家国内优秀的芯片厂商都有合作。每家厂商都在特定方向上有着自己的优势，并且产品迭代速度非常快。从长远市场规律看，可能会出现一定程度的集中和收敛，但中国市场恐怕很难出现像美国那样一家占据绝对主导的局面。

因为中美市场生态存在差异。从智能手机、新能源汽车等行业的发展历史来看，美国市场往往由少数几家巨头主导，而中国市场则呈现出“百花齐放、多家共存”的格局。中国市场规模更大，应用场景更为复杂多元，下游客户的需求也各不相同。未来芯片市场可能会收敛到少数几家主要玩家，但大概率不会只剩一家，最终形成“多强并存”的产业格局可能性更大。

问：现阶段，您有比较看好的国内芯片厂商吗？

汤雄超：目前市场上已经有两三家厂商的产品表现出了不错的竞争力。但国产芯片的迭代速度超乎想象，竞争非常激烈，未来哪一家或哪几家能在性能、生态、性价比综合维度上最终胜出，现在还很难下定论。

问：您认为GPU是当前AI算力的终极解决方案吗？

汤雄超：这取决于如何定义“终极”。GPU已经在其设计的道路上发展得非常成熟，沿着这条已被验证的路径继续深化，是当前最务实的选择。但归根结底，硬件是为上层应用服务的。如果未来AI算法范式发生革命性变化，以至于现有的GPU架构无法高效适配新的计算模式，那么全新的芯片架构（如存算一体、神经拟态芯片等）就有可能脱颖而出，成为新的主流。

历史上这样的例子不少。曾经人们认为嵌入式处理器市场很小，但随着移动互联网爆发，Arm架构成功挑战了x86在移动领域的地位。算力硬件的格局始终由上层应用驱动。就当前以及可预见未来的大模型技术发展路径而言，我认为GPU或类GPU的并行计算架构仍然是相对最优的选择。

问：海外涌现出不少专注于AI专用芯片（ASIC）的厂商，但国内创业公司仍以瞄准通用GPU为主，专用芯片厂商较少。您认为对国内产业而言，发展专用芯片是一个好机会吗？

汤雄超：我认为在专用芯片（ASIC）与通用芯片（GPU）的技术路线选择上，国内外的底层逻辑是一致的。当某一类上层应用（例如Transformer大模型）变得至关重要且规模巨大时，业界自然会萌生为其设计专用芯片的想法，从而在特定任务上获得极致的性能功耗比。但同时，由于AI算法仍在快速演进，大家又希望有足够通用的芯片来保证对未来技术的适应性。这两条路线是并行且互补的，很难说谁会完全取代谁。总体来看，我认为国内市场将会呈现通用GPU与领域专用ASIC并存、共同发展的局面。

问：CUDA生态常被视为英伟达的“护城河”，也有观点认为它构成了某种“生态锁定”。您认为国内应如何构建自己的算力护城河？

汤雄超：“生态锁定”或“泥潭式护城河”这个形容很形象。我认为国内要构建自己的护城河，必须从实际应用需求出发，寻找差异化的突破点。试图完全复制一个“CUDA 2.0”，不仅工程浩大、极其困难，其必要性和性价比也值得商榷。我们发展国产算力的根本目的是为了支撑上层AI应用创新，如果仅仅为了“复制”而复制，可能事倍功半。

但如果转换思路，基于国内丰富的AI应用场景（如中文理解、垂直行业模型）的需求，对软件栈和工具链进行针对性的优化、补全和增强，我们无需照搬整个CUDA生态，目标更聚焦，任务也更明确。这样，国产算力系统反而更容易在特定领域形成独特优势，找到突破口。目前，国内很多厂商在做CUDA兼容性工作，这有其现实意义——能够将现有CUDA生态的海量成果平滑迁移到国产平台，降低开发者的迁移成本。至于这种兼容策略长期是否会反过来强化CUDA生态的地位，目前还是一个开放性的问题，需要时间观察。

来源:https://www.leiphone.com/category/ai/mXROFSwEz47oIBzp.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：特朗普执政期间美国国家科学基金会科研经费削减近半下一篇：商汤科技徐立详解AI战略基础设施模型与应用无缝集成