对话清程极智：如何筛选优质Token与大模型API评测

首页

AI资讯

热心网友

转载

2026-05-26

5月26日，一场小范围的媒体沟通会，让一家名为清程极智的AI Infra初创公司走到了台前。这家成立于2023年底的公司，核心团队背景颇为亮眼，均来自清华大学计算机系高性能所，在高性能计算领域积淀深厚。成立不到三年，公司已完成三轮融资，投资方名单里不乏北京市人工智能产业基金、华&为、联想、中科创星等知名产业资本。

沟通会上，清程极智系统梳理了其技术产品版图：覆盖AI训练、推理与应用服务的智能计算软件栈“八卦炉”、大模型推理引擎“赤兔”，以及大模型服务评测与调度平台“AI Ping”。不过，比起产品介绍，团队分享的一线行业观察或许更具启发性，话题直指当前火热的Token经济、国产算力适配与模型技术路线的未来。

一、Token经济爆火，如何少花“冤枉钱”

“Token经济”无疑是2026年的行业热词。清程极智首席科学家翟季冬分享的一组数据，直观揭示了市场的爆炸性增长：全球Token日调用量从2024年初的约0.5万亿，猛增至今年3月的300至600万亿，增长近300倍。而中国市场的增速更为惊人，同期从0.1万亿飙升至140万亿，增幅高达1400倍。

驱动增长的力量来自哪里？翟季冬指出，当前Top 10的AI应用中，智能体（Agent）类应用占比已超过80%。与单轮对话不同，Agent需要多步执行，每一步都可能调用大模型，其Token消耗量是普通对话的数倍。此外，像AI编程这类工具，调用量也非常庞大，未来很可能取代相当一部分基础编程工作。

中国独特的土壤加速了Token经济的成型。供给侧，从政府主导的智算中心、数算中心建设，到云厂商的便捷部署，乃至电信运营商的入局，算力基础设施持续扩容。模型层面，DeepSeek、GLM、Kimi等优秀国产模型不断开源，降低了获取门槛。需求侧，从企业、开发者到科研人员乃至普通消费者，真实需求正在全面释放。

然而，市场爆发并不等同于用户体验的完善。业界常将Token比作“水电煤”，但翟季冬认为二者存在微妙区别：用电时，我们无需关心电力来自风电还是水电；但Token本身，却存在“好坏”之分。

目前国内已有数十家Token服务商涌现，但服务质量良莠不齐，流通环节问题凸显。用户面对众多选择，往往难以辨别差异，决策成本高昂。清程极智团队在日常业务中，接触了大量“花冤枉钱”的案例。其联合创始人、产品副总裁师天麾直言：“买Token里头有很多的坑。”

第一个坑，是模型效果不一致。即便是同一版本、同一价格的DeepSeek模型，在不同服务商那里，实际效果也可能存在差异。

第二个坑，是实际成本不一致。标价相同、生成Token数相同，最终成本却可能相差数倍。这背后关键在于缓存命中率。技术扎实的服务商，能有效利用缓存避免重复计算，成本自然更低；而技术不足的服务商，每次请求都需重新计算，用户支付的费用，换来的有效计算量却大打折扣。

第三个坑，是服务质量参差不齐。新兴厂商的服务稳定性差异巨大，卡顿、响应慢甚至“服务变笨”的情况时有发生。尤其“慢响应”问题日益突出，本应3-5秒返回的结果，延迟30秒、50秒甚至300秒的情况都可能出现。对用户而言，这种响应速度基本意味着服务不可用，但在部分厂商的服务质量保证中，只要最终返回了结果，就被计为“可用”。

翟季冬总结道：“即便是同一个模型、同样数量的Token，不同服务商在首Token延迟、吞吐量、支持的上下文长度这些核心指标上，表现可能相差四五倍。”

二、给大模型API做个“大众点评”，7×24小时持续评测、智能调度模型

正是为了解决上述痛点，清程极智在今年一月推出了AI Ping平台。开发者们给它起了个形象的绰号——“大模型API服务的大众点评”。

AI Ping瞄准开发者的两大核心需求：一是通过7×24小时不间断的持续评测，呈现全面、客观、真实的大模型服务性能榜单；二是通过统一API接口和智能路由调度，帮助开发者缩短决策周期、提升开发效率、降低成本。

师天麾详细拆解了背后的关键技术。在测评层面，AI Ping坚持从真实用户视角进行端到端的匿名评测。为确保公平，平台使用相同模型、相同输入、在同一时间段进行测试，并通过动态输入机制不断变换评测内容，防止服务商针对固定评测“刷分”。这套评测体系并非一次性任务，而是24小时不间断运行，并在北京、深圳、上海、成都等多地同步进行分布式异地测试，以反映不同区域的网络状况。

据称，其部分评测结果与国内头部云厂商的性能监测数据交叉验证，误差可控制在1%以内。实际效果上，AI Ping目前能将Token服务成本降低超37%，吞吐提升超90%，延迟降低超20%，服务可用率对标最高标准的云大厂，达到99.99%以上。

海量的实时评测数据，构成了智能路由调度的基石。行业观察显示，同一家服务商的延迟、吞吐在一天内大幅波动是常态。对于用户而言，若绑定单一服务商，其服务稳定性难免受到影响。

AI Ping的智能路由就像一套实时导航系统，能针对模型调用过程中的卡顿、成本失控等问题，动态规划最优调用链路。例如，有些模型擅长快速问答，有些则精于复杂推理，智能路由可以实现不同模型的优势搭配。用户也可以在平台上根据自身需求，灵活选择默认、成本优先或性能优先等不同策略。

师天麾认为，这项服务对中小企业价值尤为显著。大型企业有足够的资源和能力去采购、评测数十家服务商，但对中小企业而言，这其中的成本和技术门槛都太高了。

三、自研国产大模型推理引擎，不简单挪用现成技术

清程极智的另一块核心拼图，是其生产级大模型推理引擎“赤兔”。联合创始人唐适之详细阐释了推理引擎的技术原理与赤兔的独特之处。

简单来说，推理引擎是运行在AI算力上的计算机程序，负责接收用户输入，依据大模型的定义进行计算并产生输出，其计量单位正是Token。开源模型本身只是一套数学表示，要让它能听会说，就必须设计相应的推理引擎程序。

一个高效的推理引擎需要满足多重严苛要求：精度必须如实反映模型的真实能力；吞吐量要足够大，每秒处理的请求和Token数越多越好；延迟要尽可能低；同时还需占用更少的硬件资源，并保持极高的运行稳定性。

赤兔推理引擎正是为应对这些挑战而生的。它由清程极智联合清华大学团队推出并开源，同时提供商用版本。开源版服务于国产算力生态的共建与迭代，企业版则聚焦于满足企业级的高端需求。

值得注意的是，赤兔从第一行代码起即为自研，并专门面向国产芯片架构进行开发。它不仅能流畅运行在昇腾、沐曦、海光、摩尔线程等国产芯片上，也兼容主流进口芯片，这种兼容性为行业节省了大量重复适配的成本。

在适配国产算力方面，赤兔没有走简单挪用vLLM、SGLang等现有技术的捷径，而是深入考虑了国产芯片与英伟达芯片在计算能力、数据表达、硬件调度及通信方式上的本质差异，进行了针对性突破。例如，其通过软件方案实现了对FP8/FP4等浮点数量化类型的支持，在有硬件支持的GPU上可以提升性能、节省显存；在没有硬件支持的国产卡上，则能有效降低成本，达到可用的实用价值。

总体来看，像赤兔这样的国产推理引擎，正在国产算力与国产模型之间架起一座关键桥梁，完善了整个生态链条，助力国产AI推理实现更高程度的自主可控。

四、谈华&为“韬（τ）定律”、模型架构演进与国产算力生态

在随后的交流中，团队进一步分享了对于行业趋势的深度观察。

唐适之首先回顾了赤兔引擎的技术渊源。他指出，大模型兴起之前，流体力学模拟、药物设计等领域同样对计算有着极高要求。如今AI基础设施层的许多技术，其实都源于高性能计算领域。清程极智核心团队所在的清华大学高性能所，在此已有数十年的技术积累。

谈及国产算力生态建设，唐适之提到了英伟达的往事。早年英伟达会主动向高校赠送免费GPU以培育生态，如今其生态已然成熟，芯片也成了紧俏商品。当前，各大国产芯片厂商都在积极自建生态，但这些生态相对独立。不同厂商所需的基础技术其实有很多共通之处，清程极智希望站在更宏观的视角，为整个国产算力生态的发展提供服务。

关于国产芯片适配的具体挑战，唐适之解释，芯片能力的充分发挥不仅依赖硬件，更依赖于系统软件的深度优化。当前适配工作涉及算子库、编译器、并行方案等多个层面，核心目标一致：让芯片将更多时间用于真实有效的计算，而非消耗在数据搬运和通信开销上。例如，算子库偏向精细的手工优化，能极致调用计算单元；编译器则偏向自动优化，但效果未必始终最优。实际部署中，需要根据芯片架构特点，综合甚至协同使用多种技术手段。

对于近期热议的华&为“韬（τ）定律”，唐适之也给出了他的理解。他认为，业界常说的“摩尔定律”本身是一个经验总结，而非物理原理。如今芯片制程逐渐逼近物理极限，很难再像过去那样单纯依靠堆叠晶体管来提升性能。因此，产业界正在探索各种突破路径。华&为提出的方案，核心是通过降低响应时间、提升互联效率来规避晶体管数量增长的瓶颈。当然，学界和业界还有其他思路，比如让芯片设计更专用化以减少内部连接开销，或者通过批量处理更多数据来提升效率（代价是灵活性下降）。这些替代路径，学术界已有相当多的探讨。

对于“Token越来越便宜”的市场观点，师天麾从供需与调度效率角度提出了不同观察。他认为，大模型推理单次成本的下降，并不意味着Token不再紧缺。当前国内推理需求，尤其是长上下文、多轮交互类应用带来的Token消耗正在快速增长，而算力供给难以同步扩张。清程极智正尝试通过评测和智能调度来提升整体算力利用率。“全中国的算力资源，总有繁忙与空闲之时，但过去业界缺乏全局视角。”师天麾透露，借助AI Ping，平台能够以更具性价比的方式获取并调度Token资源，在提升算力利用率的同时，为用户降低成本。

翟季冬则分享了他对大模型技术路线演进的看法。他认为，如果朝着AGI（通用人工智能）的方向看，上层的模型架构还远未收敛，仍有巨大探索空间。未来的模型未必局限于传统的自回归路线。例如，去年蚂蚁集团探索的基于扩散机制的语言模型，其技术路径就与传统架构不同，谷歌等公司也曾进行类似尝试。同时，多模态统一模型正成为重要方向，将文本、图像、视频生成能力整合进单一模型，是行业明确的探索趋势。尽管并非直接从事模型研究，但通过与业内企业的交流观察，翟季冬感受到，整个行业在模型架构上的创新探索依然活跃，未来仍有出现新路线的可能。