对话清程极智:如何筛选优质Token与大模型API评测
5月26日,一场小范围的媒体沟通会,让一家名为清程极智的AI Infra初创公司走到了台前。这家成立于2023年底的公司,核心团队背景颇为亮眼,均来自清华大学计算机系高性能所,在高性能计算领域积淀深厚。成立不到三年,公司已完成三轮融资,投资方名单里不乏北京市人工智能产业基金、华&为、联想、中科创星等知名产业资本。
沟通会上,清程极智系统梳理了其技术产品版图:覆盖AI训练、推理与应用服务的智能计算软件栈“八卦炉”、大模型推理引擎“赤兔”,以及大模型服务评测与调度平台“AI Ping”。不过,比起产品介绍,团队分享的一线行业观察或许更具启发性,话题直指当前火热的Token经济、国产算力适配与模型技术路线的未来。
一、Token经济爆火,如何少花“冤枉钱”
“Token经济”无疑是2026年的行业热词。清程极智首席科学家翟季冬分享的一组数据,直观揭示了市场的爆炸性增长:全球Token日调用量从2024年初的约0.5万亿,猛增至今年3月的300至600万亿,增长近300倍。而中国市场的增速更为惊人,同期从0.1万亿飙升至140万亿,增幅高达1400倍。

驱动增长的力量来自哪里?翟季冬指出,当前Top 10的AI应用中,智能体(Agent)类应用占比已超过80%。与单轮对话不同,Agent需要多步执行,每一步都可能调用大模型,其Token消耗量是普通对话的数倍。此外,像AI编程这类工具,调用量也非常庞大,未来很可能取代相当一部分基础编程工作。
中国独特的土壤加速了Token经济的成型。供给侧,从政府主导的智算中心、数算中心建设,到云厂商的便捷部署,乃至电信运营商的入局,算力基础设施持续扩容。模型层面,DeepSeek、GLM、Kimi等优秀国产模型不断开源,降低了获取门槛。需求侧,从企业、开发者到科研人员乃至普通消费者,真实需求正在全面释放。

然而,市场爆发并不等同于用户体验的完善。业界常将Token比作“水电煤”,但翟季冬认为二者存在微妙区别:用电时,我们无需关心电力来自风电还是水电;但Token本身,却存在“好坏”之分。

目前国内已有数十家Token服务商涌现,但服务质量良莠不齐,流通环节问题凸显。用户面对众多选择,往往难以辨别差异,决策成本高昂。清程极智团队在日常业务中,接触了大量“花冤枉钱”的案例。其联合创始人、产品副总裁师天麾直言:“买Token里头有很多的坑。”
第一个坑,是模型效果不一致。即便是同一版本、同一价格的DeepSeek模型,在不同服务商那里,实际效果也可能存在差异。
第二个坑,是实际成本不一致。标价相同、生成Token数相同,最终成本却可能相差数倍。这背后关键在于缓存命中率。技术扎实的服务商,能有效利用缓存避免重复计算,成本自然更低;而技术不足的服务商,每次请求都需重新计算,用户支付的费用,换来的有效计算量却大打折扣。
第三个坑,是服务质量参差不齐。新兴厂商的服务稳定性差异巨大,卡顿、响应慢甚至“服务变笨”的情况时有发生。尤其“慢响应”问题日益突出,本应3-5秒返回的结果,延迟30秒、50秒甚至300秒的情况都可能出现。对用户而言,这种响应速度基本意味着服务不可用,但在部分厂商的服务质量保证中,只要最终返回了结果,就被计为“可用”。
翟季冬总结道:“即便是同一个模型、同样数量的Token,不同服务商在首Token延迟、吞吐量、支持的上下文长度这些核心指标上,表现可能相差四五倍。”
二、给大模型API做个“大众点评”,7×24小时持续评测、智能调度模型
正是为了解决上述痛点,清程极智在今年一月推出了AI Ping平台。开发者们给它起了个形象的绰号——“大模型API服务的大众点评”。
AI Ping瞄准开发者的两大核心需求:一是通过7×24小时不间断的持续评测,呈现全面、客观、真实的大模型服务性能榜单;二是通过统一API接口和智能路由调度,帮助开发者缩短决策周期、提升开发效率、降低成本。
师天麾详细拆解了背后的关键技术。在测评层面,AI Ping坚持从真实用户视角进行端到端的匿名评测。为确保公平,平台使用相同模型、相同输入、在同一时间段进行测试,并通过动态输入机制不断变换评测内容,防止服务商针对固定评测“刷分”。这套评测体系并非一次性任务,而是24小时不间断运行,并在北京、深圳、上海、成都等多地同步进行分布式异地测试,以反映不同区域的网络状况。
据称,其部分评测结果与国内头部云厂商的性能监测数据交叉验证,误差可控制在1%以内。实际效果上,AI Ping目前能将Token服务成本降低超37%,吞吐提升超90%,延迟降低超20%,服务可用率对标最高标准的云大厂,达到99.99%以上。

海量的实时评测数据,构成了智能路由调度的基石。行业观察显示,同一家服务商的延迟、吞吐在一天内大幅波动是常态。对于用户而言,若绑定单一服务商,其服务稳定性难免受到影响。
AI Ping的智能路由就像一套实时导航系统,能针对模型调用过程中的卡顿、成本失控等问题,动态规划最优调用链路。例如,有些模型擅长快速问答,有些则精于复杂推理,智能路由可以实现不同模型的优势搭配。用户也可以在平台上根据自身需求,灵活选择默认、成本优先或性能优先等不同策略。
师天麾认为,这项服务对中小企业价值尤为显著。大型企业有足够的资源和能力去采购、评测数十家服务商,但对中小企业而言,这其中的成本和技术门槛都太高了。
三、自研国产大模型推理引擎,不简单挪用现成技术
清程极智的另一块核心拼图,是其生产级大模型推理引擎“赤兔”。联合创始人唐适之详细阐释了推理引擎的技术原理与赤兔的独特之处。
简单来说,推理引擎是运行在AI算力上的计算机程序,负责接收用户输入,依据大模型的定义进行计算并产生输出,其计量单位正是Token。开源模型本身只是一套数学表示,要让它能听会说,就必须设计相应的推理引擎程序。

一个高效的推理引擎需要满足多重严苛要求:精度必须如实反映模型的真实能力;吞吐量要足够大,每秒处理的请求和Token数越多越好;延迟要尽可能低;同时还需占用更少的硬件资源,并保持极高的运行稳定性。
赤兔推理引擎正是为应对这些挑战而生的。它由清程极智联合清华大学团队推出并开源,同时提供商用版本。开源版服务于国产算力生态的共建与迭代,企业版则聚焦于满足企业级的高端需求。
值得注意的是,赤兔从第一行代码起即为自研,并专门面向国产芯片架构进行开发。它不仅能流畅运行在昇腾、沐曦、海光、摩尔线程等国产芯片上,也兼容主流进口芯片,这种兼容性为行业节省了大量重复适配的成本。

在适配国产算力方面,赤兔没有走简单挪用vLLM、SGLang等现有技术的捷径,而是深入考虑了国产芯片与英伟达芯片在计算能力、数据表达、硬件调度及通信方式上的本质差异,进行了针对性突破。例如,其通过软件方案实现了对FP8/FP4等浮点数量化类型的支持,在有硬件支持的GPU上可以提升性能、节省显存;在没有硬件支持的国产卡上,则能有效降低成本,达到可用的实用价值。
总体来看,像赤兔这样的国产推理引擎,正在国产算力与国产模型之间架起一座关键桥梁,完善了整个生态链条,助力国产AI推理实现更高程度的自主可控。

四、谈华&为“韬(τ)定律”、模型架构演进与国产算力生态
在随后的交流中,团队进一步分享了对于行业趋势的深度观察。
唐适之首先回顾了赤兔引擎的技术渊源。他指出,大模型兴起之前,流体力学模拟、药物设计等领域同样对计算有着极高要求。如今AI基础设施层的许多技术,其实都源于高性能计算领域。清程极智核心团队所在的清华大学高性能所,在此已有数十年的技术积累。
谈及国产算力生态建设,唐适之提到了英伟达的往事。早年英伟达会主动向高校赠送免费GPU以培育生态,如今其生态已然成熟,芯片也成了紧俏商品。当前,各大国产芯片厂商都在积极自建生态,但这些生态相对独立。不同厂商所需的基础技术其实有很多共通之处,清程极智希望站在更宏观的视角,为整个国产算力生态的发展提供服务。
关于国产芯片适配的具体挑战,唐适之解释,芯片能力的充分发挥不仅依赖硬件,更依赖于系统软件的深度优化。当前适配工作涉及算子库、编译器、并行方案等多个层面,核心目标一致:让芯片将更多时间用于真实有效的计算,而非消耗在数据搬运和通信开销上。例如,算子库偏向精细的手工优化,能极致调用计算单元;编译器则偏向自动优化,但效果未必始终最优。实际部署中,需要根据芯片架构特点,综合甚至协同使用多种技术手段。
对于近期热议的华&为“韬(τ)定律”,唐适之也给出了他的理解。他认为,业界常说的“摩尔定律”本身是一个经验总结,而非物理原理。如今芯片制程逐渐逼近物理极限,很难再像过去那样单纯依靠堆叠晶体管来提升性能。因此,产业界正在探索各种突破路径。华&为提出的方案,核心是通过降低响应时间、提升互联效率来规避晶体管数量增长的瓶颈。当然,学界和业界还有其他思路,比如让芯片设计更专用化以减少内部连接开销,或者通过批量处理更多数据来提升效率(代价是灵活性下降)。这些替代路径,学术界已有相当多的探讨。
对于“Token越来越便宜”的市场观点,师天麾从供需与调度效率角度提出了不同观察。他认为,大模型推理单次成本的下降,并不意味着Token不再紧缺。当前国内推理需求,尤其是长上下文、多轮交互类应用带来的Token消耗正在快速增长,而算力供给难以同步扩张。清程极智正尝试通过评测和智能调度来提升整体算力利用率。“全中国的算力资源,总有繁忙与空闲之时,但过去业界缺乏全局视角。”师天麾透露,借助AI Ping,平台能够以更具性价比的方式获取并调度Token资源,在提升算力利用率的同时,为用户降低成本。
翟季冬则分享了他对大模型技术路线演进的看法。他认为,如果朝着AGI(通用人工智能)的方向看,上层的模型架构还远未收敛,仍有巨大探索空间。未来的模型未必局限于传统的自回归路线。例如,去年蚂蚁集团探索的基于扩散机制的语言模型,其技术路径就与传统架构不同,谷歌等公司也曾进行类似尝试。同时,多模态统一模型正成为重要方向,将文本、图像、视频生成能力整合进单一模型,是行业明确的探索趋势。尽管并非直接从事模型研究,但通过与业内企业的交流观察,翟季冬感受到,整个行业在模型架构上的创新探索依然活跃,未来仍有出现新路线的可能。
结语:AI Infra效率成竞争焦点
随着大模型技术逐渐步入规模化应用阶段,模型背后的基础设施效率,正日益成为AI行业竞争的新焦点。谁能以更低的成本、更稳定的质量、更高的效率提供Token服务,谁就更有机会在下一阶段占据优势。
与此同时,国产算力生态的建设也在加速。行业对于新型芯片架构、互联效率和系统级优化的探索明显升温,竞争维度正从单一的芯片能力,转向“芯片+软件栈+推理引擎+应用生态”的整体协同。这场围绕效率与生态的竞赛,才刚刚开始。
相关攻略
清程极智团队指出,当前Token服务市场爆发但质量参差不齐,存在模型效果、成本与稳定性三大问题。为此,公司推出AIPing平台,通过评测与调度帮助开发者优化选择、降低成本。其自研推理引擎“赤兔”专为国产芯片优化,旨在提升算力效率。团队认为,随着大模型应用规模化,基础设施效率与国产算力生态的。
大众ID Polo即将亮相:首款完整采用全新设计语言的量产车 大众汽车即将揭开ID Polo的神秘面纱。这款备受期待的纯电车型,定于欧洲中部时间4月29日中午12点(北京时间同日18点)正式亮相。值得注意的是,在改款ID 3 Neo之后,ID Polo是设计总监安德烈亚斯·明特主导设计方向以来,首款
大众2025财年营业利润下跌53 5%:豪华运动板块成最大拖累 3月10日,大众汽车集团发布了2025财年业绩报告,一组数据引发了广泛关注:集团全年营业利润为88 68亿欧元。这个数字,相较于2024年的190 60亿欧元,出现了高达53 5%的断崖式下滑。与此同时,经营回报率也从5 9%收索至2
大众CEO“喊话”德国同行:是时候向中国学习了 最近,“大众CEO:德国车企应向中国学习”这个话题,在网络上引发了不小的讨论。事情源于大众汽车集团CEO奥利弗·布鲁姆最近接受德国媒体采访时的一番表态,他直言不讳地指出,德国汽车工业真该好好学学中国严谨的工业规划。 要知道,布鲁姆发表这番言论的背景,正
大众终于放下身段!一汽大众全新速腾S上市 起售价仅7 98万元 紧凑型家轿市场,这下热闹了。就在今天下午,一汽大众速腾家族的全新入门级车型——全新速腾S正式登场。新车一口气推出4款配置,指导价区间定在了7 98万到10 58万元。这个价格一出来,信号就非常明确了:合资品牌与自主品牌之间那层“价格壁垒
热门专题
热门推荐
在《和平精英》的激烈对决中,手雷不仅是范围杀伤武器,更是扭转战局、攻破敌阵的核心战术道具。许多玩家都曾遇到过手雷扔不准、错失良机的困扰。其实,游戏内自带了一个能极大提升投掷命中率的实用功能——丢雷轨迹线。这项功能无需在外部设置菜单中预先开启,其所有操作都集成在实战投掷界面中,关键在于对局时的灵活调用
2026年5月29日至6月2日,全球肿瘤学界的年度盛典——美国临床肿瘤学会(ASCO)年会将于芝加哥隆重举行。作为肿瘤领域最具影响力的国际学术会议,ASCO年会始终是前沿科研突破的风向标和临床治疗理念的策源地。本届大会,中国创新力量的表现格外引人瞩目:由中国学者主导并入选口头报告、快速口头报告等核心
EverMail AI是什么 在邮件营销的实际工作中,营销人员常常面临两难选择:使用模板群发效率高但缺乏个性,手动撰写又耗时耗力。如何实现大规模个性化沟通,是提升转化率的关键。EverMail AI正是为解决这一核心痛点而生的智能解决方案。 简单来说,EverMail AI是一款基于人工智能技术的电
OKX欧易:全球领先的数字资产服务平台 在数字资产的世界里,选择一个可靠、功能全面的交易平台,无疑是开启旅程的第一步。OKX欧易,正是这样一个备受全球用户信赖的数字资产服务平台。它集成了比特币(BTC)、以太坊(ETH)、狗狗币(DOGE)等主流数字资产的交易服务,凭借其强大的功能、清晰友好的用户界
《和平精英》全新推出的“奥特精英和平蛋”活动,已成为近期玩家热议的焦点。该活动为玩家提供了一个获取“荣耀勋章”的全新途径,而勋章正是抽取奥特曼主题限定奖励的关键道具。奖池内包含终极赛罗飞行器、多款人气角色套装及枪械皮肤等珍稀物品,对于奥特曼系列爱好者与皮肤收藏家来说,这是一次极具吸引力的机会。 奥特





