
经过2025年的发展,大模型行业逐渐形成一个共识:推理需求将步入复合倍速增长阶段,市场需要更高性能和更优性价比的芯片来支撑发展。基于此,1月27日,汤商汤集团孵化的半导体公司曦望发布第三代推理GPU芯片启明S3,并设定了将百万token推理成本降至一分钱左右的清晰目标。
谈及为何选择此时专注于推理方向,曦望董事长徐冰指出,行业风向的转变是驱动这一决策的核心原因:应用需求正从“能训练”向“能用起来”延展;场景也变得更加多元,多模态应用迎来爆发增长,智能体(Agent)需要高频响应与实时交互,物理AI(Physical AI)的落地步伐也在不断加快;成本结构同样发生剧变,行业已开始将推理成本从“元级”压缩至“分级”。未来,人工智能将像水电一样,成为普惠性的数字基础设施。
截至目前,曦望共推出了三款芯片,分别为定位云边端视觉推理专用的S1、对标英伟达A100的训推一体芯片S2,以及此次发布的S3。对于未来在训练与推理两端的资源投入分配,徐冰在采访中对记者表示,这是公司战略定力的问题。他指出,若能先将推理做到极致,同样能够在商业层面建立牢固的优势。预计到2030年,推理芯片将占到公司资源分配的80%。
而训推一体芯片本身也存在一定的挑战,曦望联席CEO王勇将其归纳为三大困境:高昂的成本与不稳定的供应;惊人的能耗水平;以及复杂的部署运维流程。未来,合理的算力访存比将成为芯片竞争的关键指标。算力访存比是衡量芯片计算能力与内部数据传输效率匹配度的核心尺度,它直接决定了芯片实际性能的发挥程度。
过去,芯片行业竞争的核心是“堆算力”。然而,随着推理算力需求爆发,“内存墙”问题逐渐凸显,成为制约芯片性能的主要瓶颈。计算单元算力的提升速度,远快于访存带宽的升级步伐,导致许多芯片的理论算力在实际场景中难以充分释放,这一矛盾在推理芯片中尤为突出。为应对这一挑战,英伟达创始人黄仁勋提出了从单芯片优化升级转向系统级协同设计的方案,这也是其下一代Vera Rubin平台的核心设计逻辑。
王勇对此有类似观察。他对记者表示,当前以深度求索为代表的大模型公司,不仅会持续研发大模型,也会推动底层框架的演变。这将带动从模型架构、算子开发到推理系统的全链路技术创新,推动软件框架适配新的计算范式与跨硬件部署,试图摆脱对英伟达CUDA生态的深度依赖。此次曦望也发布了AI算力平台,以自研芯片为底座,与多家主流大模型进行深度适配,从软件和系统层面着手,全面提升芯片的利用效率。
燧曜智算董事长兼CEO周璟璟表示,国产芯片的定位正变得越来越清晰精准——从最初追求与国际高性能算力并驾齐驱,发展到如今在追求性能的同时,也追求极致的成本控制。国际经验表明,每当百万token的成本下降一半,市场上AI应用的数量就会出现显著增长,算力市场的繁荣度也将呈指数级提升。目前,国产算力正处于一个非常有利的战略位置。
