在2026年的杭州,最受瞩目的八家科技公司分别布局于推理芯片、存算一体、灵巧手、智能眼镜、太空算力、AI数据基础设施、智能底盘与合成生物等前沿赛道,外界为其赋予了一个响亮的名号——“杭州新八骏”。
若将这份名单与两年前走红的“六小龙”并列审视,变化的脉络清晰可见。彼时,无论是大模型对话、四足机器人还是3A游戏,大众脑海中都能立刻映射出具体产品形象。然而,“新八骏”的画风截然不同,其赛道更为深邃、根基更为扎实,多数领域虽远离普通人的日常视野,却紧密联结着产业发展的底层命脉。
从“软性应用”到“硬核基建”,杭州正将产业重心从可见、可触的应用层,向那些平时难以察觉却至关重要的基础设施层面悄然下沉。
这一转变,背后蕴含着深思熟虑的战略考量与主动转型。
杭州的“硬核”转身
回望过去二十余年,杭州书写的是一部关于“软实力”的传奇。从湖畔花园那间狭小公寓起步,孕育出全球最大的电商生态;从重塑国人的支付习惯,到构建亚洲领先的云计算平台。杭州以其独特的方式定义了数字经济,这座城市天生擅长运用代码与算法,将商业效率推向极致。
然而,“软实力”的繁荣背后,隐藏着一个常被忽略的前提——它需要坚实可靠的硬件基础作为支撑。服务器的芯片依赖外部供应,大模型运行在进口GPU之上,开发工具链也多源自大洋彼岸。杭州将上层应用做到了世界顶尖水平,但正如高楼拔地而起,越往上延伸,那深埋地下的无形桩基就越令人悬心。
尤其是在人工智能正从实验室快速渗透至各行各业之际,一个核心问题变得无法回避:杭州能否从上层应用向下延伸,培育出属于自身的产业底座?
“新八骏”的出现,正是这一战略转向的产物。八条赛道全线扎根于底层领域:芯片、数据基础设施、生物代码、太空算力——越是基础,越是不可或缺。
一个常被追问的问题是:为何偏偏是杭州?这座城市拿出了两种稀缺资源提供支撑。其一为耐心资本——在“新八骏”中,杭州金投入股4家,杭州资本则通过基金加直投方式投资了7家。其二是一种服务姿态:陪跑,但不干预。相比于锦上添花,硬科技企业更需要的是一片耐得住寂寞的土壤。
这些企业的底层需求,正在悄然汇聚。例如,“灵巧手”需要实时响应触觉信号,智能眼镜必须在端侧运行大模型,这些都离不开端侧芯片;而太空算力的核心场景,同样指向推理。顺着这条线索向下深挖,最终都会汇聚到同一个焦点——算力芯片。
而曦望,正是这八家公司中唯一专注推理GPU的企业。
它在整个生态中的定位如同“心脏”。并不显眼,不处于聚光灯下,却持续为整个生态输送算力,是最深入地基、却也最难被替代的关键一环。
今年2月,杭州举办了一场“争创全国人工智能创新发展第一城”推进大会,12个投资额超10亿元的重大项目集中签约,总投资额达255亿元。其中,曦望的“高性能GPU及推理芯片研发项目”,是唯一一个推理GPU芯片项目。杭州正将推理算力写入城市的产业底座——而曦望做出这一选择时,行业风向远未如今日这般明朗。
一次反共识的战略抉择
两年前,推理芯片这条路看起来远没有今天这般顺理成章。
2024年底之前,国产GPU赛道的主流共识非常明确:追求训推一体,追逐峰值算力,对标英伟达的训练卡。训练是明星赛道,大模型军备竞赛的核心指标是算力集群规模与参数量上限。至于推理?那不过是训练完成后的附带工作,不值得单独拿出来做。
正是在这个节骨眼上,曦望做出了一个反共识的决定:砍掉所有训练模块,将全部资源倾注于推理领域。
这意味着主动放弃了当时最大的市场份额——训练集群采购预算。曦望把整个芯片架构资源、工程团队精力及战略筹码,都押注在一个尚未大规模爆发的需求上。
这条路线其实有迹可循。曦望董事长徐冰,在2024年底的香港金融科技周上分析AI基础设施演进方向时,关键判断之一便是“推理崛起”。他明确指出:“推理正变得越来越重要和复杂,需要全新的云基础设施,从数据中心到边缘设备都涵盖在内。”同一场合,他反复强调的另一个关键词是“降低计算成本”。
当行业仍在围绕训推一体的通用GPU激烈竞争时,“谁能训练出最大的模型”已不再是最核心的变量。影响行业最关键的变量转变为:谁能稳定、低成本地生产Token。
2024年底,曦望从母公司正式分拆独立,将“All in推理”写入公司战略。他们放弃训推一体GPU路线,从零开始设计原生推理架构——这在国产GPU公司中尚属首例,是第一个“吃螃蟹的人”。
时间最终给出了答案。
2026年初,AI智能体“龙虾”(OpenClaw)风靡全球。与聊天机器人不同,它每完成一个任务需执行数十次推理、调用不同模型,全天候持续消耗Token。一夜之间,“Token工厂”成了AI基建领域的香饽饽。更关键的是,它从企业市场迅速渗透至消费市场,大量用户开始购置专用“龙虾机”,让智能体代劳处理各类日常任务。
龙虾推出三个月后,算力租赁成本上涨了30%至40%,推理需求达到训练的4到5倍,供应链出现“一卡难求”的局面。推理在整体AI算力成本结构中的占比飙升至70%。
同年3月,OpenAI宣布关停视频生成产品Sora,官方未给出明确理由,但外界普遍将其归因于推理成本过高——即便是OpenAI这样的大厂,大规模商用视频生成的算力开销也难以承受。
而且,单纯降价根本无法解决这一问题。过去两年,Token单价下降了不止一个数量级,但企业的AI账单反而上涨了数倍。Token越便宜,使用人数越多、用法越复杂,总消耗反过来吞噬了降价的红利。这种需求扩张快于单价下降的趋势,在现阶段看来短期内难以逆转。
就连GPU巨头也在做出应对。2025年底,英伟达以约200亿美元获取了推理芯片公司Groq的核心技术授权,并将其创始人及关键工程团队纳入麾下——这种“技术授权+人才收购”的组合策略,实质上是一次针对推理赛道的战略卡位。英伟达的动作印证了一点:训推一体GPU并非推理的最优解,推理需要原生架构。
而曦望,恰好在龙虾爆发前一个月,发布了第一代原生推理芯片S3。

S3将所有不用于推理的部分全部精简。传统训推一体GPU有大量晶体管专为训练准备,S3将这些部分全部省去,悉数投入到推理的并发、延迟及功耗优化上。
在硬件路径上,S3还做出了两个在国产GPU中相当罕见的抉择。一是采用LPDDR6及LPDDR5X内存(而非训练GPU常用的HBM),显存容量最高可达600GB,是当前国内最大的;二是率先搭载PCIe Gen6接口,系统通信带宽直接翻倍。
这两项选择精准地解决了智能体场景的核心瓶颈:大量用户同时在线,对话记忆持续累积,上下文不断拉长,推理GPU必须装得下、传得快、算得起。
曦望的目标是让推理成本下降90%,最终实现“百万Token一分钱”。
如果这一目标得以实现,AI应用企业的毛利率将大幅提升,许多目前无法盈利的AI场景,将首次跑通商业闭环。
当Token如同水电般普遍
“百万Token一分钱”的真正意义,远不止是为客户省钱。它指向的,是一个足以重构整个世界的未来图景。
徐冰预测,未来十年,地球上将涌现出数百亿个智能体,成为全新的“数字人口”。它们具备智能,可自主完成任务,不眠不休、7×24小时持续运转。这些智能体大致可分为三类:几十亿个人助理,帮我们处理日常事务;几十亿个物理智能体(具身智能),在工厂、医院、家庭中工作;以及几十亿个专业智能体,扮演AI医生、律师、工程师等角色。
而所有这些智能体,都依赖Token驱动。如果说电力是工业时代的基础能源,那么Token就是AI时代的基础能源。推理GPU,则是AI时代发电厂中最为核心的部件。
产业端的信号也在不断印证这一判断。英伟达CEO黄仁勋在6月1日GTC Taipei大会上,从商业角度重新定义了Token:Token即资产,已成为可获利的营收单位。AI公司希望生产更多Token,建造更多AI工厂——这也正是算力需求火箭式飙升的原因所在。
今天的推理成本,犹如1990年代的手机话费、2000年代的宽带流量一般昂贵。只有当推理基础设施像光纤和基站一样铺遍全国,Token成本降到可忽略不计的程度,那数百亿个智能体才能真切地走进我们的生活。
它或许终将成为像水费、电费一样的基础资源,出现在每个人、每家企业的账单上。在这一框架下,推理GPU就不再是简单的芯片品类,而是支撑智能体安全、稳定、高速运转的基础设施。
不过,美好愿景与实际交付之间,差距是切实存在的。芯片与内存的大规模交付、Token工厂的实际部署、推理计算网络的构建,是全行业接下来必须攻克的硬仗。徐冰也坦然面对这一现实:“龙虾热潮来得太突然,AI行业整体准备严重不足,产能至少需要提升一个数量级。”
供应链压力同样不容小觑。内存价格已上涨数倍,光模块产能跟不上,GPU一卡难求。徐冰判断,这种状况在2027年前难以改变,大概率要到2028年才能缓解——但到那时,对Token的需求可能又攀升到了新高度。
这绝非一家公司之力即可解决的问题。“行业必须形成合力,共同将AI时代的光纤与基站建遍全国。”推理基础设施的铺设,需要芯片企业、云计算平台、内存厂商、算力运营商等整条产业链协同作战,需要城市级的产业体系、资本的耐心以及生态系统的长期配合。
而这,正是杭州当前正在积极推进的事业。
结语
推理基础设施的铺设是一项系统工程,需要多方在同一生态中协同推进。杭州的产业链条恰好在朝这个方向生长——“新八骏”及生态中的其他企业,共同覆盖了从芯片到终端的多个环节;耐心资本在底层托住长周期的硬科技项目;政府则为创业者提供了安静专注做事的空间。
尽管并非所有条件都已齐备,但拼图正在一块一块地就位。
从“六小龙”到“新八骏”,从前端软应用到底层硬科技,杭州的产业群像正经历一轮深刻的迭代。《浙江日报》旗下“潮新闻”对此的描述颇为形象:如果说“六小龙”是杭州在科技浪潮中抓住的“浪尖”,那么“新八骏”就是浪潮之下的“暗流”。
杭州的转型与曦望的选择,本质上共享同一种精神气质——找到差异化的切入点,重新定义赛道本身。
在这股暗流之中,最安静的那一个,或许恰恰是最关键的那一个。
