AI模型和Agent创新，倒逼AI Infra产生了哪些创业机会？

时间：2026-04-30 06:11

大参数，MoE，长上下文，模型创新倒逼AI算力网络创新最近，AI网络通信领域的热度肉眼可见地攀升。硅谷的初创公司们频频拿下大额融资，二级市场上，尤其是光通信板块，股价也一路高歌。这股热潮背后，本质上是需求在强势驱动：模型尺寸越来越大，Token消耗越来越多，算力开始捉襟见肘。想要从现有算力中低成本

大参数，MoE，长上下文，模型创新倒逼AI算力网络创新

最近，AI网络通信领域的热度肉眼可见地攀升。硅谷的初创公司们频频拿下大额融资，二级市场上，尤其是光通信板块，股价也一路高歌。这股热潮背后，本质上是需求在强势驱动：模型尺寸越来越大，Token消耗越来越多，算力开始捉襟见肘。想要从现有算力中低成本地“榨”出更多性能，就必须从底层技术寻找突破口。

于是，一条清晰的路径浮出水面：加快芯片与芯片、节点与节点之间的通信速度，从而提升整个算力基础设施的效率。这正在从理论走向实践。

一家名为Upscale AI的公司便是这股浪潮中的典型代表。其融资节奏令人瞩目：2025年9月获得1亿美元种子轮融资，由Mayfield与Ma verick Silicon共同领投；短短几个月后，2026年1月又完成2亿美元A轮融资，领投方换成了Tiger Global、Premji Invest和Xora Innovation。最近，市场再度传出消息，它正在洽谈一笔1.8亿至2亿美元的新一轮融资。

Barun Kar和Rajiv K，图片来源：Upscale AI

一家创立不到一年的公司，为何能持续吸引顶级资本的目光？这与其深厚的创始团队背景密不可分。事实上，Upscale AI是从AI基础设施公司Auradine（现已更名为Velaura AI）孵化而来。其联合创始人兼CEO Barun Kar曾是Auradine的COO，联合创始人兼执行董事长Rajiv K则曾是Auradine的CEO，目前也担任Velaura AI的CEO。技术负责人CTO Puneet Agarwal更是拥有在博通十年及Marvell数据中心部门CTO的资深履历。可以说，这是一支在行业里浸淫多年、经验丰富的团队。

那么，AI网络通信为何变得如此关键？答案需要从技术底层说起。

AI计算负载有一个鲜明的特点：高度同步。无论是大规模模型训练、MoE架构，还是分布式推理，这些现代工作负载都给网络带来了前所未有的同步压力。训练时，模型的参数梯度需要在成千上万张GPU之间高度同步地传递；推理时，则会产生大规模扇出流量，同时对时延有着近乎苛刻的要求。

一旦网络性能跟不上，GPU就不得不停转等待，时延飙升，整个算力集群的效率便会瞬间崩塌。这不是简单的参数调优能解决的问题，而是底层架构的错配。

传统网络设计追求通用性，但为了兼容多种负载而引入的复杂性，在AI场景下反而成了阻力。确定性通信以及GPU集合通信所要求的强同步性，正在挑战传统网络的设计极限。AI算力集群所需要的，是一种能够在大规模环境下支持确定性、同步化、高吞吐通信的新型网络。这意味着，AI网络必须从底层开始重构，紧紧围绕Scale-Up（纵向扩展）与Scale-Out（横向扩展）的真实连接需求来设计。

将这个问题进一步细化，矛头便直接指向了模型本身。当前模型的两大发展趋势，正对算力集群网络施加着巨大压力：一是模型参数规模的指数级提升，二是长上下文窗口（Context）和思维链（CoT）能力的持续进化。

以刚刚发布的DeepSeek V4 pro为例，其参数规模达到1.6T，上下文长度扩展至1M。1.6T的参数意味着需要1.6T的内存，这远远超出了单张加速卡的能力，必须被切分到大量翻跟斗上运行。于是，芯片间的通信速度迅速成为性能瓶颈。同时，超长的上下文窗口会导致KV cache的体积急剧膨胀，同样可能撑爆单张GPU的HBM内存。这些都对内存容量和通信带宽构成了双重挤压。

不是单纯的芯片级创新，而是全栈革新

要应对大参数和长上下文窗口模型的训练与推理挑战，真正的解决方案在于重新定义“计算边界”。其目标是让更多GPU能够通过超高速网络连接起来，具备亚微秒级时延和高吞吐的集合通信能力，从而被视作一个统一的“超级GPU”。这正是“机架”形态出现的内在逻辑。

以NVIDIA的NVL72为例，它不再将72张GPU视为独立个体，而是将其作为一个具备内存语义的一致性机器来运行，其内部的NVLink带宽高达130TB/s。

这里便引入了AI基础设施的两个关键连接层级：机架级GPU互连（Scale-Up）和集群级网络结构互连（Scale-Out）。这两个层面必须协同工作，无缝配合，才能让成千上万张GPU像一个高效的分布式计算引擎那样运转。

针对这两个层级，Upscale AI开发了一套为AI定制的网络架构。对于机架级AI互连（Scale-Up），其核心是SkyHammer芯片架构；对于集群级AI网络（Scale-Out），则推出了Open Ethernet解决方案。

SkyHammer是一套旨在突破Scale-Up网络瓶颈的芯片架构。它基于开放标准，目标是在超大规模下实现确定性时延、极致带宽与可预测性能，从而让GPU和XPU能够作为一个高度同步的计算引擎协同工作。所谓“确定性时延”，意味着数据在机架内部各组件之间传输所需的时间可以被高度精确地预测和控制。

图片来源：Upscale AI

SkyHammer从ASIC层开始构建，并在芯片、系统与机架三个层面进行整体协同设计，确保每一层都能协调一致。它的每一个环节都经过了重新思考：从数据在芯片内的流动方式，到网络结构（fabric）如何根据负载压力自适应调整，再到超级集群如何在高压下依旧保持行为的可预测性。它支持ESUN、UEC、UALink等新兴标准，也为未来的创新预留了空间。这种灵活性使其能够在开放多元的环境中实现互操作，同时保持顶尖的性能表现。基于SkyHammer架构的产品计划于2026年发布。

Open Ethernet则主要针对集群级AI网络（Scale-Out）。在这一层面，AI系统更需要的是开放性、互操作性以及海量带宽。Upscale AI打造的Open Ethernet网络结构，基于NVIDIA Spectrum-X Ethernet交换芯片和SONiC网络操作系统构建，并提供端到端支持。通过整合ASIC原生遥测能力、确定性无损以太网行为以及行业标准化的工作流，该系统能够在大规模部署中提供可预测的性能、简化的运维和高可靠性。简而言之，它能够将数千张GPU连接成一张统一的高性能网络，为分布式训练和大规模推理提供坚实支撑。为此，Upscale AI已加入NVIDIA Partner Network，并与NVIDIA及其生态伙伴紧密合作，共同推进大规模AI数据中心网络的参考架构和部署。

由此可见，Upscale AI的布局并未止步于打造一款更快的网络芯片，而是追求芯片、系统与软件之间的深度耦合。要顺畅运行大型AI计算集群，必须持续掌握整个网络结构中的拥塞状况、同步行为以及GPU利用率。这涉及多个关键环节：高性能RDMA网络、自适应拥塞管理、面向GPU的遥测与可观测性、覆盖整个网络结构的实时运维可视性。Upscale AI正致力于在这些环节进行全面优化，构建现代AI计算集群所必需的确定性网络基础。

模型需求与AI算力基础设施的错配，诞生了多方面的创业机会

AI算力基础设施领域，依然蕴藏着巨大的发展潜力。事实上，它很可能将与AI软件，特别是模型的发展，长期处于一种交替创新、相互驱动的状态。每当模型架构实现突破，而现有的算力基础设施在硬件或软件层面出现结构性错配时，新的创业机会便会应运而生。

当前的局面正是如此。MoE架构、超大参数、超长上下文窗口、智能体（Agent）对Token的渴求……这些因素共同作用，使得AI算力供不应求，同时也为基础设施的创新打开了窗口。

这股创新浪潮正在多个细分领域同步涌现。在算力芯片层面，近半年就有Unconventional AI（融资4.75亿美元）、MatX（融资5亿美元）等公司获得关注；在AI赋能芯片设计领域，Ricursive（融资3亿美元）、Cognichip（融资6000万美元）等玩家崭露头角；当然，还有本文聚焦的AI数据中心网络互联赛道，除了Upscale AI（已融资3亿美元，计划再融2亿），还有Eridu（融资2亿美元）、Ethernovia（融资9000万美元）等公司活跃其中。

一个值得关注的趋势是，中国的开源AI模型已在全球实现领先，特别是近期发布的DeepSeek V4系列。然而，在AI基础设施层面，国内产业仍处于追赶状态。但这恰恰意味着巨大的创新空间。观察中国的创投市场，大量创新公司已经开始涌现，其中一部分已经取得了初步的成功。未来，这里很可能成为下一个创新爆发的热土。

来源：https://36kr.com/p/3787679275441413

AI模型