云平台服务商 Together AI Inc. 近日正式宣布完成一笔大规模融资:8 亿美元 C 轮,公司估值随之飙升至 83 亿美元。这家企业的核心定位十分明确——为运行开源 AI 模型提供经过性能优化的云平台基础设施。

根据今天发布的融资公告,本轮融资由 Aramco Ventures 领投,英伟达、Vista Equity Partners、General Catalyst 以及多家机构共同跟投。融资完成后,Together AI 的估值达到 83 亿美元。
其核心产品之一是无服务器推理服务。开发者可以直接在该平台上运行开源 AI 模型,无需自行配置显卡和网络设备。Together AI 宣称,这套无服务器环境的性能大约是同类方案中最快速度的两倍,能够显著提升开发效率。
除无服务器方案外,Together AI 还提供另外三种推理服务。其中两种为专用基础设施,相比无服务器方案具备更高的可靠性保障与定制化选项。第三种名为批量推理(Batch Inference),核心逻辑是以速度换取成本优势——对于不需要即时响应用户请求的模型,最多可节省 50% 的费用。
在底层技术架构上,Together AI 平台由英伟达芯片驱动,并搭载了一套自主研发的软件引擎,命名为 ATLAS。该引擎采用一种名为“推测解码”(speculative decoding)的机器学习技术,用于加速用户的工作负载处理。
推测解码的具体运作方式如下:工程师将主 AI 模型与一个更轻量的第二神经网络相结合。用户输入提示词后,轻量算法会先快速生成一个草稿回复,随后主模型对其进行校验与修正,最终将完整回复返回给用户。整个流程比主模型单独生成输出要快得多。
问题在于,负责生成草稿回复的轻量算法通常采用固定配置,而固定配置的模型会随着时间推移出现精度下降。Together AI 表示,ATLAS 技术的核心能力在于自动适应用户需求的变化,从而有效解决这一精度衰退问题。公司声称这套软件可以将部分推理工作负载的速度提升 400%。
用户还可以在 Together AI 平台上对开源模型进行微调。平台提供可接入多达数千张显卡的训练集群。开发者可以选择操作较为简便的 Kubernetes,或者功能更强、定制化程度更高的 Slurm 工具来管理集群。
AI 训练项目长期面临一个难题:显卡可能发生技术故障,芯片故障有时会在训练流程中引入错误。Together AI 的训练集群内置了能够自动检测并修复此类故障的软件系统,保障训练流程的稳定性。
Together AI 今日还披露了一组关键数据:年度预订额在第二季度已突破 11.5 亿美元。目前,该平台已被数千家机构采用,用户包括 LG 旗下的 AI 研究实验室、Cohere Inc. 以及 Mozilla 基金会。
对于本轮融资的用途,公司明确表示:将用于购置更多基础设施,目标是在未来五年内将公有云容量扩大 50 倍,同时进一步强化训练与推理功能。
Q&A
Q1:Together AI 的无服务器推理服务有哪些核心优势?
A:无服务器推理服务的最大优势在于显著降低使用门槛——开发者可以直接运行开源 AI 模型,无需自行配置显卡和网络设备。Together AI 宣称其性能约为同类最快方案的两倍,能够有效提升开发效率与部署速度。
Q2:ATLAS 引擎中的推测解码技术具体是如何工作的?
A:推测解码技术将主 AI 模型与一个更轻量的神经网络相结合。用户输入提示词后,轻量算法先快速生成草稿回复,主模型再进行校验和修正,最终返回完整结果。相比主模型单独生成输出,这个流程速度更快。Together AI 的 ATLAS 引擎还能自动适应用户需求的变化,避免轻量模型因固定配置导致精度下降,可将部分推理工作负载的速度提升 400%。
Q3:Together AI 平台如何应对 AI 训练过程中显卡故障的问题?
A:显卡故障是 AI 训练项目中的常见挑战,芯片故障可能在训练流程中引入错误,影响模型质量。Together AI 的训练集群内置了自动检测与修复系统,能够实时发现并处理技术故障,减少人工干预,从而保障训练流程的稳定性与可靠性,确保模型训练顺利进行。
