首页

AI资讯

AI基础设施独角兽崛起 Fireworks与Baseten领跑行业新趋势

热心网友

转载

2026-05-27

如果说四月份我们聊到“推理拐点”时还只是趋势初显，那么过去一周的新闻则像是一记响亮的确认信号。市场用真金白银投票，告诉我们一个明确的结论：AI基础设施，尤其是推理和模型路由层，正从“值得关注”变为“必须押注”的核心赛道。

[AINews] 新晋AI基础设施独角兽：Exa, Modal, TurboPuffer

Latent.Space· 5月22日阅读全文

按照惯例，我们通常只报道估值超过百亿美元的“十角兽”融资。但眼下的节奏实在让人无法忽视：Fireworks正在洽谈150亿美元的新一轮融资（如果成真，将是7个月内估值跃升3.75倍），Baseten也在寻求110亿美元的融资（3个月内增长2.2倍）。虽然消息尚未最终落定，但推理领域估值飙升的速度，已经足够成为今天的头条故事。而OpenRouter刚刚宣布的1.13亿美元C轮融资，则为这波热潮画上了完美的注脚——其周处理量在六个月内从5万亿激增至25万亿代币。这一切都指向同一个事实：当你需要调用多个模型时，一个智能的路由器不再是“锦上添花”，而是“必不可少”的基础设施。

OpenRouter@OpenRouter：今天我们宣布完成由@CapitalGVC领投的1.13亿美元B轮融资。过去6个月，随着AI从实验快速转向生产，OpenRouter的周处理量从5T增长至25T代币。我们对未来充满期待。下午2:16 · 2026年5月26日 · 22.4万次查看

2026年5月23日至5月26日AI新闻摘要。我们扫描了12个子版块、544个推特账号，未查阅Discord。AINews网站支持检索过往所有内容。提醒：AINews现为Latent Space的一个栏目，您可自行选择邮件推送频率。

AI推特热点回顾

智能体“缰绳”工程、编码基准测试，以及超越“唯模型论”的转变

智能体“缰绳”工程正成为编码智能体的主要差异化因素：多个讨论不约而同地指向同一个论点：未来的制胜组合是模型 + 缰绳 + 评估循环，而不仅仅是更强的基座模型。一篇长文分析指出，DeepSeek正在专门组建“缰绳”团队，旨在闭环连接模型输出、运行时反馈、验证和修正，并声称其缓存的输入成本优势能支持更紧密的交互/验证循环。与此同时，Google的Gemini托管智能体指南将智能体基础设施描述为一次API调用，即可获得具备沙箱、持久化和挂载功能的托管“缰绳”。而LangChain更新的create_agent文档与dair.ai的“缰绳”论文摘要，则共同将这一技术栈正式定义为：上下文治理、可信记忆、动态技能路由。
基准测试正越来越贴近真实开发者体验：新推出的DeepSWE基准测试获得了实践者的强烈认可；@theo称其为“首个真正符合使用这些模型编码感受的代码基准”。该基准在高端模型上也比公开的SWE排行榜展现了更强的区分度。相关信号还包括：Qwen3.7 Max在Code Arena: Frontend榜单上首次亮相即位列第四，在智能体式网页开发任务上与Claude Opus 4.6表现相当，阿里巴巴也转发了这一结果。在整个工具链层面，Anthropic发布了Claude Code的安全指导插件，并报告内部使用中安全相关的PR评论减少了30–40%；而OpenAI则重点展示了Databricks中GPT-5.5在Codex上更可靠的文档解析能力。

研究型智能体、长程推理与用于上下文压缩的“睡眠”机制

数学/科学智能体展现出更多“能力过剩”的证据——前提是配备合适的“缰绳”：最集中的推文讨论围绕模型解决历史开放问题展开。一位数学家报告Claude Mythos解决了Erdős第90号问题，后续细节透露该模型常常收敛到一条与OpenAI早期方案不同、且更简洁的证明路径。这一观点得到了@_sholtodouglas、@kimmonismus等人的呼应，随后Sébastien Bubeck进一步指出：在恰当的“缰绳”辅助下，Mythos和GPT-5.5都能复现某个内部模型曾“一击即中”的成果，这意味着大量潜在能力并未通过普通的聊天界面暴露出来。
长程记忆重新成为核心瓶颈：论文《语言模型需要睡眠》获得了显著关注。其机制是一个类似睡眠的巩固阶段，在此阶段，近期上下文被转化为持久的快速权重，然后清空KV缓存，将计算转移到离线过程，同时保持“清醒”时的低延迟。dair.ai的总结强调了其系统视角：对于具有长轨迹的智能体，这是替代不断增长的KV缓存的一种方案。这一主题与当前关于智能体中记忆系统的讨论（包括Omar提及的Anthropic记忆演讲和Dream功能）无缝衔接。
开源深度研究智能体与科学预测也取得进展：QUEST系列开源模型（2B–35B参数）发布，旨在进行长程事实查找、引用溯源和报告合成，作为一个通用的深度研究智能体。在科学评估方面，Sakana/斯坦福/牛津/AI2的CUSP基准测试发现，当前模型通常能识别有前景的研究方向，但在判断突破是否以及何时实现方面则困难得多。

模型、优化器与架构更新

优化器研究依然活跃，尤其是围绕Muon变体和免调度训练：AMUSE提出了Anytime MUon with Stable gradient Evaluation，将Muon与免调度风格的梯度评估相结合，旨在实现无需学习率衰减的稳定“随时训练”，并在124M / 720M / 1B规模以及ViT/ImageNet微调上报告了收益。相关实现讨论来自ClashLuke的SFMuon代码片段和kellerjordan在Newton-Muon上的Modded-NanoGPT结果。
稀疏注意力设计空间持续多样化：MiniMax预告了开源模型M3，后续技术评论暗示了一条新的块稀疏两阶段注意力路径。@kimmonismus总结了报道中的速度提升：在100万token长度下，相比M2，预填充快9.7倍，解码快15.6倍。@eliebakouch补充道，M3似乎回归到基于GQA的稀疏注意力，并对真实KV进行块选择，这与DeepSeek的压缩注意力变体不同。
视觉/开源模型发布与排行榜更新：PrismML发布了Bonsai Image 4B，包含旨在在笔记本和手机上本地运行的1比特和三元变体；后续说明提到在约3GB内存占用下可实现浏览器本地执行。在闭源模型方面，微软的MAI-Image-2.5在Image Arena榜单上首次亮相即排名第三，打破了此前由OpenAI和Google主导的前五名格局，Arena报告其得分为1254。与此同时，Artificial Analysis测得Gemini 3.5 Flash的输出速度高达~280 token/秒，且智能体性能显著更强，但成本约为Gemini 3 Flash的5倍。

基础设施、系统与半导体技术栈

华&为的“τ缩放”论文更多被解读为工程路线图，而非新定律：一篇非常详细的推文认为，华&为的《多层电子系统的时间缩放理论》应被解读为一份战略宣言/白皮书。其核心提议是将时间常数τ，而非工艺节点，作为跨设备、芯片和数据中心规模的统一度量标准。最具体的声明涉及未来麒麟设计中的LogicFolding技术，声称在固定工艺节点下可实现密度提升55%、能效提升41%和频率提升13%，此外还包括统一总线和Hi-ONE光互连等封装/网络构想。同一推文也谨慎地指出了缺失的验证材料——芯片照片、SEM图像、工作负载细节、良率曲线——并建议将最引人注目的数字视为有前景但未经证实的。后续反应也强调，华&为的路径可能更依赖封装和架构，而非光刻技术的追赶，例如@josiah_leee引用了Jensen的观点，即Hopper→Blackwell的大部分增益来自非工艺节点的优化。
数据中心功耗与推理供应限制正成为首要关切：SemiAnalysis发布了关于800VDC转型的文章，John Carmack推荐了该文，强调了从电动汽车电力电子到数据中心设计的交叉应用，包括高压SiC部件。另一方面，Epoch AI估计可能出现推理算力紧缩：需求增长速度似乎超过了服务能力，尤其是对于长上下文工作负载。他们的粗略模型表明，尽管在有利假设下，当前全球Blackwell供应可以满足今日需求，但随着上下文长度增加，吞吐量会急剧下降，而需求增长可能已经超过了供应。

生产工具与开发者基础设施

服务/推理栈获得显著的性能和可观测性更新：vLLM合并了一个Rust前端，作为Python API服务器的即插即用替代方案，早期数据显示在单进程、预处理繁重的工作负载上，性能达到~837 请求/秒 vs ~162 请求/秒。W&B推出了一个MCP服务器，允许编码智能体检查实验和训练运行，其“模式优先”的重新设计旨在避免上下文窗口爆炸。Unsloth增加了在其本地UI中运行GPT、Claude等API的支持，包括提示缓存和代码执行功能。
Cloudflare、OpenRouter和向量/检索供应商推动“生产化”层：OpenRouter宣布了1.13亿美元B轮融资，并称其周处理量在六个月内从5T增长至25T代币。Cloudflare重新启动了其初创企业计划，提供高达35万美元的信用额度，而围绕Think和智能体工效学的其他帖子则强调，持久化轮次、重连、陈旧状态处理和恢复是关键的实际差异化因素。在检索基础设施方面，Booking.com讨论了如何扩展到1亿+的嵌入向量，包括过滤向量搜索、写入期间读取、并发性以及用于合作伙伴消息智能体的人工介入评估。

高互动推文精选

Codex / 智能体编码实践：信息量最高的产品使用推文来自@bunkaich，展示了如何使用Codex帮助逆向工程并修补廉价MP3播放器的固件，工作流程涵盖芯片检查、操作系统提取、二进制分析和刷入修改后的镜像。
DeepSWE基准测试发布：@serenaa_ge的DeepSWE公告成为“这是否符合真实编码体验？”讨论的主要参考点。
Claude Code安全插件：@ClaudeDevs的发布之所以突出，是因为它将具体产品发布与内部指标相结合：安全相关的PR评论减少了30–40%。
OpenRouter融资与生产代币增长：@OpenRouter的1.13亿美元B轮融资是一个清晰的市场信号，表明路由和多模型基础设施现在被视为持久的平台层。
vLLM Rust前端：@vllm_project的合并公告对任何在高吞吐量服务中遇到CPU/API服务器瓶颈的人都至关重要。

AI Reddit热点回顾

/r/LocalLlama + /r/localLLM 板块摘要

1. Qwen 3.7 发布与 Qwen 3.6 本地性能

等待Qwen 3.7开放权重...新王已至... (互动量：1217)：图片来自Qwen3.7博客中的基准/营销对比图，将Qwen3.7-Max定位为在智能体编码、软件工程、MCP/工具使用、推理和知识评估方面领先的前沿模型，对比对象包括Qwen3.6-Plus、DS-V4-Pro Max、GLM-5.1、Kimi K2.6和Claude Opus-4.6 Max。技术意义在于，该幻灯片将Qwen3.7-Max定位为在许多基准测试中与Claude级别模型高度竞争甚至领先，尽管Claude Opus-4.6 Max在诸如ClawEval和CoWorkBench等任务上似乎仍保持领先。评论者指出这是Max模型，不一定代表更小/开放权重的版本，并猜测可能会有适用于Strix Halo等本地硬件的3.7-122B-A17B MXFP4模型，具备512k上下文长度。 主要争论围绕对开放权重的怀疑：评论者指出Qwen历史上从未开放过Max系列的权重，因此标题中“等待开放权重”的表述可能不切实际。其他人则提醒不要期望假设的27B模型能达到图中Max级别的基准结果。
- 几位评论者区分了Qwen Max与可能发布的开放权重版本，指出“Qwen从未开放过Max系列的权重”，并警告不要期望较小的27B变体能够匹配Max级别的基准性能。隐含的技术结论是，任何公开/开放权重的Qwen 3.7版本可能使用与基准测试中的旗舰模型不同的架构/规模。
- 一个技术愿望清单集中在假设的Qwen 3.7 122B-A17B MTP MXFP4模型上，具备512k上下文，评论者认为这将非常适合Strix Halo级别的本地硬件。另一用户提及Qwen 3.5 397B-A17B NVFP4，声称它可以在4块RTX 6000 Pro GPU上运行，并有足够的内存余量处理大约10个并发的200ktoken会话，如果Qwen 3.7能达到报告的基准水平，这将是一个潜在的“在家用版Opus”。
- 一位评论者认为，开放权重的前沿模型发布可能性较低，因为高度强大的本地模型可能会削弱提供商的货币化能力。他们声称Qwen的战略已从碘伏转向货币化的前沿竞争，这可能影响是否公开发布像397B-A17B这样的大型MoE模型。
Qwen3.6 35Ba3改变了我的工作流，甚至改变了我使用电脑的方式 (互动量：567)：帖子描述了一个使用pi通过Qwen3.6 35B a3运行的本地智能体工作流，用户将可重复的流程转换为由Codex生成/记录的“技能”，然后将其复用于VPS运维、docling PDF转EPUB、Playwright测试、代码工单和操作系统级别的Shell任务。一个具体例子：WhatsApp音频 → 在AnythingLLM中转录 → content.md → 本地生成的落地页，然后是一个由“经理”pi进程执行的plan.md工单队列，该进程会生成具有全新上下文的子智能体，命令为pi -p @plan.md "Check the first Ticket with Status UNDONE and do it"，标记工单为DONE，通过git提交，最后通过VPS技能部署。 评论者关注操作层面的问题：什么硬件可以运行此设置，智能体在拥有操作系统访问权限时是否被沙箱化/可信，以及与其他智能体工具（如Hermes）相比，pi的采用难度如何。
- 一位用户报告在配备24GB RTX Pro 4000 Blackwell SFF GPU的MS-02上通过Unsloth Studio运行unsloth/Qwen3.6-35B-A3B-MTP-GGUF，持续获得>100 tokens/s的速度。他们将其与Mac Studio M2上“未优化的GGUF”性能进行比较，将MS-02用作Mac工作站的远程小型GPU服务器，并指出Unsloth未来对MLX的支持可能会提升Mac端的性能。截图：preview.redd.it。
在Qwen3.6 35B A3B和ik_llama.cpp上实现110 tok/s，仅用12GB显存 (互动量：565)：帖子使用byteshape的IQ4_XS 4.19 bpw GGUF量化版Qwen3.6-35B-A3B MTP模型，在RTX 4070 Super 12GB + Ryzen 7 9700X平台上进行基准测试，对比了上游llama.cpp与ik_llama.cpp，参数设置为--ctx-size 131072、q8_0 KV缓存、MTP草稿最大数3、p_min=0.75。使用相同的mtp-bench.py工作负载，上游llama.cpp平均89.76 tok/s，聚合MTP接受率0.9393，而ik_llama.cpp在16.64s内平均110.24 tok/s，声称获得了23%的吞吐量提升，尽管更新后的结果显示聚合接受率较低，为0.8749。发帖者将实际适配性归功于ik_llama.cpp的--fit/--fit-margin 1664参数，通过将--fit-margin提高到1792或2048来缓解OOM问题，并指出将显示器连接到iGPU可以释放几乎全部12GB显存用于推理。 评论者关注可复现性：他们要求完整的上游llama.cpp命令，并指出最近有几个与MTP相关的PR已合并，因此基准测试结果可能高度依赖于构建日期。一个技术变通方案建议给单GPU的CachyOS/KDE用户：使用LIBGL_ALWAYS_SOFTWARE=1和GALLIUM_DRIVER=llvmpipe创建软件渲染的Plasma Wayland会话，将空闲显存从大约>1024MB减少到126MB，代价是合成器效果变慢/被禁用。
- 一位CachyOS/KDE Wayland用户描述了一种为单GPU系统节省显存的变通方案：创建一个自定义SDDM会话，强制KDE Plasma通过CPU渲染，使用LIBGL_ALWAYS_SOFTWARE=1、GALLIUM_DRIVER=llvmpipe和KWIN_COMPOSE=Q。他们报告KDE Wayland的空闲显存从> 1024 MB下降到~126 MB，为运行35B模型释放了近1GB显存，代价是禁用或非常缓慢的合成器动画。
- 几位评论者关注报告的110 tok/s是否源于ik_llama.cpp比上游llama.cpp具有更好的MTP/推测解码行为。一位指出ik_llama.cpp的接受率据称从未低于0.790，而llama.cpp曾低至0.477，并要求提供确切的llama.cpp命令/设置，同时指出在过去24小时内已有多个与MTP相关的PR合并到llama.cpp中。
- 一位评论者询问了用于Qwen3.6 35B A3B的IQ4_XS量化细节，指出这似乎是内存需求最低的Q4量化，并请求提供关于模型质量/智能影响以及最终显存/RAM分配比例的详细信息。这凸显了在12GB显存上运行的关键权衡：通过激进量化来适配模型，与保持推理质量和避免过多的CPU/RAM卸载瓶颈之间的平衡。