首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
AI基础设施独角兽崛起 Fireworks与Baseten领跑行业新趋势

AI基础设施独角兽崛起 Fireworks与Baseten领跑行业新趋势

热心网友
60
转载
2026-05-27

如果说四月份我们聊到“推理拐点”时还只是趋势初显,那么过去一周的新闻则像是一记响亮的确认信号。市场用真金白银投票,告诉我们一个明确的结论:AI基础设施,尤其是推理和模型路由层,正从“值得关注”变为“必须押注”的核心赛道。

[AINews] 新晋AI基础设施独角兽:Exa, Modal, TurboPuffer

Latent.Space· 5月22日 阅读全文

按照惯例,我们通常只报道估值超过百亿美元的“十角兽”融资。但眼下的节奏实在让人无法忽视:Fireworks正在洽谈150亿美元的新一轮融资(如果成真,将是7个月内估值跃升3.75倍),Baseten也在寻求110亿美元的融资(3个月内增长2.2倍)。虽然消息尚未最终落定,但推理领域估值飙升的速度,已经足够成为今天的头条故事。而OpenRouter刚刚宣布的1.13亿美元C轮融资,则为这波热潮画上了完美的注脚——其周处理量在六个月内从5万亿激增至25万亿代币。这一切都指向同一个事实:当你需要调用多个模型时,一个智能的路由器不再是“锦上添花”,而是“必不可少”的基础设施。

OpenRouter@OpenRouter:今天我们宣布完成由@CapitalGVC领投的1.13亿美元B轮融资。过去6个月,随着AI从实验快速转向生产,OpenRouter的周处理量从5T增长至25T代币。我们对未来充满期待。 下午2:16 · 2026年5月26日 · 22.4万次查看

2026年5月23日至5月26日AI新闻摘要。我们扫描了12个子版块、544个推特账号,未查阅Discord。AINews网站支持检索过往所有内容。提醒:AINews现为Latent Space的一个栏目,您可自行选择邮件推送频率。

AI推特热点回顾

智能体“缰绳”工程、编码基准测试,以及超越“唯模型论”的转变

  • 智能体“缰绳”工程正成为编码智能体的主要差异化因素:多个讨论不约而同地指向同一个论点:未来的制胜组合是模型 + 缰绳 + 评估循环,而不仅仅是更强的基座模型。一篇长文分析指出,DeepSeek正在专门组建“缰绳”团队,旨在闭环连接模型输出、运行时反馈、验证和修正,并声称其缓存的输入成本优势能支持更紧密的交互/验证循环。与此同时,Google的Gemini托管智能体指南将智能体基础设施描述为一次API调用,即可获得具备沙箱、持久化和挂载功能的托管“缰绳”。而LangChain更新的create_agent文档与dair.ai的“缰绳”论文摘要,则共同将这一技术栈正式定义为:上下文治理、可信记忆、动态技能路由
  • 基准测试正越来越贴近真实开发者体验:新推出的DeepSWE基准测试获得了实践者的强烈认可;@theo称其为“首个真正符合使用这些模型编码感受的代码基准”。该基准在高端模型上也比公开的SWE排行榜展现了更强的区分度。相关信号还包括:Qwen3.7 Max在Code Arena: Frontend榜单上首次亮相即位列第四,在智能体式网页开发任务上与Claude Opus 4.6表现相当,阿里巴巴也转发了这一结果。在整个工具链层面,Anthropic发布了Claude Code的安全指导插件,并报告内部使用中安全相关的PR评论减少了30–40%;而OpenAI则重点展示了Databricks中GPT-5.5在Codex上更可靠的文档解析能力。

研究型智能体、长程推理与用于上下文压缩的“睡眠”机制

  • 数学/科学智能体展现出更多“能力过剩”的证据——前提是配备合适的“缰绳”:最集中的推文讨论围绕模型解决历史开放问题展开。一位数学家报告Claude Mythos解决了Erdős第90号问题,后续细节透露该模型常常收敛到一条与OpenAI早期方案不同、且更简洁的证明路径。这一观点得到了@_sholtodouglas、@kimmonismus等人的呼应,随后Sébastien Bubeck进一步指出:在恰当的“缰绳”辅助下MythosGPT-5.5都能复现某个内部模型曾“一击即中”的成果,这意味着大量潜在能力并未通过普通的聊天界面暴露出来。
  • 长程记忆重新成为核心瓶颈:论文《语言模型需要睡眠》获得了显著关注。其机制是一个类似睡眠的巩固阶段,在此阶段,近期上下文被转化为持久的快速权重,然后清空KV缓存,将计算转移到离线过程,同时保持“清醒”时的低延迟。dair.ai的总结强调了其系统视角:对于具有长轨迹的智能体,这是替代不断增长的KV缓存的一种方案。这一主题与当前关于智能体中记忆系统的讨论(包括Omar提及的Anthropic记忆演讲和Dream功能)无缝衔接。
  • 开源深度研究智能体与科学预测也取得进展:QUEST系列开源模型(2B–35B参数)发布,旨在进行长程事实查找、引用溯源和报告合成,作为一个通用的深度研究智能体。在科学评估方面,Sakana/斯坦福/牛津/AI2的CUSP基准测试发现,当前模型通常能识别有前景的研究方向,但在判断突破是否以及何时实现方面则困难得多。

模型、优化器与架构更新

  • 优化器研究依然活跃,尤其是围绕Muon变体和免调度训练:AMUSE提出了Anytime MUon with Stable gradient Evaluation,将Muon与免调度风格的梯度评估相结合,旨在实现无需学习率衰减的稳定“随时训练”,并在124M / 720M / 1B规模以及ViT/ImageNet微调上报告了收益。相关实现讨论来自ClashLuke的SFMuon代码片段和kellerjordan在Newton-Muon上的Modded-NanoGPT结果。
  • 稀疏注意力设计空间持续多样化:MiniMax预告了开源模型M3,后续技术评论暗示了一条新的块稀疏两阶段注意力路径。@kimmonismus总结了报道中的速度提升:在100万token长度下,相比M2,预填充快9.7倍解码快15.6倍。@eliebakouch补充道,M3似乎回归到基于GQA的稀疏注意力,并对真实KV进行块选择,这与DeepSeek的压缩注意力变体不同。
  • 视觉/开源模型发布与排行榜更新:PrismML发布了Bonsai Image 4B,包含旨在在笔记本和手机上本地运行的1比特和三元变体;后续说明提到在约3GB内存占用下可实现浏览器本地执行。在闭源模型方面,微软的MAI-Image-2.5在Image Arena榜单上首次亮相即排名第三,打破了此前由OpenAI和Google主导的前五名格局,Arena报告其得分为1254。与此同时,Artificial Analysis测得Gemini 3.5 Flash的输出速度高达~280 token/秒,且智能体性能显著更强,但成本约为Gemini 3 Flash的5倍

基础设施、系统与半导体技术栈

  • 华&为的“τ缩放”论文更多被解读为工程路线图,而非新定律:一篇非常详细的推文认为,华&为的《多层电子系统的时间缩放理论》应被解读为一份战略宣言/白皮书。其核心提议是将时间常数τ,而非工艺节点,作为跨设备、芯片和数据中心规模的统一度量标准。最具体的声明涉及未来麒麟设计中的LogicFolding技术,声称在固定工艺节点下可实现密度提升55%能效提升41%频率提升13%,此外还包括统一总线Hi-ONE光互连等封装/网络构想。同一推文也谨慎地指出了缺失的验证材料——芯片照片、SEM图像、工作负载细节、良率曲线——并建议将最引人注目的数字视为有前景但未经证实的。后续反应也强调,华&为的路径可能更依赖封装和架构,而非光刻技术的追赶,例如@josiah_leee引用了Jensen的观点,即Hopper→Blackwell的大部分增益来自非工艺节点的优化。
  • 数据中心功耗与推理供应限制正成为首要关切:SemiAnalysis发布了关于800VDC转型的文章,John Carmack推荐了该文,强调了从电动汽车电力电子到数据中心设计的交叉应用,包括高压SiC部件。另一方面,Epoch AI估计可能出现推理算力紧缩:需求增长速度似乎超过了服务能力,尤其是对于长上下文工作负载。他们的粗略模型表明,尽管在有利假设下,当前全球Blackwell供应可以满足今日需求,但随着上下文长度增加,吞吐量会急剧下降,而需求增长可能已经超过了供应。

生产工具与开发者基础设施

  • 服务/推理栈获得显著的性能和可观测性更新:vLLM合并了一个Rust前端,作为Python API服务器的即插即用替代方案,早期数据显示在单进程、预处理繁重的工作负载上,性能达到~837 请求/秒 vs ~162 请求/秒。W&B推出了一个MCP服务器,允许编码智能体检查实验和训练运行,其“模式优先”的重新设计旨在避免上下文窗口爆炸。Unsloth增加了在其本地UI中运行GPT、Claude等API的支持,包括提示缓存和代码执行功能。
  • Cloudflare、OpenRouter和向量/检索供应商推动“生产化”层:OpenRouter宣布了1.13亿美元B轮融资,并称其周处理量在六个月内从5T增长至25T代币。Cloudflare重新启动了其初创企业计划,提供高达35万美元的信用额度,而围绕Think和智能体工效学的其他帖子则强调,持久化轮次、重连、陈旧状态处理和恢复是关键的实际差异化因素。在检索基础设施方面,Booking.com讨论了如何扩展到1亿+的嵌入向量,包括过滤向量搜索、写入期间读取、并发性以及用于合作伙伴消息智能体的人工介入评估。

高互动推文精选

  • Codex / 智能体编码实践:信息量最高的产品使用推文来自@bunkaich,展示了如何使用Codex帮助逆向工程并修补廉价MP3播放器的固件,工作流程涵盖芯片检查、操作系统提取、二进制分析和刷入修改后的镜像。
  • DeepSWE基准测试发布:@serenaa_ge的DeepSWE公告成为“这是否符合真实编码体验?”讨论的主要参考点。
  • Claude Code安全插件:@ClaudeDevs的发布之所以突出,是因为它将具体产品发布与内部指标相结合:安全相关的PR评论减少了30–40%
  • OpenRouter融资与生产代币增长:@OpenRouter的1.13亿美元B轮融资是一个清晰的市场信号,表明路由和多模型基础设施现在被视为持久的平台层。
  • vLLM Rust前端:@vllm_project的合并公告对任何在高吞吐量服务中遇到CPU/API服务器瓶颈的人都至关重要。

AI Reddit热点回顾

/r/LocalLlama + /r/localLLM 板块摘要

1. Qwen 3.7 发布与 Qwen 3.6 本地性能

  • 等待Qwen 3.7开放权重...新王已至... (互动量:1217):图片来自Qwen3.7博客中的基准/营销对比图,将Qwen3.7-Max定位为在智能体编码、软件工程、MCP/工具使用、推理和知识评估方面领先的前沿模型,对比对象包括Qwen3.6-Plus、DS-V4-Pro Max、GLM-5.1、Kimi K2.6和Claude Opus-4.6 Max。技术意义在于,该幻灯片将Qwen3.7-Max定位为在许多基准测试中与Claude级别模型高度竞争甚至领先,尽管Claude Opus-4.6 Max在诸如ClawEvalCoWorkBench等任务上似乎仍保持领先。评论者指出这是Max模型,不一定代表更小/开放权重的版本,并猜测可能会有适用于Strix Halo等本地硬件的3.7-122B-A17B MXFP4模型,具备512k上下文长度。 主要争论围绕对开放权重的怀疑:评论者指出Qwen历史上从未开放过Max系列的权重,因此标题中“等待开放权重”的表述可能不切实际。其他人则提醒不要期望假设的27B模型能达到图中Max级别的基准结果。
    • 几位评论者区分了Qwen Max与可能发布的开放权重版本,指出“Qwen从未开放过Max系列的权重”,并警告不要期望较小的27B变体能够匹配Max级别的基准性能。隐含的技术结论是,任何公开/开放权重的Qwen 3.7版本可能使用与基准测试中的旗舰模型不同的架构/规模。
    • 一个技术愿望清单集中在假设的Qwen 3.7 122B-A17B MTP MXFP4模型上,具备512k上下文,评论者认为这将非常适合Strix Halo级别的本地硬件。另一用户提及Qwen 3.5 397B-A17B NVFP4,声称它可以在4块RTX 6000 Pro GPU上运行,并有足够的内存余量处理大约10个并发的200ktoken会话,如果Qwen 3.7能达到报告的基准水平,这将是一个潜在的“在家用版Opus”。
    • 一位评论者认为,开放权重的前沿模型发布可能性较低,因为高度强大的本地模型可能会削弱提供商的货币化能力。他们声称Qwen的战略已从碘伏转向货币化的前沿竞争,这可能影响是否公开发布像397B-A17B这样的大型MoE模型。
  • Qwen3.6 35Ba3改变了我的工作流,甚至改变了我使用电脑的方式 (互动量:567):帖子描述了一个使用pi通过Qwen3.6 35B a3运行的本地智能体工作流,用户将可重复的流程转换为由Codex生成/记录的“技能”,然后将其复用于VPS运维、docling PDF转EPUB、Playwright测试、代码工单和操作系统级别的Shell任务。一个具体例子:WhatsApp音频 → 在AnythingLLM中转录 → content.md → 本地生成的落地页,然后是一个由“经理”pi进程执行的plan.md工单队列,该进程会生成具有全新上下文的子智能体,命令为pi -p @plan.md "Check the first Ticket with Status UNDONE and do it",标记工单为DONE,通过git提交,最后通过VPS技能部署。 评论者关注操作层面的问题:什么硬件可以运行此设置,智能体在拥有操作系统访问权限时是否被沙箱化/可信,以及与其他智能体工具(如Hermes)相比,pi的采用难度如何。
    • 一位用户报告在配备24GB RTX Pro 4000 Blackwell SFF GPUMS-02上通过Unsloth Studio运行unsloth/Qwen3.6-35B-A3B-MTP-GGUF,持续获得>100 tokens/s的速度。他们将其与Mac Studio M2上“未优化的GGUF”性能进行比较,将MS-02用作Mac工作站的远程小型GPU服务器,并指出Unsloth未来对MLX的支持可能会提升Mac端的性能。截图:preview.redd.it。
  • 在Qwen3.6 35B A3B和ik_llama.cpp上实现110 tok/s,仅用12GB显存 (互动量:565):帖子使用byteshape的IQ4_XS 4.19 bpw GGUF量化版Qwen3.6-35B-A3B MTP模型,在RTX 4070 Super 12GB + Ryzen 7 9700X平台上进行基准测试,对比了上游llama.cppik_llama.cpp,参数设置为--ctx-size 131072q8_0 KV缓存、MTP草稿最大数3p_min=0.75。使用相同的mtp-bench.py工作负载,上游llama.cpp平均89.76 tok/s,聚合MTP接受率0.9393,而ik_llama.cpp16.64s内平均110.24 tok/s,声称获得了23%的吞吐量提升,尽管更新后的结果显示聚合接受率较低,为0.8749。发帖者将实际适配性归功于ik_llama.cpp--fit/--fit-margin 1664参数,通过将--fit-margin提高到17922048来缓解OOM问题,并指出将显示器连接到iGPU可以释放几乎全部12GB显存用于推理。 评论者关注可复现性:他们要求完整的上游llama.cpp命令,并指出最近有几个与MTP相关的PR已合并,因此基准测试结果可能高度依赖于构建日期。一个技术变通方案建议给单GPU的CachyOS/KDE用户:使用LIBGL_ALWAYS_SOFTWARE=1GALLIUM_DRIVER=llvmpipe创建软件渲染的Plasma Wayland会话,将空闲显存从大约>1024MB减少到126MB,代价是合成器效果变慢/被禁用。
    • 一位CachyOS/KDE Wayland用户描述了一种为单GPU系统节省显存的变通方案:创建一个自定义SDDM会话,强制KDE Plasma通过CPU渲染,使用LIBGL_ALWAYS_SOFTWARE=1GALLIUM_DRIVER=llvmpipeKWIN_COMPOSE=Q。他们报告KDE Wayland的空闲显存从> 1024 MB下降到~126 MB,为运行35B模型释放了近1GB显存,代价是禁用或非常缓慢的合成器动画。
    • 几位评论者关注报告的110 tok/s是否源于ik_llama.cpp比上游llama.cpp具有更好的MTP/推测解码行为。一位指出ik_llama.cpp的接受率据称从未低于0.790,而llama.cpp曾低至0.477,并要求提供确切的llama.cpp命令/设置,同时指出在过去24小时内已有多个与MTP相关的PR合并到llama.cpp中。
    • 一位评论者询问了用于Qwen3.6 35B A3BIQ4_XS量化细节,指出这似乎是内存需求最低的Q4量化,并请求提供关于模型质量/智能影响以及最终显存/RAM分配比例的详细信息。这凸显了在12GB显存上运行的关键权衡:通过激进量化来适配模型,与保持推理质量和避免过多的CPU/RAM卸载瓶颈之间的平衡。
来源:https://www.bestblogs.dev/article/c0e11f5d?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Hy3大模型为何在OpenRouter排行榜上遥遥领先
AI资讯
Hy3大模型为何在OpenRouter排行榜上遥遥领先

OpenRouter平台公开数据显示,腾讯开源模型Hy3preview在付费后使用量稳定增长,但其性能基准与同类中国模型相近。DeepSeekV4Flash因创新的缓存技术,实际有效价格显著低于标价,性价比突出。Hy3的流行原因尚不明确,可能源于特定大型应用的后端采用。模型切换成本低,未来使用格局可能因价格优势而快速变化。

热心网友
05.27
AI基础设施独角兽崛起 Fireworks与Baseten领跑行业新趋势
AI资讯
AI基础设施独角兽崛起 Fireworks与Baseten领跑行业新趋势

如果说四月份我们聊到“推理拐点”时还只是趋势初显,那么过去一周的新闻则像是一记响亮的确认信号。市场用真金白银投票,告诉我们一个明确的结论:AI基础设施,尤其是推理和模型路由层,正从“值得关注”变为“必须押注”的核心赛道。 [AINews] 新晋AI基础设施独角兽:Exa, Modal, TurboP

热心网友
05.27
OpenRouter月处理百亿Token AI中转服务盈利模式解析
AI资讯
OpenRouter月处理百亿Token AI中转服务盈利模式解析

OpenRouter完成1 13亿美元B轮融资,估值达13亿美元,一年内翻倍。其作为AI模型聚合平台,每周处理约25万亿tokens,连接超400个模型,为企业提供统一API、智能路由与成本管理。投资方包括谷歌旗下CapitalG和英伟达等,反映出行业对多模型调度层战略价值的共识。平台实时排行榜已成为观察AI趋势的重要风向标。

热心网友
05.27
OpenRouter月处理100万亿Token AI中转服务盈利惊人
AI资讯
OpenRouter月处理100万亿Token AI中转服务盈利惊人

每周处理高达25万亿个tokens的真实流量,估值在短短一年内实现翻倍——AI模型聚合平台OpenRouter近日成功完成1 13亿美元的B轮融资。这背后揭示的,远不止是简单的“中间商”逻辑,而是一个正在重塑企业AI应用范式的关键基础设施。 日前,这家备受瞩目的平台正式宣布了本轮融资消息。领投方为谷

热心网友
05.27
OpenRouter完成B轮融资获1.13亿美元 估值达13亿美元
AI资讯
OpenRouter完成B轮融资获1.13亿美元 估值达13亿美元

近日,领先的AI网关与模型聚合平台OpenRouter宣布完成1 13亿美元B轮融资,本轮融资由谷歌母公司Alphabet旗下的成长型风险投资基金CapitalG领投。据《纽约时报》报道,此轮融资后,OpenRouter的估值已跃升至约13亿美元,正式跻身独角兽行列。 这家成立于2023年的创新企业

热心网友
05.27

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

如何选择PPT软件:提升演示效果的关键指南
AI教程
如何选择PPT软件:提升演示效果的关键指南

制作PPT用什么软件好?2024年五大主流工具深度评测 无论是职场汇报、学术答辩还是项目路演,一份专业且吸引人的PPT演示文稿都至关重要。面对众多制作工具,如何选择最适合自己的那一款?本文将对五款主流的PPT软件进行全方位对比分析,从功能、协作、设计到易用性,助您根据核心需求做出最佳决策,高效打造令

热心网友
05.27
朗玛信息股价下跌3.16%后市走势分析及投资机会探讨
AI资讯
朗玛信息股价下跌3.16%后市走势分析及投资机会探讨

今日A股市场整体走势偏弱,朗玛信息(股票代码300288)股价同步调整,截至收盘下跌3 16%,全天成交额4783 73万元,换手率为1 77%,公司总市值约为35 21亿元。股价的短期波动,引发了投资者对其核心投资逻辑与未来潜在机会的深入探讨。 异动深度解析:AI医疗战略的机遇与挑战 朗玛信息是市

热心网友
05.27
超级蠕虫大战圣诞老人2攻略 游戏玩法技巧全解析
游戏攻略
超级蠕虫大战圣诞老人2攻略 游戏玩法技巧全解析

《超级蠕虫大战圣诞老人2》是一款休闲益智游戏,攻略涵盖基本操作、关卡解锁与道具使用。玩家需掌握战斗策略与技能升级,熟悉敌人特性和环境机制。合理运用道具并完成隐藏任务可获取奖励,多人模式注重策略博弈。建议多练习并参与社区交流,同时注意游戏时长以保护视力。

热心网友
05.27
Kimi联网搜索排除干扰技巧 精准限定提示词方法
AI资讯
Kimi联网搜索排除干扰技巧 精准限定提示词方法

在Kimi里搜索“2026年北京积分落户政策细则”,如果跳出来的总是房产中介的软文、培训机构的广告或者各种自媒体猜测,那说明默认的联网检索没有经过过滤。想要获得干净、权威的结果,必须主动使用结构化的提示词进行限定。 用结构化提示词锁定权威信源 这一步是关键,直接决定了你看到的信息是来自官方发布渠道,

热心网友
05.27
Qoder编辑器自动保存功能设置与基础配置教程
AI资讯
Qoder编辑器自动保存功能设置与基础配置教程

为避免代码丢失,Qoder编辑器需手动开启自动保存功能。全局设置中可开启开关并选择触发条件,如按时间间隔或窗口失去焦点时保存。还可为特定项目单独配置,覆盖全局设置。若功能失效,需检查文件位置是否只读、用户权限是否足够,并避免直接编辑受保护的系统文件。

热心网友
05.27