首页 游戏 软件 资讯 排行榜 专题
首页
AI
龙虾创企OpenClaw暴涨,32款养虾大模型集结上线

龙虾创企OpenClaw暴涨,32款养虾大模型集结上线

热心网友
98
转载
2026-03-11


智东西
作者 陈骏达
编辑 心缘

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西3月9日报道,就在刚刚,OpenClaw发布了2025.3.8版本的更新,引入CLI备份能力、macOS远程网关令牌配置、ACP溯源功能,并修复了飞书插件安装后重复提示下载的问题,进一步优化了OpenClaw框架的安全性、提升了与外部服务的集成深度。


▲OpenClaw2026.3.8更新(图源:X平台)

这是两天内OpenClaw发布的第二次更新,就在昨天,OpenClaw一口气推出300多条修复、27项变更和1项重大变更,OpenClaw最新更是发文称:“我们不搞那种琐碎的小版本发布。”言下之意就是:要搞就搞大的。


▲OpenClaw2026.3.7更新(图源:X平台)

OpenClaw创始人Peter Steinberger还在3月7日顺势转发了专用于评估大模型在OpenClaw智能体任务中表现的基准测试PinchBench,从32款模型评出最新养龙虾大模型排行榜。

其中排名前三的,有两个都是国产模型,分别是MiniMax M2.1和Kimi K2.5。


▲Peter Steinberger转发PinchBench(图源:X平台)

英伟达创始人兼CEO黄仁勋在上周摩根士丹利TMT大会发出感叹:“Linux花了30年才达到的成就,OpenClaw只用了3周。”

虽然黄仁勋的表述可能有些夸张,不过事实是,自今年1月以来,OpenClaw的热度迅速攀升。截至今天下午18点,其GitHub星标数量已经达到27万个,超过了知名开源项目Linux、React,排名全球第一。


一系列围绕OpenClaw的活动、讨论乃至“搞钱机会”多点开花。上周,在深圳,腾讯大厦门口免费安装OpenClaw的活动排起长队,有腾讯员工评价这一盛况堪比春节发红包,甚至连马化腾都在朋友圈感叹:“没有想到会这么火”。


▲马化腾感叹OpenClaw热度(图源:雷锋网)

在美国纽约,一场以OpenClaw为主题的ClawCon大会吸引了超1300人,从大学生、游戏 开发者到硅谷程序员都纷纷报名,远超会场本身容量,600多人最后被拒之门外。一位参会者称:“没有人关心你本来是做什么的,大家只关心你在用OpenClaw Agent做什么?”


▲ClawCon大会盛况(图源:The Verge)

脑子活络的网友已经靠OpenClaw赚到第一桶金了,以OpenClaw上门安装为关键词搜索,能找到不少帖子,一次上门安装服务的价格在500元左右。有从业者甚至宣称,短短数日内凭借这门手艺赚了26万元,不过这一数据的出处已经无从考证。


▲MiniMax股价逼近1000港元(图源:腾讯自选股)

爆火之中掺杂着混乱。

今年2月,工业和信息化部网络安全威胁和漏洞信息共享平台监测发现OpenClaw开源AI Agent部分实例在默认或不当配置情况下存在较高安全风险,极易引发网络攻击、信息泄露等安全问题。相关部门建议,在部署和应用OpenClaw时,应充分核查公网暴露情况、权限配置及凭证管理情况,关闭不必要的公网访问。

OpenClaw创始人Peter Steinberger昨天在X上亲自下场手撕国内社交平台上的“李鬼”账号,明确强调:OpenClaw目前在微博、B站没有任何最新号。


▲Peter Steinberger在打假(图源:X平台)

OpenClaw甚至带动了A股和港股市场中“龙虾概念股”的疯涨,A股优刻得、博睿数据等涨停,港股MiniMax收盘涨23.77%,总市值突破3100亿港元,智谱、云知声等相关股跟涨。


一、OpenClaw框架大更新,安全与上下文成重点

OpenClaw项目在3月8日进行的一次重磅更新,发布了300多条修复、27项变更和1项重大变更。贡献者列表显示,一共有194人参与,这对于一个开源项目来说已经很多了。


OpenClaw在X平台的最新账号,给这次更新划了重点:支持OpenAI、谷歌的新模型、优化各大通讯平台的兼容性问题、新增SecretRef安全验证以及新增可插拔上下文引擎等等,直指OpenClaw在日常使用中出现的多种痛点,许多更新项目就是由用户自己开发的,显示出这一社区的活跃度。

这次更新解决了OpenClaw原版框架中无法自主选择记忆管理插件的痛点,还优化了客户端与Agent之间的通信协议的稳定性,并提供持久性的Discord频道与Telegram的绑定存储。

中国开发者也贡献了不少更新。OpenClaw在国内常常与飞书一起搭配使用,但在与飞书生态的结合上还做得不是很好。国内开发者@liuxiaopai-ai、@rexl2018、@kcinzgg和@aerelune等就提交多个更新,优化了OpenClaw在飞书内部进行命令识别、消息交互、身份识别优化时的效果。


对于饱受诟病的安全性问题,OpenClaw项目也进行了查缺补漏。最重大的变更是,如今网关认证不再允许模棱两可的配置——当同时设置了认证令牌和密码时,系统会强制要求明确指定认证模式,而不是让系统猜测或允许两者共存,从根源上杜绝了因配置歧义导致的安全漏洞或服务启动失败。

OpenClaw的网关与模型验证现已支持SecretRef,这允许用户以引用方式管理认证令牌,而不再需要将明文密钥直接写在配置文件中。此外,系统为了防止信息意外外泄,移除了/status/models等用户界面中的权限密钥片段,并增加了在CLI输入密码时的硬化处理,避免密码通过进程列表泄露。

不过,除了底层框架的优化之外,用OpenClaw搭建Agent也需要一个智慧的大脑,PinchBench的推出,正好为广大用户提供了一个标准。

二、Kilo Code推出“龙虾基准测试”,中国模型性价比突出

PinchBench目前包含23项不同类别的任务,比如股票价格研究、文档摘要、文件结构创建、多步复杂工作流等,为的是全面评估模型在OpenClaw框架下完成编程、办公、创作等多类型任务的能力。

目前,已经有超30款模型参与了这一基准测试。值得一提的是,中国模型展现出明显的性能与价格优势。

在正确率榜单的前10名中,来自谷歌的Gemini 3 Flash Preview拿下第一,而MiniMax M2.1和Kimi K2.5分列第二、第三,接下来是来自谷歌、OpenAI和Anthropic的多款模型,阿里的Qwen3 Coder Next位列第十。


在性价比方面,中国模型的优势更为明显。比如,MiniMax M2.1与Gemini 3 Flash Preview的正确率差距为1.5%,而MiniMax M2.1的成本只有Gemini 3 Flash Preview的大约1/10;Kimi K2.5的表现超过了Claude Opus 4.6,而价格仅为后者的零头。


分数之外,这些模型在具体场景的表现究竟如何?

拿下准确率榜第一的Gemini 3 Flash Preview参加了11项任务的测试,满分11分,得分为10.5。在日历填写、编程和文件操作等任务中,Gemini 3 Flash Preview拿到了满分成绩,不过在理解、写作等任务中出现瑕疵,而在上下文记忆检索任务中其表现最差,得分仅为80%。


位列榜二的MiniMax M2.1同样拿到10.5分的成绩,在编程任务上,其得分略逊于Gemini 3 Flash Preview,在上下文记忆检索任务其得分与Gemini 3 Flash Preview一致,都为80%。

在事实验证、写作、研究等任务上,MiniMax M2.1拿到了满分。此外,MiniMax M2.1在复杂多步骤工作流上的表现要比Gemini 3 Flash Preview好上3%,这类工作流在Agent任务中是极为常见的。


位列第三的Kimi K2.5拿下写作、编程、研究等7项满分,不过同样在上下文记忆检索任务中踩坑。看来,对目前的大模型而言,长上下文中的信息捕捉能力仍是有待提升的短板。


榜单上,还有几款新发布的模型意外地表现不佳。比如,OpenAI最新发布的GPT-5.4任务正确率仅有76%,在总榜上排名第20,甚至不如2024年发布的GPT-4o。

其在上下文记忆检索任务、复杂工作流、信息理解上的正确率仅有70%左右,在文档总结、记忆两项测试中得分为零。


Qwen3 Max Thinking的任务正确率仅有46%,在部分涉及文件操作、脚本撰写的任务上未能成功执行,拿了零分。


从PinchBench的初步测评结果来看,我们已经能总结出一些共性特点。

对于Agent这一任务场景来说,并不是模型越大就越好,也不是越新越好。许多进入正确率排名前十的模型都不是最大、最强的版本,比如Gemini 3 Flash Preview的成绩要优于Gemini 3 Pro Preview,Claude Haiku 4.5的得分要优于Claude Opus 4.6。

在Agent任务中,尤其是多步骤工作流、文件操作、编程等,模型通常需要多次调用工具或与环境交互。在这些任务中,轻量级模型更快的推理速度与响应延迟,以及更短的思考长度,可能提升了整个工作流的稳定性和成功率。

结语:OpenClaw热度不减,开源生态持续推高热度

以OpenClaw为代表的Agent框架,正深刻影响着大模型行业的方方面面。比如,衡量模型在OpenClaw中表现的基准测试“PinchBench”,未来有可能成为指导模型开发商优化模型能力的重要参考,以便让模型更好地适应Agent工作流。

同时,OpenClaw也在不断补齐自身的安全与兼容性短板。OpenClaw的开源特性让全球开发者都可以参与到这一框架的优化过程中。随着更多技术力量的汇入,这股“养龙虾”的热潮或许仍将持续发酵。

来源:https://www.163.com/dy/article/KNLTA1OR051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

坏了,我成AI的乙方了!Anthropic论文爆火,谁还敢无脑Copy?
AI
坏了,我成AI的乙方了!Anthropic论文爆火,谁还敢无脑Copy?

Anthropic开年研究:AI辅助编程,效率幻觉与认知代价 新智元报道 编辑:倾倾 【新智元导读】Anthropic开年发布了一项颇具冲击力的研究,直指一个尖锐问题:AI辅助编程,究竟是在提升效率,还是在悄然削弱开发者的核心能力?研究数据揭示的真相,可能比想象中更为复杂。 论文地址:https:

热心网友
04.14
思科首席执行官Chuck Robbins:公司已启动太空数据中心初步准备
科技数码
思科首席执行官Chuck Robbins:公司已启动太空数据中心初步准备

IT之家 4 月 7 日消息,Cisco 思科首席执行官 Chuck Robbins 在接受外媒 The Verge 采访时表示,该企业已启动太空数据中心的初步早期准备。Chuck Robbins

热心网友
04.07
《黑袍纠察队》主创们震惊地发现自己的剧本竟成为现实
娱乐
《黑袍纠察队》主创们震惊地发现自己的剧本竟成为现实

《黑袍纠察队》主创艾瑞克·克里普克对剧集大结局的播出时间感到有些遗憾,并对发布终章的时机深表惋惜。这位创作人坦言,在2024年美国总统大选之前就完成了最终季的剧本创作,这让他感到由衷的“沮丧”,因

热心网友
04.07
全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙
AI
全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙

新智元报道编辑:Aeneas KingHZ【新智元导读】刚刚,Anthropic首度实锤:大模型真有「情绪」!激活绝望神经元后,Claude会撒谎、作弊甚至勒索。AI内心戏曝光,人类对齐面临失控危机

热心网友
04.07
比特币(BTC)年末价格未现
web3.0
比特币(BTC)年末价格未现"疯狂"走势,意味着一季度不会出现硬着陆

比特币年末行情为何“缺席”暴涨?资深专家深度解读市场新常态 与往年不同,比特币(BTC)在今年的年末并未上演惊心动魄的“疯狂上涨”行情。这一现象引起了Web3社区和传统金融市场的广泛讨论。然而,在知名投资人安东尼·庞普利亚诺等资深观察家看来,这种“缺席”并非坏事,反而可能预示着市场正在走向成熟,并为

热心网友
04.02

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

最早的以太坊是哪个 最早的以太坊叫什么
web3.0
最早的以太坊是哪个 最早的以太坊叫什么

以太坊的第一个公开版本被称为“Frontier”,它标志着这个去中心化应用平台的正式诞生。本文将详细介绍这个最初版本的以太坊,及其在整个发展历程中的重要意义。 一、创世之初:Frontier的诞生 说起以太坊的起点,绕不开它的第一个正式公开版本——Frontier。这个版本于2015年7月30日正式

热心网友
04.19
李小冉被曝退赛后首发声,晒录音照好认真:努力赶上优秀的姐姐们
娱乐
李小冉被曝退赛后首发声,晒录音照好认真:努力赶上优秀的姐姐们

《乘风破浪的姐姐2026》开播引爆话题:舞台争议与个人魅力交织,看点十足 备受期待的《乘风破浪的姐姐2026》全新一季正式开播,迅速霸占各大社交平台热搜榜。节目中,各位姐姐纷纷展现各自的舞台实力与个人特色,部分表演虽被观众认为“尚有提升空间”,甚至偶有发挥失常的场面,但随着赛程深入,多位姐姐凭借鲜明

热心网友
04.19
欧易OKX国际官网入口 欧易OKX最新官网访问链接
web3.0
欧易OKX国际官网入口 欧易OKX最新官网访问链接

对于全球数字资产交易者来说,欧易OKX(OKX)是一个耳熟能详的名字。它提供从现货、合约到理财、NFT与Web3的一站式服务。不过,网络环境复杂,找到正确的官网入口是保障安全的第一步。本文将为你提供其国际官网的最新访问链接,帮助你安全、便捷地登录与浏览。 OKX 国际官网入口 要访问OKX的国际版官

热心网友
04.19
《女神异闻录》周边副标题取消 再引重制版游戏猜测
游戏资讯
《女神异闻录》周边副标题取消 再引重制版游戏猜测

《女神异闻录》周边副标题取消 再引重制版游戏猜测 几周前,Atlus推广《女神异闻录》系列周边的方式,就已在玩家社区里激起了不小的水花。而今天发生的一件小事,则让这个话题再度升温,确实值得仔细琢磨一番。 事情的起因,是一批纪念系列初代作品的T恤正式开售。这里说的“初代作品”,指的是《女神异闻录3》问

热心网友
04.19
whenever 的使用场景与常见错误解析
编程语言
whenever 的使用场景与常见错误解析

理解whenever的基本功能在Ruby编程领域,whenever是一个广为人知的Ruby Gem,它的核心作用是将Ruby代码编写的周期性任务,转换为操作系统的crontab格式。这使得开发者能够使用更熟悉、更灵活的Ruby语法来定义和管理需要定时执行的任务,例如数据备份、报告生成、缓存清理或AP

热心网友
04.19